High-Dimensional Asymptotics of Differentially Private PCA
Youngjoo Yun and Rishabh Dudeja
在差异隐私中,通过引入随机噪声将敏感数据集的统计数据私有化。 大多数隐私分析都提供了隐私限制,指定了足以实现目标隐私保证的噪音水平。 有时,这些界限是悲观的,建议添加过多的噪音,这压倒了有意义的信号。 目前尚不清楚这种高噪音水平是否真的是必要的,还是证明技术的限制。 本文探讨了我们是否可以获得锐利的隐私特征,以确定达到给定机制的目标隐私水平所需的最小噪声水平。 我们在差异式私有主成分分析的背景下研究这个问题,其目标是将具有n个样本和p特征的数据集的主要主要组件(PC)私有化。 我们在无模型设置中分析此问题的指数机制,并在高维极限(p→∞)中提供清晰的实用和隐私表征。 我们的隐私结果表明,在高维度中,使用私有化的PC检测数据集中目标个体的存在与区分两个手段略有不同的高斯人一样困难,其中平均差异取决于数据集的某些光谱属性。 我们的隐私分析结合了Dong,Roth和Su(2022)提出的隐私保证的假设测试公式与Le Cam获得尖锐的高维隐私表征的经典连续论证。
In differential privacy, statistics of a sensitive dataset are privatized by introducing random noise. Most privacy analyses provide privacy bounds specifying a noise level sufficient to achieve a target privacy guarantee. Sometimes, these bounds are pessimistic and suggest adding excessive noise, which overwhelms the meaningful signal. It remains unclear if such high noise levels are truly necessary or a limitation of the proof techniques. This paper explores whether we can obtain sharp privacy...