42digest首页
通过轮廓分析,低等级接近矩阵的新扰动边界

New perturbation bounds for low rank approximation of matrices via contour analysis

Phuc Tran and Van Vu

arXiv
2025年11月12日

让 A 是具有 rank r 和 spectral 分解 A = ∑ _i=1^r σ_i u_i v_i v_i^⊤ 的 m × n 矩阵,其中 σ_i 是它的单数值,顺序递减,u_i, v_i 是对应的左右单数向量。 对于参数 1 ≤ p ≤ r,A_p := ∑_i=1^p σ_i u_i v_i v_i^⊤ 是 A 的最佳等级 p 近似值。 在实践中,人们经常选择p小,领导常用的短语“低等级近似”。 低等级近似在数据科学中起着核心作用,因为它可以大大降低原始数据矩阵A的维度。 对于大数据矩阵A,通常计算一个排名近似A_p,用于适当选择的小p,存储A_p,并将其用作进一步计算的输入。 A_p 的缩小尺寸可实现更快的计算和显著的数据压缩。 在实践中,噪音是不可避免的。 我们经常只能访问嘈杂的数据 à = A + E,其中 E 表示噪声。 因此,在许多下游任务中用作输入的低等级近似是 �_p,是 �_p 的最佳等级 p 近似值,而不是 A_p。 因此,估计错误 Ã_p - A_p 是自然和重要的。 在本文中,我们开发了一种新方法(基于轮廓分析)绑定 �_p - A_p。 我们引入了新的参数,测量噪声矩阵 E 和 A 的奇异向量之间的偏斜,并利用这些参数在许多流行的设置中获得显着的改进。 这种方法具有独立的兴趣,并有许多进一步的应用。 我们关注的是A本身排名相对较低的情况。 这种假设在实践中经常得到满足,我们认为这种情况应该得到单独的,可获得的治疗。

Let A be an m × n matrix with rank r and spectral decomposition A = ∑ _i=1^r σ_i u_i v_i^⊤, where σ_i are its singular values, ordered decreasingly, and u_i, v_i are the corresponding left and right singular vectors. For a parameter 1 ≤ p ≤ r, A_p := ∑_i=1^p σ_i u_i v_i^⊤ is the best rank p approximation of A. In practice, one often chooses p to be small, leading to the commonly used phrase "low-rank approximation". Low-rank approximation plays a central role in data science because it can subst...