Small Singular Values Matter: A Random Matrix Analysis of Transformer Models
Max Staats, Matthias Thamm, Bernd Rosenow
这项工作分析了预训练变压器模型中重量矩阵的奇异值光谱,以了解信息如何存储在光谱的两端。 使用随机矩阵理论(RMT)作为零信息假说,我们将与RMT的协议作为随机性和偏差的证据作为学习的证据。 令人惊讶的是,我们观察到,不仅从最大的奇异值(通常的异常值)中,而且从最小的值中,从RMT明显背离。 将相关的奇异向量与激活协方差矩阵的特征向量进行比较,表明在违反 RMT 的地方存在相当大的重叠。 因此,数据中的重要方向被小奇异值及其向量以及大值捕获。 我们通过经验来证实这一点:将偏离RMT的奇异值归零,使语言模型的困惑远远超过从批量中删除值,在微调最小十进制后,可能是频谱中第三最有影响力的部分。 为了解释与小奇异值链接的向量如何比那些链接到较大值的向量携带更多的信息,我们提出了一个线性随机矩阵模型。 我们的发现强调了频谱低端被忽视的重要性,并为基于SVD的大型语言模型的修剪和压缩提供了理论和实践指导。
This work analyzes singular-value spectra of weight matrices in pretrained transformer models to understand how information is stored at both ends of the spectrum. Using Random Matrix Theory (RMT) as a zero information hypothesis, we associate agreement with RMT as evidence of randomness and deviations as evidence for learning. Surprisingly, we observe pronounced departures from RMT not only among the largest singular values – the usual outliers – but also among the smallest ones. A comparison o...