Pruning as Regularization: Sensitivity-Aware One-Shot Pruning in ASR
Julian Irigoyen, Arthur Söhler and Andreas Søeborg Kirkedal
我们挑战神经网络修剪的传统观点,因为它完全是一种压缩技术,表明一次射量级修剪是ASR的强大隐式正则化器。 使用Whisper-small,我们将基于梯度和Fisher的灵敏度诊断与有针对性的组件智能修剪相结合。 这揭示了建筑不对称:解码器FFN是修剪脆弱的,而解码器自注意和最后一个编码器层包含冗余,当移除时,可以提高概括性。 在不进行微调的情况下,修剪50%的解码器自我注意在LibriSpeech测试上减少了2.38%的绝对值(相对值20.44%);以50%的速度修剪最后四个编码器层,反而产生了1.72%的绝对(14.8%相对)的改善。 在Common Voice和TED-LIUM数据集上持续存在。 除了正则化的好处,我们的灵敏度感知方法可实现更积极的单次压缩。 在40%的麻痹处,在既定的全球修剪方法灾难性失败的情况下,我们的方法保留了近乎基线的准确性。 这种将修剪定位为一流的建筑设计工具:知道在哪里修剪与修剪多少一样重要。
We challenge the conventional view of neural network pruning as solely a compression technique, demonstrating that one-shot magnitude pruning serves as a powerful implicit regularizer for ASR. Using Whisper-small, we combine gradient- and Fisher-based sensitivity diagnostics with targeted, component-wise pruning. This reveals architectural asymmetries: decoder FFNs are pruning-fragile, whereas decoder self-attention and the last encoder layers contain redundancy that, when removed, improves gene...