Is Grokking a Computational Glass Relaxation?
Xiaotian Zhang, Yue Shang, Entao Yang, Ge Zhang
了解神经网络(NN)的可推广性仍然是深度学习研究的核心问题。 怪诞的特殊现象,在训练性能达到近乎完美的水平后,NNs突然推广,为研究NNs可推广性的潜在机制提供了一个独特的窗口。 在这里,我们提出了一种解释,将其定义为计算玻璃放松:将NN视为一个物理系统,其中参数是自由度,火车损失是系统能量,我们发现记忆过程类似于在低温下将液体快速冷却成非平衡玻璃状态,而后来的概括就像朝着更稳定的配置缓慢放松。 这种映射使我们能够将NN的玻尔兹曼熵(密度状态)景观作为训练损失和测试精度的函数进行采样。 我们在算术任务的变压器实验表明,在grokking的背化到概括的过渡中没有熵屏障,挑战了以前将Gokking定义为一阶相变的理论。 我们确定了在grokking下的高熵优势,这是将熵与可推广性联系起来的先前工作的扩展,但更重要。 受grokking远非均衡性质的启发,我们开发了一种基于Wang-landau分子动力学的玩具优化器WanD,它可以消除没有任何约束的grokking,并找到高规范的通用解决方案。 这为理论提供了严格定义的反例,将grokking仅归因于权重规范向Goldilocks区域的演变,并提出了优化器设计的新的潜在方法。
Understanding neural network's (NN) generalizability remains a central question in deep learning research. The special phenomenon of grokking, where NNs abruptly generalize long after the training performance reaches a near-perfect level, offers a unique window to investigate the underlying mechanisms of NNs' generalizability. Here we propose an interpretation for grokking by framing it as a computational glass relaxation: viewing NNs as a physical system where parameters are the degrees of free...