42digest
神经热力学I:深度和通用表征学习中的熵力

Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning

Liu Ziyin, Yizhou Xu, Isaac Chuang

arXiv
2025年5月18日

随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。

With the rapid discovery of emergent phenomena in deep learning and large language models, explaining and understanding their cause has become an urgent need. Here, we propose a rigorous entropic-force theory for understanding the learning dynamics of neural networks trained with stochastic gradient descent (SGD) and its variants. Building on the theory of parameter symmetries and an entropic loss landscape, we show that representation learning is crucially governed by emergent entropic forces a...