42digest首页
深度学习的统计物理:在插值附近对多层感知器进行最佳学习

Statistical physics of deep learning: Optimal learning of a multi-layer perceptron near interpolation

Jean Barbier, Francesco Camilli, Minh-Toan Nguyen, Mauro Pastore, Rudy Skerk

arXiv
2025年10月28日

三十年来,统计物理学一直为分析神经网络提供了一个框架。 一个长期存在的问题仍然是其解决深度学习模型的能力,这些模型捕获了丰富的功能学习效果,从而超越了迄今为止分析的狭窄网络或内核方法。 我们通过多层感知器的监督学习研究积极回答。 重要的是,(i)其宽度缩放为输入维度,使其比超宽网络更容易进行特征学习,并且比窄网络或具有固定嵌入层更具表现力;(ii)我们专注于具有挑战性的插值机制,其中可训练参数和数据的数量是可比的,这迫使模型适应任务。 我们考虑匹配的师生设置。 它为学习随机深度神经网络目标提供了基本限制,并有助于识别足够的统计数据,描述随着数据预算的增加,通过优化训练的网络所学到的东西。 丰富的现象学随着各种学习转变而出现。 通过模型对目标的“专业化”获得足够的数据最佳性能,但很难达到被理论预测的次优解决方案所吸引的训练算法。 专业化在层层之间不均匀地发生,从浅层传播到深层,但也分布在每层的神经元之间。 此外,更深层次的目标更难学习。 尽管简单,但贝叶斯最优设置提供了关于深度,非线性和有限(比例)宽度如何影响特征学习系统中的神经网络的见解,这些神经网络可能与其相关。

For three decades statistical physics has been providing a framework to analyse neural networks. A long-standing question remained on its capacity to tackle deep learning models capturing rich feature learning effects, thus going beyond the narrow networks or kernel methods analysed until now. We positively answer through the study of the supervised learning of a multi-layer perceptron. Importantly, (i) its width scales as the input dimension, making it more prone to feature learning than ultra ...