Phase diagram and eigenvalue dynamics of stochastic gradient descent in multilayer neural networks
Chanju Park (Swansea University), Biagio Lucini (Queen Mary University of London), Gert Aarts (Swansea University)
超参数调优是保证机器学习模型融合的基本步骤之一。 我们认为,关于随机梯度下降超参数最佳选择的直觉可以通过研究神经网络的相位图获得,其中每个相位的特点是重量矩阵的奇异值的独特动力学。 从无序系统中获得灵感,我们从观察开始,即具有平均平方误差的多层神经网络的损失景观可以解释为特征空间中的无序系统,其中学习的特征被映射到软旋转的自由度,重量矩阵的初始方差被解释为无序的强度,温度由学习率和批次大小的比例给出。 随着模型的训练,可以确定三个阶段,其中重量矩阵的动力学在质量上是不同的。 使用以前使用Dyson Brownian运动得出的随机梯度下降的Langevin方程,我们证明可以有效地分类三种动力学机制,为优化器的超参数选择提供实用指导。
Hyperparameter tuning is one of the essential steps to guarantee the convergence of machine learning models. We argue that intuition about the optimal choice of hyperparameters for stochastic gradient descent can be obtained by studying a neural network's phase diagram, in which each phase is characterised by distinctive dynamics of the singular values of weight matrices. Taking inspiration from disordered systems, we start from the observation that the loss landscape of a multilayer neural netw...