Optimizers Qualitatively Alter Solutions And We Should Leverage This
Razvan Pascanu, Clare Lyle, Ionut-Vlad Modoranu, Naima Elosegui Borras, Dan Alistarh, Petar Velickovic, Sarath Chandar, Soham De, James Martens
由于深度神经网络(DNNs)的非线性特性,当使用仅依赖局部信息的优化器(如SGD)时,无法保证收敛到损失函数的唯一全局最小值。事实上,这曾是早期该领域对DNNs可行性持怀疑态度的主要原因。过去几十年深度学习的进展表明这种怀疑是多余的,大量实证证据显示,遵循标准训练协议的足够大的DNNs表现出良好的优化动态,能够收敛到性能优异的解决方案。这一成功使得社区倾向于将凸优化作为学习的心理模型,从而在改进优化器时专注于训练效率(无论是所需的迭代次数、FLOPs还是实际时间)。我们认为,尽管这一视角已被证明极其富有成果,但另一个特定于DNNs的视角却鲜少受到关注:优化器不仅影响收敛速度,还影响所学解决方案的定性特性。换句话说,优化器能够且将会编码归纳偏差,并改变给定模型类的有效表达能力。此外,我们相信优化器可以成为在学习过程中编码期望目标的有效方式。我们主张社区应致力于理解现有方法的偏差,并旨在构建新的优化器,明确意图诱导解决方案的某些特性,而不仅仅基于收敛速度来评判它们。我们希望我们的论点能激发研究,增进我们对学习过程如何影响所收敛解决方案类型的理解,并促使人们更广泛地认识到优化器设计作为关键杠杆的作用,它与架构和数据在塑造模型结果中相辅相成。
Due to the nonlinear nature of Deep Neural Networks (DNNs), one can not guarantee convergence to a unique global minimum of the loss when using optimizers relying only on local information, such as SGD. Indeed, this was a primary source of skepticism regarding the feasibility of DNNs in the early days of the field. The past decades of progress in deep learning have revealed this skepticism to be misplaced, and a large body of empirical evidence shows that sufficiently large DNNs following standa...