随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
规范化层,如批次规范化和层标准化,是现代神经网络的核心组成部分,被广泛采用以提高训练稳定性和概括性。 虽然它们的实际有效性有据可查,但从初始化开始,对规范化如何影响模型行为的详细理论理解仍然是一个重要的开放问题。 在这项工作中,我们研究在隐藏层中规范化的存在和放置如何影响训练开始之前网络预测的统计属性。 特别是,我们研究这些选择如何在初始化时塑造类预测的分布,从无偏见(中立)到高度集中(预判)到类的一个子集。 我们的分析表明,归一化放置会诱发神经网络初始预测行为的系统差异,进而塑造学习的动态。 通过将架构选择与初始化时的预测统计联系起来,我们的工作提供了对规范化如何影响早期训练行为的原则性理解,并为更可控和可解释的网络设计提供指导。
了解神经网络(NN)的可推广性仍然是深度学习研究的核心问题。 怪诞的特殊现象,在训练性能达到近乎完美的水平后,NNs突然推广,为研究NNs可推广性的潜在机制提供了一个独特的窗口。 在这里,我们提出了一种解释,将其定义为计算玻璃放松:将NN视为一个物理系统,其中参数是自由度,火车损失是系统能量,我们发现记忆过程类似于在低温下将液体快速冷却成非平衡玻璃状态,而后来的概括就像朝着更稳定的配置缓慢放松。 这种映射使我们能够将NN的玻尔兹曼熵(密度状态)景观作为训练损失和测试精度的函数进行采样。 我们在算术任务的变压器实验表明,在grokking的背化到概括的过渡中没有熵屏障,挑战了以前将Gokking定义为一阶相变的理论。 我们确定了在grokking下的高熵优势,这是将熵与可推广性联系起来的先前工作的扩展,但更重要。 受grokking远非均衡性质的启发,我们开发了一种基于Wang-landau分子动力学的玩具优化器WanD,它可以消除没有任何约束的grokking,并找到高规范的通用解决方案。 这为理论提供了严格定义的反例,将grokking仅归因于权重规范向Goldilocks区域的演变,并提出了优化器设计的新的潜在方法。
深度学习中的扩展定律 - 将模型性能与资源增长联系起来的经验权力法则关系 - 已经成为跨架构,数据集和任务的简单而引人注目的规律。 这些法律在指导最先进的模型设计方面特别有影响,因为它们量化了增加数据或模型大小的好处,并暗示了机器学习中可解释性的基础。 然而,大多数研究都集中在训练结束时的无症状行为或模型大小的最佳训练时间。 在这项工作中,我们通过通过光谱复杂性规范的镜头分析整个训练动力学来揭示更丰富的画面。 我们确定了两个新颖的动态缩放定律,这些定律支配了训练过程中性能如何演变。 这些定律共同恢复了在收敛时众所周知的测试误差缩放,提供了泛化出现的机械解释。 我们的研究结果在CNN,ResNets和Vision Transformers上进行了MNIST,CIFAR-10和CIFAR-100的培训。 此外,我们使用可解决模型提供分析支持:使用二进制交叉熵训练的单层感知器。 在这个设置中,我们表明由隐性偏置驱动的光谱复杂性的增长反映了在固定规范下观察到的泛化行为,使我们能够将性能动力学与感知器中的经典学习规则联系起来。
规范化层,如批次规范化和层标准化,是现代神经网络的核心组成部分,被广泛采用以提高训练稳定性和概括性。 虽然它们的实际有效性有据可查,但从初始化开始,对规范化如何影响模型行为的详细理论理解仍然是一个重要的开放问题。 在这项工作中,我们研究在隐藏层中规范化的存在和放置如何影响训练开始之前网络预测的统计属性。 特别是,我们研究这些选择如何在初始化时塑造类预测的分布,从无偏见(中立)到高度集中(预判)到类的一个子集。 我们的分析表明,归一化放置会诱发神经网络初始预测行为的系统差异,进而塑造学习的动态。 通过将架构选择与初始化时的预测统计联系起来,我们的工作提供了对规范化如何影响早期训练行为的原则性理解,并为更可控和可解释的网络设计提供指导。
随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
自我蒸馏(SD)是一种使用自己的预测来改进自己的技术,作为一种简单而强大的机器学习方法引起了人们的注意。 尽管其广泛使用,但其有效性背后的机制仍不清楚。 在这项研究中,我们研究了超参数调谐多级SD的功效,该分类器具有用于噪声高斯混合物数据的二进制分类的线性分类。 在分析中,我们采用了统计物理学的复制方法。 我们的研究结果表明,SD性能改进的主要驱动因素是通过硬伪标签进行去噪,在中等大小的数据集中观察到最显着的收益。 我们还确定了增强SD的两个实用方法:早期停止,限制阶段的数量,这是广泛有效的,和偏见参数固定,这有助于标签不平衡。 为了从经验上验证我们的玩具模型得出的理论发现,我们使用预训练的ResNet骨干对CIFAR-10分类进行了额外的实验。 这些结果提供了理论和实践上的见解,促进了我们在嘈杂环境中对SD的理解和应用。
了解神经网络(NN)的可推广性仍然是深度学习研究的核心问题。 怪诞的特殊现象,在训练性能达到近乎完美的水平后,NNs突然推广,为研究NNs可推广性的潜在机制提供了一个独特的窗口。 在这里,我们提出了一种解释,将其定义为计算玻璃放松:将NN视为一个物理系统,其中参数是自由度,火车损失是系统能量,我们发现记忆过程类似于在低温下将液体快速冷却成非平衡玻璃状态,而后来的概括就像朝着更稳定的配置缓慢放松。 这种映射使我们能够将NN的玻尔兹曼熵(密度状态)景观作为训练损失和测试精度的函数进行采样。 我们在算术任务的变压器实验表明,在grokking的背化到概括的过渡中没有熵屏障,挑战了以前将Gokking定义为一阶相变的理论。 我们确定了在grokking下的高熵优势,这是将熵与可推广性联系起来的先前工作的扩展,但更重要。 受grokking远非均衡性质的启发,我们开发了一种基于Wang-landau分子动力学的玩具优化器WanD,它可以消除没有任何约束的grokking,并找到高规范的通用解决方案。 这为理论提供了严格定义的反例,将grokking仅归因于权重规范向Goldilocks区域的演变,并提出了优化器设计的新的潜在方法。
受限玻尔兹曼机器(RBM)是生成模型,能够学习具有丰富底层结构的数据。 我们研究学生学习的教师-学生设置,其中学生RBM学习由教师RBM生成的结构化数据。 通过调整教师隐藏单位的数量和权重行中的相关性来控制数据中的结构量。 在没有相关性的情况下,我们验证了性能独立于学生RBM的教师模式和隐藏单元数量的猜想,我们认为师生设置可以作为研究彩票假说的玩具模型。 除了这个制度之外,我们发现学习教师模式所需的关键数据量会随着数量和相关性而下降。 在这两种机制中,我们发现,即使有一个相对较大的数据集,如果用于正则化的推理温度保持过低,就不可能学习教师模式。 在我们的框架中,学生可以一对一或多对一学习教师模式,将以前关于教师-学生设置的发现与两个隐藏单元推广到任意任意有限数量的隐藏单元。
袋装下(UB)结合了采样不足和袋装,是一种流行的集成学习方法,用于在不平衡的数据上训练分类器。 使用袋装来减少由于采样不足而减少样本量而引起的增加的方差是一种自然的方法。 然而,最近有人指出,在广义线性模型中,幼稚的袋装,不考虑类不平衡结构,和山脊正则化可以产生相同的结果。 因此,在训练线性模型时,使用UB是否更好并不明显,因为它需要与采样不足的数据集数量成比例的增加计算成本。 鉴于这种情况,在这项研究中,我们异构地导出了UB的尖锐渐近,并用它来与从不平衡数据中学习的几种其他流行方法进行比较,在这种情况下,线性分类器从双组分混合数据中训练。 比较的方法包括采样不足(US)方法,该方法使用采样不足数据的单一实现来训练模型,以及简单的加权(SW)方法,该方法训练模型在整个数据上加权损失。 事实证明,UB的性能是通过增加多数类的大小,同时保持少数类的大小来改进的,即使类不平衡可能很大,特别是当少数类的大小很小时。 这与美国形成鲜明对比,美国的表现几乎独立于大多数班级的规模。 从这个意义上说,袋装和简单的正则化不同,因为减少方差的方法因采样不足而增加。 另一方面,具有最佳加权系数的SW的性能几乎等于UB,表明重新加权和正则化的组合可能与UB相似。
弥合深度学习的实际表现与其理论基础之间的差距通常涉及通过随机梯度下降(SGD)分析神经网络。 扩展了以前专注于在简单高斯设置下建模结构化输入的研究,我们分析了以高斯混合物建模的输入训练的深度学习系统的行为,以更好地模拟更通用的结构化输入。 通过实证分析和理论调查,我们证明在某些标准化方案下,深度学习模型会向高斯设置行为趋同,即使输入数据遵循更复杂的或现实世界的分布。 这一发现表现出一种普遍性的形式,其中不同的结构化分布产生与高斯假设一致的结果,可以支持深度学习模型的理论理解。
争抢量子系统已被证明是时间信息处理的有效基板。 虽然它们提供丰富的特征图的作用已经被广泛研究,但仍然缺乏对他们在时间任务中表现的理论理解。 在这里,我们考虑了一个通用的量子库处理框架,该框架用量子系统捕获了广泛的物理计算模型。 我们通过在无噪音和嘈杂环境中以高阶统一设计为模型的争抢储层来检查模型的可扩展性和内存保留。 在以前的制度中,我们表明,随着水库尺寸的增加,测量读数呈指数级集中,但令人惊讶的是,水库的迭代不会恶化。 因此,虽然反复使用带有量子数据的小型争抢库可能是可行的,但扩大问题规模会恶化概括,除非人们能够承受一个指数级的开销。 相比之下,早期输入和初始状态的记忆在储层大小和储层迭代中呈指数衰减。 在嘈杂的政权中,我们也证明了指数内存随着本地嘈杂通道的迭代而衰减。 证明这些结果需要我们引入新的证明技术,以便在时间量子学习模型中实现边界浓度。
我们提出了一个生成式、端到端的黑盒组合优化器,强调NP问题的样品效率和解决方案质量。 从基于退火的算法中汲取灵感,我们将黑箱目标视为能量函数,并训练神经网络来模拟相关的玻尔兹曼分布。 通过调节温度,网络捕获了连续的分布 - 从高温下的几乎均匀到在低温下在全球视光下急剧达到峰值 - 从而学习能源景观的结构并促进全球优化。 当查询费用昂贵时,依赖于温度的分布自然可以实现数据增强并提高样本效率。 当查询很便宜,但问题仍然困难时,模型会学习隐式变量交互,有效地“打开”黑匣子。 我们验证了我们在有限和无限制的查询预算下具有挑战性的组合任务的方法,展示了与最先进的黑盒优化器的竞争表现。
最近的实验表明,训练具有不同架构、优化算法、超参数设置和正则化方法的多个深度神经网络的轨迹在概率分布空间中以极低维的“超丝带状”流形演变。 受到深度网络和线性网络训练轨迹的相似性的启发,我们分析地为后者表征了这一现象。 我们使用动力学系统理论中的工具来表明,这种低维流形的几何形状是由(i)训练数据输入相关性矩阵的特征值的衰变率控制的,(ii)训练开始时地面-真理输出到权重的相对尺度,以及(iii)梯度下降的步骤数。 通过分析计算和限制这些数量的贡献,我们表征了预计超带的区域的相位边界。 我们还将分析扩展到内核机器和线性模型,这些模型通过随机梯度下降进行训练。
分离相关和不相关的信息是任何建模过程或科学探究的关键。 理论物理学提供了一个强大的工具,以重整化组(RG)的形式实现这一目标。 在这里,我们展示了在高斯过程(GP)回归的背景下执行Wilsonian RG的实用方法。 我们系统地集成了 GP 内核的不可学习模式,从而获得了 GP 的 RG 流,其中数据集设置了 IR 量表。 在简单的情况下,这导致 ridge 参数的通用流,在包含非高斯性的更丰富场景中,该参数变得依赖输入。 除了分析处理之外,这种方法还超越了RG和神经网络之间的结构类比,提供了RG流和可学习模式与可学习模式之间的自然连接。 研究这些流可以提高我们对深度神经网络特征学习的理解,并使我们能够识别这些模型中潜在的普遍性类。
最近的理论表明,每当任务线性分解成功率定律分布式单元时,就会出现神经缩放定律。 或者,当数据表现出分层组成结构时,也会出现缩放定律,正如在语言和图像中被认为的那样。 为了统一这些观点,我们考虑基于概率无上下文语法的分类和下令牌预测任务 - 通过生产规则的层次结构生成数据的概率模型。 对于分类,我们表明,拥有功率法分布式生产规则会导致一个功率定律学习曲线,其指数取决于规则的分布和依赖于层次结构的大型乘法常数。 相比之下,对于下一个令牌预测,生产规则的分布控制学习曲线的局部细节,但不是描述大规模行为的指数。
Dropout是一种规范化技术,广泛用于训练人工神经网络以减轻过度拟合。 它包括在训练期间动态停用网络的子集,以促进更强大的表示。 尽管辍学概率被广泛采用,但辍学概率往往是以异质方式选择的,对其成功的理论解释仍然很少。 在这里,我们分析研究通过在线随机梯度下降训练的双层神经网络的辍学。 在高维极限中,我们得出一组普通的微分方程,这些方程在训练过程中完全表征了网络的演化,并捕获了dropout的影响。 我们获得了一些准确的结果,描述了短、中、长训练时间的普遍误差和最佳掉落概率。 我们的分析表明,dropout减少了隐藏节点之间的有害相关性,减轻了标签噪声的影响,并且最佳dropout概率随着数据中的噪声水平而增加。 我们的结果通过广泛的数值模拟验证。
当神经网络(NN)受到L2正则化时,将正则化强度提高到超过一定阈值的正则化强度将模型推向参数不足的化机制。 这种过渡表现为单层 NN 中的一阶相变和具有两个或多个隐藏层的 NN 中的二阶相变。 本文通过将损失景观的Ricci曲线与正则化器驱动的深度学习相结合,为这种过渡建立了一个统一的框架。 首先,我们表明,曲率变化点将学习开始时的模型精度机制分开,并且它与正则化驱动的相变的关键点相同。 其次,我们表明,对于更复杂的数据集,模型精度之间存在额外的相变,并且它们再次与错误环境中的曲率变化点相同。 第三,通过使用变量自动解码器研究MNIST数据集,我们证明曲率变化点可识别L2设置之外模型精度的相变。 我们的框架还提供了实用的见解,用于优化各种架构和数据集的模型性能。 通过将误差图景的几何特征与可观察的相变联系起来,我们的工作为更明智的正则化策略和潜在的新方法铺平了道路,以探测L2上下文之外神经网络的内在结构。
神经语言模型在训练下一个令牌预测时如何获得语言的结构? 我们通过在随机层次结构模型(RHM)生成的合成数据集上为神经网络性能推导出理论缩放定律来解决这个问题 - 一种概率无上下文语法的集合,旨在捕获自然语言的分层结构,同时保持可分析性。 以前,我们开发了一种基于数据相关性的表示学习理论,该理论解释了深度学习模型如何依次捕获数据的层次结构,一次一层。 在这里,我们扩展了我们的理论框架,以考虑架构上的差异。 特别是,我们预测并实证验证了卷积网络,其结构与通过局部和权重共享的生成过程保持一致,与依赖于全球自我注意力机制的变压器模型相比,具有更快的性能扩展。 这一发现澄清了神经缩放定律背后的架构偏差,并强调了表示学习是如何通过模型架构和数据的统计属性之间的相互作用来塑造的。
水库计算是一个强大的实时信息处理框架,其特点是其高计算能力和快速学习,应用范围从机器学习到生物系统。 在本文中,我们证明了存储库循环神经网络的记忆容量与读出神经元的数量呈亚线性尺度。 为了阐明这种现象,我们开发了一个分析推导记忆能力的理论框架,将记忆能力的衰减增长归因于神经元相关性。 此外,数值模拟显示,一旦内存容量成为亚线性,增加读出神经元的数量,连续实现非线性处理,逐步提高多项式顺序。 此外,我们的理论框架表明,神经元相关性不仅支配着记忆能力,也支配着非线性计算能力的顺序增长。 我们的研究结果为设计可扩展且具有成本效益的水库计算奠定了基础,为神经元相关性、线性内存和非线性处理之间的相互作用提供了新的见解。
神经网络具有生成有意义的任务依赖特征表示的关键能力。 事实上,通过适当的扩展,神经网络中的监督学习可以产生强大的,依赖于任务的特征学习。 然而,我们称为“编码方案”的紧急陈述的性质仍不清楚。 为了理解紧急编码方案,我们使用贝叶斯框架研究完全连接的宽神经网络学习分类任务,其中学习塑造了网络权重的后验分布。 与之前的研究结果一致,我们对特征学习制度(也称为“非懒惰”、“丰富”或“均场”制度)的分析表明,这些网络获得了强大的、数据依赖的特征。 令人惊讶的是,内部表征的性质在很大程度上取决于神经元非线性。 在线性网络中,出现了任务的模拟编码方案。 尽管表示强烈,但平均预测因子与懒惰的情况相同。 在非线性网络中,自发对称性断裂导致冗余或稀疏编码方案。 我们的发现强调了诸如权重缩放和神经元非线性等网络属性如何深刻地影响紧急表示。
从编码衍射模式(CDP)的相回回对于X射线晶体学,衍射断层扫描和天文成像很重要,但仍然是一个困难的,非凸的逆问题。 我们表明,CDP恢复可以完全重新制定为连续可变XY Hamiltonian的最小化,并通过基于增益的光子网络解决。 我们利用的耦合模式方程是exciton-polariton condensate晶格、耦合激光阵列和驱动光子Bose-Einstein凝结物的自然均场动力学,而其他硬件如空间光子学Ising机器则可以通过高速数字反馈实现相同的更新规则,保留完整的光学并行性。 对图像、二维和三维漩涡和非结构化复杂数据的数字实验表明,基于增益的求解器在中噪声机制(信号与噪声比10-40 dB)中始终优于最先进的Relaxed-Reflect-Reflect(RRR)算法,并在问题大小尺度上保留这一优势。 由于物理平台执行连续优化,我们的方法承诺在现成的光子硬件(如二维和三维漩涡)和非结构化随机数据上快速,节能的阶段检索。 此外,随着问题规模的增加,求解器的准确性仍然很高,这凸显了其可扩展性。
近年来,人工神经网络彻底改变了机器学习,但对其学习过程的完整理论框架仍然缺乏。 在两个不同的理论框架内,在广泛的网络方面取得了实质性进展:神经纠结内核(NTK),它假设线性梯度下降动力学,以及贝叶斯神经网络高斯过程(NNGP)。 我们使用梯度下降学习将这两种理论与广泛的深度网络集合中的附加噪声统一起来。 我们为网络输入输出函数构建了一个分析理论,并引入了一个新的时间依赖的神经动力学内核(NDK),从中导出NTK和NNGP内核。 我们确定了两个学习阶段:梯度驱动的学习阶段,以损失最小化为主,其中时间尺度由初始化方差控制。 其次是缓慢的扩散学习阶段,参数对溶液空间进行采样,时间常数由噪声和贝叶斯先验方差决定。 两种方差参数强烈影响两种机制的性能,特别是在sigmoidal神经元中。 与初始阶段均值预测器的指数收敛相反,向均衡的收敛更为复杂,可能非单调地表现。 通过表征扩散阶段,我们的工作揭示了大脑中的代表性漂移,解释了神经活动如何在不降低性能的情况下连续变化,无论是通过同步不同突触的漂移的持续梯度信号,还是通过生成与任务相关的信息的建筑偏差来对抗漂移过程。 这项工作缩小了NTK和NNGP理论之间的差距,为深度神经网络的学习过程和分析生物回路中的动力学提供了全面的框架。