在量子热力学中,一个系统由Hamiltonian描述,并且列出了代表粒子数或电荷等保守数量的非通勤电荷,一个重要的目标是在这些保守电荷的存在下确定系统的最低能量。 在优化理论中,半确定性程序(SDP)涉及在正半确定性运算符的圆锥体上优化的线性目标函数。 这些问题产生于物理和优化社区中的不同动机,并使用非常不同的术语措辞,但它们在数学上基本上是相同的。 通过采用Jaynes以量子热力学为动力的心态,我们观察到,在上述热力学问题中最小化自由能量,而不是能量,导致在化学潜在参数中凹陷的双重化学电位最大化问题方面获得优雅的解决方案。 因此,可以使用标准(随机)梯度上升方法来找到这些参数的最佳值,并且这些方法保证快速收敛。 在低温下,最小自由能量为最低能量提供了极好的近似值。 然后,我们展示了这种Jaynes启发的梯度上升方法如何用于一阶和二阶经典和混合量子经典算法,以最小化能量,并等效地,它如何用于解决SDP,并保证算法的运行时。 这里讨论的方法完全基于量子热力学,因此,提供了物理动机,为什么在Jaynes的开创性工作五十年后发布的算法,包括矩阵乘法权重更新方法,矩阵指数梯度更新方法及其量子算法泛化,在解决SDP方面表现良好。
随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
袋装下(UB)结合了采样不足和袋装,是一种流行的集成学习方法,用于在不平衡的数据上训练分类器。 使用袋装来减少由于采样不足而减少样本量而引起的增加的方差是一种自然的方法。 然而,最近有人指出,在广义线性模型中,幼稚的袋装,不考虑类不平衡结构,和山脊正则化可以产生相同的结果。 因此,在训练线性模型时,使用UB是否更好并不明显,因为它需要与采样不足的数据集数量成比例的增加计算成本。 鉴于这种情况,在这项研究中,我们异构地导出了UB的尖锐渐近,并用它来与从不平衡数据中学习的几种其他流行方法进行比较,在这种情况下,线性分类器从双组分混合数据中训练。 比较的方法包括采样不足(US)方法,该方法使用采样不足数据的单一实现来训练模型,以及简单的加权(SW)方法,该方法训练模型在整个数据上加权损失。 事实证明,UB的性能是通过增加多数类的大小,同时保持少数类的大小来改进的,即使类不平衡可能很大,特别是当少数类的大小很小时。 这与美国形成鲜明对比,美国的表现几乎独立于大多数班级的规模。 从这个意义上说,袋装和简单的正则化不同,因为减少方差的方法因采样不足而增加。 另一方面,具有最佳加权系数的SW的性能几乎等于UB,表明重新加权和正则化的组合可能与UB相似。
弥合深度学习的实际表现与其理论基础之间的差距通常涉及通过随机梯度下降(SGD)分析神经网络。 扩展了以前专注于在简单高斯设置下建模结构化输入的研究,我们分析了以高斯混合物建模的输入训练的深度学习系统的行为,以更好地模拟更通用的结构化输入。 通过实证分析和理论调查,我们证明在某些标准化方案下,深度学习模型会向高斯设置行为趋同,即使输入数据遵循更复杂的或现实世界的分布。 这一发现表现出一种普遍性的形式,其中不同的结构化分布产生与高斯假设一致的结果,可以支持深度学习模型的理论理解。
我们提出了一种推断高维随机系统(包括多体系统和具有长时记忆的非马尔可夫系统)熵产生(EP)的方法。由于计算和统计限制,在这些系统中估计EP的标准技术变得难以处理。我们利用非平衡最大熵原理的类比以及凸对偶性,推断轨迹层面的EP和平均EP的下界。我们的方法仅使用轨迹可观测量(如时空相关函数)的样本,不需要重建高维概率分布或速率矩阵,也不需要任何特殊假设,例如离散状态或多部分动力学。它可以用于计算EP的层次分解,反映不同种类相互作用的贡献,并且具有直观的物理解释,即作为一种热力学不确定关系。我们在一个具有1000个自旋的无序非平衡自旋模型和一个大型神经脉冲序列数据集上展示了其数值性能。
我们提出了一个生成式、端到端的黑盒组合优化器,强调NP问题的样品效率和解决方案质量。 从基于退火的算法中汲取灵感,我们将黑箱目标视为能量函数,并训练神经网络来模拟相关的玻尔兹曼分布。 通过调节温度,网络捕获了连续的分布 - 从高温下的几乎均匀到在低温下在全球视光下急剧达到峰值 - 从而学习能源景观的结构并促进全球优化。 当查询费用昂贵时,依赖于温度的分布自然可以实现数据增强并提高样本效率。 当查询很便宜,但问题仍然困难时,模型会学习隐式变量交互,有效地“打开”黑匣子。 我们验证了我们在有限和无限制的查询预算下具有挑战性的组合任务的方法,展示了与最先进的黑盒优化器的竞争表现。
是ICing Machine(IM)是专门设计的设备,旨在有效地解决组合优化问题(COP)。 它们由人工旋转组成,向代表问题解决方案的低能耗配置发展。 大多数现实的COP都需要自旋-自旋耦合和外部领域。 在具有模拟自旋的IM中,这些相互作用与连续自旋振幅的尺度不同,导致影响性能的不平衡。 已经提出了各种技术来缓解这个问题,但它们的表现没有基准。 我们通过数值分析来解决这个差距。 我们通过三个不同的问题类评估这些方法的时间到解决方案,最多500个自旋。 我们的结果表明,整合外部场的最有效方法是通过一种方法,其中自旋相互作用与自旋符号成正比,而不是它们的连续振幅。
最近的实验表明,训练具有不同架构、优化算法、超参数设置和正则化方法的多个深度神经网络的轨迹在概率分布空间中以极低维的“超丝带状”流形演变。 受到深度网络和线性网络训练轨迹的相似性的启发,我们分析地为后者表征了这一现象。 我们使用动力学系统理论中的工具来表明,这种低维流形的几何形状是由(i)训练数据输入相关性矩阵的特征值的衰变率控制的,(ii)训练开始时地面-真理输出到权重的相对尺度,以及(iii)梯度下降的步骤数。 通过分析计算和限制这些数量的贡献,我们表征了预计超带的区域的相位边界。 我们还将分析扩展到内核机器和线性模型,这些模型通过随机梯度下降进行训练。
复杂性科学为量化不可预测性、结构和信息提供了广泛的措施。 然而,这些措施的系统性概念组织仍然缺失。 我们提出了一个统一的框架,该框架沿着三个轴(规律性,随机性和复杂性)定位统计,算法和动力学度量,并将它们定位在一个共同的概念空间中。 我们将统计、算法和动态度量映射到这个概念空间中,讨论它们的计算可访问性和可近似性。 该分类法揭示了不计算性带来的深刻挑战,并突出了现代数据驱动方法(包括自动编码器,潜在动态模型,符号回归和物理信息神经网络)的出现,作为经典复杂性理想的务实近似。 潜伏空间成为具有规律性提取、噪声管理和结构化压缩的可操作领域,通过高维系统中的实际建模来弥合理论基础。 最后,我们概述了复杂物理系统中对物理知识的人工智能和人工智能引导发现的影响,认为经典的复杂性问题仍然是下一代科学建模的核心。
Hopfield模型提供了一个数学上理想化但有见地的框架,用于理解人类大脑中的记忆存储和检索机制。 这种模式启发了四十年来对学习和检索动力学,容量估计和记忆之间的顺序转换的广泛研究。 值得注意的是,外部输入的作用和影响在很大程度上未被充分探索,从对神经动力学的影响到它们如何促进有效的记忆检索。 为了弥补这一差距,我们提出了一种新的动态系统框架,其中外部输入直接影响神经突触并塑造霍普菲尔德模型的能量景观。 这种基于可塑性的机制为内存检索过程提供了清晰的能量解释,并证明对高度混合的输入进行正确分类是有效的。 此外,我们将该模型集成到现代Hopfield架构的框架内,使用此连接来阐明当前和过去的信息在检索过程中如何组合。 最后,我们将经典和新模型嵌入到被噪声破坏的环境中,并比较其在内存检索过程中的稳健性。
Dropout是一种规范化技术,广泛用于训练人工神经网络以减轻过度拟合。 它包括在训练期间动态停用网络的子集,以促进更强大的表示。 尽管辍学概率被广泛采用,但辍学概率往往是以异质方式选择的,对其成功的理论解释仍然很少。 在这里,我们分析研究通过在线随机梯度下降训练的双层神经网络的辍学。 在高维极限中,我们得出一组普通的微分方程,这些方程在训练过程中完全表征了网络的演化,并捕获了dropout的影响。 我们获得了一些准确的结果,描述了短、中、长训练时间的普遍误差和最佳掉落概率。 我们的分析表明,dropout减少了隐藏节点之间的有害相关性,减轻了标签噪声的影响,并且最佳dropout概率随着数据中的噪声水平而增加。 我们的结果通过广泛的数值模拟验证。
当神经网络(NN)受到L2正则化时,将正则化强度提高到超过一定阈值的正则化强度将模型推向参数不足的化机制。 这种过渡表现为单层 NN 中的一阶相变和具有两个或多个隐藏层的 NN 中的二阶相变。 本文通过将损失景观的Ricci曲线与正则化器驱动的深度学习相结合,为这种过渡建立了一个统一的框架。 首先,我们表明,曲率变化点将学习开始时的模型精度机制分开,并且它与正则化驱动的相变的关键点相同。 其次,我们表明,对于更复杂的数据集,模型精度之间存在额外的相变,并且它们再次与错误环境中的曲率变化点相同。 第三,通过使用变量自动解码器研究MNIST数据集,我们证明曲率变化点可识别L2设置之外模型精度的相变。 我们的框架还提供了实用的见解,用于优化各种架构和数据集的模型性能。 通过将误差图景的几何特征与可观察的相变联系起来,我们的工作为更明智的正则化策略和潜在的新方法铺平了道路,以探测L2上下文之外神经网络的内在结构。
物理动机的随机动力学通常用于从高维分布中采样。 然而,这种动态通常被困在其状态空间的特定区域,并且非常缓慢地混合到所需的静止状态。 这导致这些系统从转移分布中近似采样,通常与所需的动态固定分布有很大不同。 我们严格地证明,在多变量离散分布的情况下,描述固定分布的真实模型可以从从元稳定分布产生的样本中恢复,在系统的最低假设下。 这源于一个基本观察,即满足强元稳定条件的元稳态分布的单变量条件平均接近静止分布的条件。 即使元稳定分布与真实模型在Kullback-Leibler发散或总变异距离等全局指标方面差异很大,这种情况仍然存在。 此属性允许我们使用基于条件可能性的估算器学习真实模型,即使样本来自集中在状态空间的一个小区域的元稳定分布。 这种可转移状态的明显例子可以从有效地阻碍概率流并导致马尔可夫链混合不良的区域构建。 对于二进制对无方向图形模型的特定情况(即 是模型),我们扩展我们的结果进一步严格地表明,来自元稳定状态的数据可用于学习能量函数的参数和恢复模型的结构。
网络在各个领域无处不在,代表节点及其互连构成其复杂结构的系统。 我们引入了一个网络分解方案,以揭示潜伏在里面的多尺度核心外围结构,使用基于它的本地定义的节点中心中心特性和边缘修剪技术的概念。 我们证明,基于集线器边缘修剪揭示了网络分解的一系列断裂点,这些断裂点有效地将网络分离到其骨干和外壳结构中。 我们的局部边缘分解方法迭代识别和删除本地连接最少的节点,并因此发现类似洋葱的分层结构。 与传统的k-core分解方法相比,我们基于驻留在本地结构中的相对信息的方法在发现本地关键子结构方面具有明显的优势。 作为该方法的应用,我们提出了一个方案,通过将该方法与网络社区检测相结合,检测多个核心外围结构和粗粒超节点网络的分解。
神经网络具有生成有意义的任务依赖特征表示的关键能力。 事实上,通过适当的扩展,神经网络中的监督学习可以产生强大的,依赖于任务的特征学习。 然而,我们称为“编码方案”的紧急陈述的性质仍不清楚。 为了理解紧急编码方案,我们使用贝叶斯框架研究完全连接的宽神经网络学习分类任务,其中学习塑造了网络权重的后验分布。 与之前的研究结果一致,我们对特征学习制度(也称为“非懒惰”、“丰富”或“均场”制度)的分析表明,这些网络获得了强大的、数据依赖的特征。 令人惊讶的是,内部表征的性质在很大程度上取决于神经元非线性。 在线性网络中,出现了任务的模拟编码方案。 尽管表示强烈,但平均预测因子与懒惰的情况相同。 在非线性网络中,自发对称性断裂导致冗余或稀疏编码方案。 我们的发现强调了诸如权重缩放和神经元非线性等网络属性如何深刻地影响紧急表示。
我们讨论了一种生成模型(称为扩散模型)和福克-普朗克方程的非平衡热力学(称为随机热力学)之间的联系。 使用随机热力学技术,我们得出扩散模型的速度精度关系,这是将数据生成的准确性与熵生产率联系起来的不等式。 这种关系可以解释为在没有非保守力的情况下扩散动力学的速度。 从随机热力学的角度来看,我们的结果提供了如何最好地在扩散模型中生成数据的定量见解。 最佳学习协议是由2-Wasserstein距离在最优运输理论中的空间的测地层引入的。 我们用不同的噪声表和不同的数据来说明扩散模型的速度精度关系的有效性。 我们用数字来讨论我们的结果,以获得最佳和次优的学习协议。 我们还展示了我们的结果对从真实世界的图像数据集中生成数据的适用性。
在这项工作中,我们制造并研究了两种用于群体机器人的全向视觉传感器的设计,这些设计基于由具有旋转对称性的镜面,八个离散红外光电二极管和单个LED组成的双极子系统,以便为移动机器人代理提供本地化和导航能力。 我们考虑了光电二极管的两个安排:一个它们向上指向镜子,一个它们向外指向,垂直于镜子。 为了确定哪种设计在平面上提供了更好的视野,以及检测两个代理之间的距离和方向,我们开发了一种具有三个自由度的测试导轨,以实验和系统地测量给定传感器的光电二极管(在一次读数中)从另一个作为距离和方向函数的光发出的光中记录的信号。 之后,我们处理和分析实验数据,以开发每个设计中光电二极管的平均响应的数学模型。 最后,通过数值倒置模型,我们比较了两种设计的准确性。 我们的结果表明,光电二极管向上指向的设计可以更好地解决距离,而另一个则更好地解决发射剂的方向,两者都提供了全方位的视野。
提出了基于神经网络的机器学习势能能量表(PES),在矩阵产品运算符(NN-MPO)中表达。 MPO形式能够有效地评估在解决时间依赖和时间无关的薛定谔方程中出现的高维积分,并有效地克服了所谓的维度诅咒。 这与其他基于神经网络的机器学习PES方法形成鲜明对比,例如多层感知器(MLP),由于其骨干架构中完全连接的拓扑结构,评估高维积分并不简单。 尽管如此,NN-MPO保留了神经网络的高代表性能力。 NN-MPO可以实现光谱精度,测试平均误差(MAE)为3.03 cm^-1,用于完全耦合的六维ab initio PES,仅使用分布在0至17,000 cm^-1能量范围内的625个训练点。 我们的 Python 实现可在 https://github.com/KenHino/Pompon 查阅。
集体通常能够以分布式的方式处理信息,超过每个成员的处理能力。 在裂变融合动力学中,组成员聚集在一起并经常与其他人分开,分享有关独特已知觅食区域的补充信息可以让一个群体比任何组成员自己更好地跟踪异质觅食环境。 我们分析单个核心范围之间的部分重叠,我们假设这些部分代表了特定季节中个体的知识。 我们识别一组重叠显示冗余和唯一已知部分之间平衡的个体,我们使用简单的复合物来表示这些高阶相互作用。 简单复合物的结构显示了不同维度的漏洞,揭示了正在共享的觅食信息的互补性。 我们建议,由裂变融合动力学产生的复杂空间网络允许在动态环境中对觅食信息进行自适应,集体处理。
在机器学习实践中,通常用于识别相关的输入特征,从而获得紧凑的数据集,以实现更高效的数值处理。 另一方面,通过隔离关键输入元素,按各自的相关性程度进行排名,有助于详细阐述决策过程。 在这里,我们提出了一种新的方法来估计深度神经网络的输入组件的相对重要性。 这是通过利用优化过程的光谱再参数化来实现的。 与输入节点相关的特征值实际上提供了一个健壮的代理,用于衡量提供的输入特征的相关性。 值得注意的是,光谱特征排名是自动执行的,作为网络训练的副产品,无需进行额外的处理。 该技术成功地挑战了合成和真实数据。