随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。
氟化化合物,通常被称为永远的化学物质,在半导体制造的各个步骤中至关重要,如光刻,蚀刻,室清洁等。 永远的化学排放可以表现出比二氧化碳大数千倍的全球变暖潜力,并在大气中持续数千年。 尽管受到严重影响,但计算机系统中的大多数可持续性工作都集中在碳排放上。 我们通过引入ForgetMeNot来解决这一差距,ForgetMeNot是一种建模工具,通过集成制造设施特定的实践和硬件规范来量化氟化化合物排放,并使用制造设施的实际排放数据验证其准确性。 我们展示了ForgetMeNot如何使制造设施能够优化减排的设计和材料使用决策,并为研究人员提供校准硬件设计排放估算的方法。 当ForgetMeNot用于分析制造CPU,DRAM和存储的排放时,它说明了硬件一代,光刻技术和容量如何影响氟化化合物排放。 最后,我们演示了数据中心运营商如何在平衡性能需求的同时组装低排放服务器。 通过将氟化排放纳入制造决策,ForgetMeNot为构建更可持续的系统铺平了道路。
规范化层,如批次规范化和层标准化,是现代神经网络的核心组成部分,被广泛采用以提高训练稳定性和概括性。 虽然它们的实际有效性有据可查,但从初始化开始,对规范化如何影响模型行为的详细理论理解仍然是一个重要的开放问题。 在这项工作中,我们研究在隐藏层中规范化的存在和放置如何影响训练开始之前网络预测的统计属性。 特别是,我们研究这些选择如何在初始化时塑造类预测的分布,从无偏见(中立)到高度集中(预判)到类的一个子集。 我们的分析表明,归一化放置会诱发神经网络初始预测行为的系统差异,进而塑造学习的动态。 通过将架构选择与初始化时的预测统计联系起来,我们的工作提供了对规范化如何影响早期训练行为的原则性理解,并为更可控和可解释的网络设计提供指导。
可解释的机器学习可以帮助发现物质特性的新的物理关系。 为了了解管理钙钛矿和吡啶中氧扩散的激活能量的材料特性,我们建立了一个实验激活能量数据库,并将分组算法应用于材料属性特征。 然后,这些功能用于拟合七个不同的机器学习模型。 集合共识确定预测激活能量的最重要特征是A位键的离子度和钙钛矿的氧气部分压力。 对于热氯,两个最重要的特征是A位点的价电子计数和B位电子化。 最重要的特征都是使用元素金属属性的加权平均值构建的,尽管成分二元氧化物的加权平均值包含在我们的特征集中。 这令人惊讶,因为组成氧化物的材料特性与钙钛矿和吡啶氯的实验测量性质比所选金属的特征更相似。 这项工作中确定的易于测量的特性能够快速筛选具有快速氧化物离子扩散性的新材料。
我们评估受大变形和磁场影响层层磁弹性半空间的表面稳定性条件。 在回顾了欧莱西亚和拉格朗日形式的磁静方程的基本度量和总结后,我们从依赖于变形梯度和拉格朗日磁感应的总能量函数中得出了构成关系。 能量原理产生平衡方程、磁场方程和边界条件。 能量功能的第二个变化为稳定性分析提供了增量方程和条件。 表面不稳定性是通过在磁场正常到表面的磁场下对有限变形状态的线性化增量和磁感应来研究的。 考虑四个说明性案例:(i) 分层不可磁化半空间,具有不同的刚度对比度;(二) 磁弹性半空间作为磁感应功能的关键拉伸;(iii) 磁敏层在不可磁基板上的表面稳定性;(iv) 双层磁弹性固体中的分叉条件,具有不同的刚度比。 图形结果贯穿始终。
可解释的机器学习可以帮助发现物质特性的新的物理关系。 为了了解管理钙钛矿和吡啶中氧扩散的激活能量的材料特性,我们建立了一个实验激活能量数据库,并将分组算法应用于材料属性特征。 然后,这些功能用于拟合七个不同的机器学习模型。 集合共识确定预测激活能量的最重要特征是A位键的离子度和钙钛矿的氧气部分压力。 对于热氯,两个最重要的特征是A位点的价电子计数和B位电子化。 最重要的特征都是使用元素金属属性的加权平均值构建的,尽管成分二元氧化物的加权平均值包含在我们的特征集中。 这令人惊讶,因为组成氧化物的材料特性与钙钛矿和吡啶氯的实验测量性质比所选金属的特征更相似。 这项工作中确定的易于测量的特性能够快速筛选具有快速氧化物离子扩散性的新材料。
具有生成模型的晶体材料的逆向设计,对一系列技术具有重大影响。 与其他原子系统不同,3D晶体与称为空间群的离散等异构体群不一成不变。 至关重要的是,这些空间群对称性已知严重影响材料性能。 我们提出了SGEquiDiff,一种晶体生成模型,它自然地处理空间组不变可能性的空间组约束。 SGEquiDiff由SE(3)不变的,遥测的晶体晶格的离散采样器;排列不变的,基于变压器的Wyckoff位置,元素和对称唯一原子的数量的自回归采样;以及原子坐标的空间群等变量扩散。 我们展示了空间群等价向量字段自动存在于Wyckoff位置的切线空间中。 SGEquiDiff通过定量代理度量和量子力学计算评估,在标准基准数据集上实现最先进的性能。
深度学习中的扩展定律 - 将模型性能与资源增长联系起来的经验权力法则关系 - 已经成为跨架构,数据集和任务的简单而引人注目的规律。 这些法律在指导最先进的模型设计方面特别有影响,因为它们量化了增加数据或模型大小的好处,并暗示了机器学习中可解释性的基础。 然而,大多数研究都集中在训练结束时的无症状行为或模型大小的最佳训练时间。 在这项工作中,我们通过通过光谱复杂性规范的镜头分析整个训练动力学来揭示更丰富的画面。 我们确定了两个新颖的动态缩放定律,这些定律支配了训练过程中性能如何演变。 这些定律共同恢复了在收敛时众所周知的测试误差缩放,提供了泛化出现的机械解释。 我们的研究结果在CNN,ResNets和Vision Transformers上进行了MNIST,CIFAR-10和CIFAR-100的培训。 此外,我们使用可解决模型提供分析支持:使用二进制交叉熵训练的单层感知器。 在这个设置中,我们表明由隐性偏置驱动的光谱复杂性的增长反映了在固定规范下观察到的泛化行为,使我们能够将性能动力学与感知器中的经典学习规则联系起来。
在量子热力学中,一个系统由Hamiltonian描述,并且列出了代表粒子数或电荷等保守数量的非通勤电荷,一个重要的目标是在这些保守电荷的存在下确定系统的最低能量。 在优化理论中,半确定性程序(SDP)涉及在正半确定性运算符的圆锥体上优化的线性目标函数。 这些问题产生于物理和优化社区中的不同动机,并使用非常不同的术语措辞,但它们在数学上基本上是相同的。 通过采用Jaynes以量子热力学为动力的心态,我们观察到,在上述热力学问题中最小化自由能量,而不是能量,导致在化学潜在参数中凹陷的双重化学电位最大化问题方面获得优雅的解决方案。 因此,可以使用标准(随机)梯度上升方法来找到这些参数的最佳值,并且这些方法保证快速收敛。 在低温下,最小自由能量为最低能量提供了极好的近似值。 然后,我们展示了这种Jaynes启发的梯度上升方法如何用于一阶和二阶经典和混合量子经典算法,以最小化能量,并等效地,它如何用于解决SDP,并保证算法的运行时。 这里讨论的方法完全基于量子热力学,因此,提供了物理动机,为什么在Jaynes的开创性工作五十年后发布的算法,包括矩阵乘法权重更新方法,矩阵指数梯度更新方法及其量子算法泛化,在解决SDP方面表现良好。
追求先进的能源技术聚合物,跨越光伏,固态电池和储氢,受到碎片化数据生态系统的阻碍,这些生态系统未能捕捉到这些材料的分层复杂性。 聚合物科学缺乏可互操作的数据库,迫使依赖断开的文献和遗留记录,这些记录充斥着非结构化格式和不可复制的测试协议。 这种碎片化扼杀了机器学习(ML)应用,并延迟了对全球脱碳至关重要的材料的发现。 三个系统性障碍加剧了挑战。 首先,学术-工业数据孤岛限制对专有工业数据集的访问,而学术出版物往往省略了关键的综合细节。 其次,不一致的测试方法破坏了交叉学习的可比性。 第三,现有数据库中不完整的元数据限制了其用于训练可靠的ML模型的效用。 新兴解决方案通过技术和协作创新解决这些差距。 自然语言处理(NLP)工具从数十年的文献中提取结构化聚合物数据,而高通量机器人平台则通过自主实验生成自立数据集。 这些进展的核心是采用FAIR(可查找,可访问,可互操作,可重复使用)原则,适应聚合物特定的本体,确保机器可读性和可重复性。 未来的突破取决于向开放科学的文化转变,由分散的数据市场和自主实验室加速,这些实验室将机器人实验与实时ML验证相结合。 通过技术创新、协作治理和道德管理解决数据碎片化问题,聚合物社区可以将瓶颈转化为加速剂。
规范化层,如批次规范化和层标准化,是现代神经网络的核心组成部分,被广泛采用以提高训练稳定性和概括性。 虽然它们的实际有效性有据可查,但从初始化开始,对规范化如何影响模型行为的详细理论理解仍然是一个重要的开放问题。 在这项工作中,我们研究在隐藏层中规范化的存在和放置如何影响训练开始之前网络预测的统计属性。 特别是,我们研究这些选择如何在初始化时塑造类预测的分布,从无偏见(中立)到高度集中(预判)到类的一个子集。 我们的分析表明,归一化放置会诱发神经网络初始预测行为的系统差异,进而塑造学习的动态。 通过将架构选择与初始化时的预测统计联系起来,我们的工作提供了对规范化如何影响早期训练行为的原则性理解,并为更可控和可解释的网络设计提供指导。
分子图神经网络(GNNs)通常只关注基于XYZ的几何表示,因此忽略了像PubChem这样的公共数据库中可用的有价值的化学上下文。 这项工作引入了一个多模态框架,该框架集成了文本描述符,如IUPAC名称,分子公式,物理化学特性和同义词,以及分子图。 门控融合机制平衡了几何和文本特征,允许模型利用互补信息。 对基准数据集的实验表明,添加文本数据对某些电子属性产生了显着的改进,而其他电子属性的收益仍然有限。 此外,GNN架构显示类似的性能模式(在类似目标上改进和恶化),表明它们学习可比的表示,而不是明显不同的物理见解。
递归神经网络(RNN)被广泛用于处理顺序数据,如时间序列。 水库计算(RC)作为RNN框架引起了人们的注意,因为它的固定网络不需要训练,因此对基于硬件的机器学习具有吸引力。 我们在Echo State Networks和Band-pass Networks的完善的数学RC实现与Leaky Integrator节点之间建立了明确的对应关系,另一方面是包含离子电子简单挥发性记忆器的物理电路。 这些水离子电子器件采用离子传输通过水作为信号载体,并具有取决于电压(内存)的电导率。 激活函数和 Leaky Integrator 节点的动力学自然成为离子电子记忆器的(动态)传导特性,而记忆器端子的简单固定局部电流对电压更新规则有助于节点之间的相关矩阵耦合。 我们处理各种时间序列,包括呼吸过程中模拟气道的压力数据,由于离子电子器件对施加压力的内在响应性,这些数据可以直接输入网络。 这是在使用离子电子记忆器运动为电路的内部动力学时完成的。
核量子效应(NQE)的核算可以在有限温度下显著改变材料特性。 使用路径整体分子动力学(PIMD)方法的原子建模可以充分解释这种效应,但需要计算高效和准确的原子间相互作用模型。 经验潜力很快,但可能缺乏足够的准确性,而量子力学计算是高度准确的,但计算成本昂贵。 机器学习的原子间电位为这一挑战提供了解决方案,与密度函数论(DFT)计算相比,提供了近乎量子力学的准确性,同时保持了高计算效率。 在这种情况下,开发了一个接口,将MLIP-2软件包的瞬间张量电位(MTP)集成到使用i-PI软件包的PIMD计算中。 然后,该接口应用于主动学习电位,并研究NQE对材料性能的影响,即晶格参数和热膨胀系数的温度依赖性,以及径向分布功能,用于氢化锂(LiH)和硅(Si)系统。 结果与实验数据、准谐波近似计算以及通用机器学习力场MatterSim的预测进行了比较。 这些比较证明了MTP-PIMD方法的高见性和有效性。
随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。
氟化化合物,通常被称为永远的化学物质,在半导体制造的各个步骤中至关重要,如光刻,蚀刻,室清洁等。 永远的化学排放可以表现出比二氧化碳大数千倍的全球变暖潜力,并在大气中持续数千年。 尽管受到严重影响,但计算机系统中的大多数可持续性工作都集中在碳排放上。 我们通过引入ForgetMeNot来解决这一差距,ForgetMeNot是一种建模工具,通过集成制造设施特定的实践和硬件规范来量化氟化化合物排放,并使用制造设施的实际排放数据验证其准确性。 我们展示了ForgetMeNot如何使制造设施能够优化减排的设计和材料使用决策,并为研究人员提供校准硬件设计排放估算的方法。 当ForgetMeNot用于分析制造CPU,DRAM和存储的排放时,它说明了硬件一代,光刻技术和容量如何影响氟化化合物排放。 最后,我们演示了数据中心运营商如何在平衡性能需求的同时组装低排放服务器。 通过将氟化排放纳入制造决策,ForgetMeNot为构建更可持续的系统铺平了道路。
自我蒸馏(SD)是一种使用自己的预测来改进自己的技术,作为一种简单而强大的机器学习方法引起了人们的注意。 尽管其广泛使用,但其有效性背后的机制仍不清楚。 在这项研究中,我们研究了超参数调谐多级SD的功效,该分类器具有用于噪声高斯混合物数据的二进制分类的线性分类。 在分析中,我们采用了统计物理学的复制方法。 我们的研究结果表明,SD性能改进的主要驱动因素是通过硬伪标签进行去噪,在中等大小的数据集中观察到最显着的收益。 我们还确定了增强SD的两个实用方法:早期停止,限制阶段的数量,这是广泛有效的,和偏见参数固定,这有助于标签不平衡。 为了从经验上验证我们的玩具模型得出的理论发现,我们使用预训练的ResNet骨干对CIFAR-10分类进行了额外的实验。 这些结果提供了理论和实践上的见解,促进了我们在嘈杂环境中对SD的理解和应用。
发现新的超离子材料对于推进固态电池至关重要,与传统的锂离子电池相比,固态电池具有更好的能量密度和安全性。 识别此类材料的常规计算方法是资源密集型的,不易扩展。 最近,使用等变量图神经网络开发了通用的原子间潜在模型。 这些模型是在大量第一原理力和能量计算数据集上进行训练的。 人们可以通过利用它们作为评估离子电导率的传统方法的基础来实现显着的计算优势,例如分子动力学或推力弹性带技术。 然而,在此类计算中产生的对不同原子结构的模型推断的概括误差可能会损害结果的可靠性。 在这项工作中,我们提出了一种通过分析通用的原子间潜力来快速可靠地筛选离子导体的方法。 我们的方法包括一组启发式结构描述符,有效地利用底层模型的丰富知识,同时需要最小的概括能力。 使用我们的描述符,我们将含锂材料在材料项目数据库中根据其预期的离子导电性进行排名。 在10种排名最高的材料中,有8种在室温下被证实是超音速的。 值得注意的是,与机器学习潜力驱动的分子动力学相比,我们的方法实现了大约50的加速系数,并且与第一原则分子动力学相比至少快了3000倍。
了解神经网络(NN)的可推广性仍然是深度学习研究的核心问题。 怪诞的特殊现象,在训练性能达到近乎完美的水平后,NNs突然推广,为研究NNs可推广性的潜在机制提供了一个独特的窗口。 在这里,我们提出了一种解释,将其定义为计算玻璃放松:将NN视为一个物理系统,其中参数是自由度,火车损失是系统能量,我们发现记忆过程类似于在低温下将液体快速冷却成非平衡玻璃状态,而后来的概括就像朝着更稳定的配置缓慢放松。 这种映射使我们能够将NN的玻尔兹曼熵(密度状态)景观作为训练损失和测试精度的函数进行采样。 我们在算术任务的变压器实验表明,在grokking的背化到概括的过渡中没有熵屏障,挑战了以前将Gokking定义为一阶相变的理论。 我们确定了在grokking下的高熵优势,这是将熵与可推广性联系起来的先前工作的扩展,但更重要。 受grokking远非均衡性质的启发,我们开发了一种基于Wang-landau分子动力学的玩具优化器WanD,它可以消除没有任何约束的grokking,并找到高规范的通用解决方案。 这为理论提供了严格定义的反例,将grokking仅归因于权重规范向Goldilocks区域的演变,并提出了优化器设计的新的潜在方法。
具有特定原子结构的材料的可控合成支撑了技术进步,但仍然依赖于迭代,试错方法。 纳米粒子(NPs)的原子排列决定了它们的紧急特性,由于许多可调参数,合成特别具有挑战性。 在这里,我们引入了一种明确针对原子尺度结构合成的自主方法。 我们的方法通过将实时实验总散射(TS)和配对分布函数(PDF)数据与模拟目标模式相匹配,自主设计合成协议,而无需事先合成知识。 我们在同步加速器上展示了这种能力,成功地合成了两种结构上不同的黄金NP:5纳米十面体和10纳米面为中心的立方结构。 最终,指定模拟目标散射模式,从而代表定制的原子结构,按需获得合成材料及其可重复合成协议可能会彻底改变材料设计。 因此,ScatterLab为跨不同系统和应用的自主原子结构靶向合成提供了可推广的蓝图。
受限玻尔兹曼机器(RBM)是生成模型,能够学习具有丰富底层结构的数据。 我们研究学生学习的教师-学生设置,其中学生RBM学习由教师RBM生成的结构化数据。 通过调整教师隐藏单位的数量和权重行中的相关性来控制数据中的结构量。 在没有相关性的情况下,我们验证了性能独立于学生RBM的教师模式和隐藏单元数量的猜想,我们认为师生设置可以作为研究彩票假说的玩具模型。 除了这个制度之外,我们发现学习教师模式所需的关键数据量会随着数量和相关性而下降。 在这两种机制中,我们发现,即使有一个相对较大的数据集,如果用于正则化的推理温度保持过低,就不可能学习教师模式。 在我们的框架中,学生可以一对一或多对一学习教师模式,将以前关于教师-学生设置的发现与两个隐藏单元推广到任意任意有限数量的隐藏单元。
袋装下(UB)结合了采样不足和袋装,是一种流行的集成学习方法,用于在不平衡的数据上训练分类器。 使用袋装来减少由于采样不足而减少样本量而引起的增加的方差是一种自然的方法。 然而,最近有人指出,在广义线性模型中,幼稚的袋装,不考虑类不平衡结构,和山脊正则化可以产生相同的结果。 因此,在训练线性模型时,使用UB是否更好并不明显,因为它需要与采样不足的数据集数量成比例的增加计算成本。 鉴于这种情况,在这项研究中,我们异构地导出了UB的尖锐渐近,并用它来与从不平衡数据中学习的几种其他流行方法进行比较,在这种情况下,线性分类器从双组分混合数据中训练。 比较的方法包括采样不足(US)方法,该方法使用采样不足数据的单一实现来训练模型,以及简单的加权(SW)方法,该方法训练模型在整个数据上加权损失。 事实证明,UB的性能是通过增加多数类的大小,同时保持少数类的大小来改进的,即使类不平衡可能很大,特别是当少数类的大小很小时。 这与美国形成鲜明对比,美国的表现几乎独立于大多数班级的规模。 从这个意义上说,袋装和简单的正则化不同,因为减少方差的方法因采样不足而增加。 另一方面,具有最佳加权系数的SW的性能几乎等于UB,表明重新加权和正则化的组合可能与UB相似。
弥合深度学习的实际表现与其理论基础之间的差距通常涉及通过随机梯度下降(SGD)分析神经网络。 扩展了以前专注于在简单高斯设置下建模结构化输入的研究,我们分析了以高斯混合物建模的输入训练的深度学习系统的行为,以更好地模拟更通用的结构化输入。 通过实证分析和理论调查,我们证明在某些标准化方案下,深度学习模型会向高斯设置行为趋同,即使输入数据遵循更复杂的或现实世界的分布。 这一发现表现出一种普遍性的形式,其中不同的结构化分布产生与高斯假设一致的结果,可以支持深度学习模型的理论理解。