大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。
氟化化合物,通常被称为永远的化学物质,在半导体制造的各个步骤中至关重要,如光刻,蚀刻,室清洁等。 永远的化学排放可以表现出比二氧化碳大数千倍的全球变暖潜力,并在大气中持续数千年。 尽管受到严重影响,但计算机系统中的大多数可持续性工作都集中在碳排放上。 我们通过引入ForgetMeNot来解决这一差距,ForgetMeNot是一种建模工具,通过集成制造设施特定的实践和硬件规范来量化氟化化合物排放,并使用制造设施的实际排放数据验证其准确性。 我们展示了ForgetMeNot如何使制造设施能够优化减排的设计和材料使用决策,并为研究人员提供校准硬件设计排放估算的方法。 当ForgetMeNot用于分析制造CPU,DRAM和存储的排放时,它说明了硬件一代,光刻技术和容量如何影响氟化化合物排放。 最后,我们演示了数据中心运营商如何在平衡性能需求的同时组装低排放服务器。 通过将氟化排放纳入制造决策,ForgetMeNot为构建更可持续的系统铺平了道路。
可解释的机器学习可以帮助发现物质特性的新的物理关系。 为了了解管理钙钛矿和吡啶中氧扩散的激活能量的材料特性,我们建立了一个实验激活能量数据库,并将分组算法应用于材料属性特征。 然后,这些功能用于拟合七个不同的机器学习模型。 集合共识确定预测激活能量的最重要特征是A位键的离子度和钙钛矿的氧气部分压力。 对于热氯,两个最重要的特征是A位点的价电子计数和B位电子化。 最重要的特征都是使用元素金属属性的加权平均值构建的,尽管成分二元氧化物的加权平均值包含在我们的特征集中。 这令人惊讶,因为组成氧化物的材料特性与钙钛矿和吡啶氯的实验测量性质比所选金属的特征更相似。 这项工作中确定的易于测量的特性能够快速筛选具有快速氧化物离子扩散性的新材料。
具有生成模型的晶体材料的逆向设计,对一系列技术具有重大影响。 与其他原子系统不同,3D晶体与称为空间群的离散等异构体群不一成不变。 至关重要的是,这些空间群对称性已知严重影响材料性能。 我们提出了SGEquiDiff,一种晶体生成模型,它自然地处理空间组不变可能性的空间组约束。 SGEquiDiff由SE(3)不变的,遥测的晶体晶格的离散采样器;排列不变的,基于变压器的Wyckoff位置,元素和对称唯一原子的数量的自回归采样;以及原子坐标的空间群等变量扩散。 我们展示了空间群等价向量字段自动存在于Wyckoff位置的切线空间中。 SGEquiDiff通过定量代理度量和量子力学计算评估,在标准基准数据集上实现最先进的性能。
分子图神经网络(GNNs)通常只关注基于XYZ的几何表示,因此忽略了像PubChem这样的公共数据库中可用的有价值的化学上下文。 这项工作引入了一个多模态框架,该框架集成了文本描述符,如IUPAC名称,分子公式,物理化学特性和同义词,以及分子图。 门控融合机制平衡了几何和文本特征,允许模型利用互补信息。 对基准数据集的实验表明,添加文本数据对某些电子属性产生了显着的改进,而其他电子属性的收益仍然有限。 此外,GNN架构显示类似的性能模式(在类似目标上改进和恶化),表明它们学习可比的表示,而不是明显不同的物理见解。
我们评估受大变形和磁场影响层层磁弹性半空间的表面稳定性条件。 在回顾了欧莱西亚和拉格朗日形式的磁静方程的基本度量和总结后,我们从依赖于变形梯度和拉格朗日磁感应的总能量函数中得出了构成关系。 能量原理产生平衡方程、磁场方程和边界条件。 能量功能的第二个变化为稳定性分析提供了增量方程和条件。 表面不稳定性是通过在磁场正常到表面的磁场下对有限变形状态的线性化增量和磁感应来研究的。 考虑四个说明性案例:(i) 分层不可磁化半空间,具有不同的刚度对比度;(二) 磁弹性半空间作为磁感应功能的关键拉伸;(iii) 磁敏层在不可磁基板上的表面稳定性;(iv) 双层磁弹性固体中的分叉条件,具有不同的刚度比。 图形结果贯穿始终。
可解释的机器学习可以帮助发现物质特性的新的物理关系。 为了了解管理钙钛矿和吡啶中氧扩散的激活能量的材料特性,我们建立了一个实验激活能量数据库,并将分组算法应用于材料属性特征。 然后,这些功能用于拟合七个不同的机器学习模型。 集合共识确定预测激活能量的最重要特征是A位键的离子度和钙钛矿的氧气部分压力。 对于热氯,两个最重要的特征是A位点的价电子计数和B位电子化。 最重要的特征都是使用元素金属属性的加权平均值构建的,尽管成分二元氧化物的加权平均值包含在我们的特征集中。 这令人惊讶,因为组成氧化物的材料特性与钙钛矿和吡啶氯的实验测量性质比所选金属的特征更相似。 这项工作中确定的易于测量的特性能够快速筛选具有快速氧化物离子扩散性的新材料。
具有生成模型的晶体材料的逆向设计,对一系列技术具有重大影响。 与其他原子系统不同,3D晶体与称为空间群的离散等异构体群不一成不变。 至关重要的是,这些空间群对称性已知严重影响材料性能。 我们提出了SGEquiDiff,一种晶体生成模型,它自然地处理空间组不变可能性的空间组约束。 SGEquiDiff由SE(3)不变的,遥测的晶体晶格的离散采样器;排列不变的,基于变压器的Wyckoff位置,元素和对称唯一原子的数量的自回归采样;以及原子坐标的空间群等变量扩散。 我们展示了空间群等价向量字段自动存在于Wyckoff位置的切线空间中。 SGEquiDiff通过定量代理度量和量子力学计算评估,在标准基准数据集上实现最先进的性能。
追求先进的能源技术聚合物,跨越光伏,固态电池和储氢,受到碎片化数据生态系统的阻碍,这些生态系统未能捕捉到这些材料的分层复杂性。 聚合物科学缺乏可互操作的数据库,迫使依赖断开的文献和遗留记录,这些记录充斥着非结构化格式和不可复制的测试协议。 这种碎片化扼杀了机器学习(ML)应用,并延迟了对全球脱碳至关重要的材料的发现。 三个系统性障碍加剧了挑战。 首先,学术-工业数据孤岛限制对专有工业数据集的访问,而学术出版物往往省略了关键的综合细节。 其次,不一致的测试方法破坏了交叉学习的可比性。 第三,现有数据库中不完整的元数据限制了其用于训练可靠的ML模型的效用。 新兴解决方案通过技术和协作创新解决这些差距。 自然语言处理(NLP)工具从数十年的文献中提取结构化聚合物数据,而高通量机器人平台则通过自主实验生成自立数据集。 这些进展的核心是采用FAIR(可查找,可访问,可互操作,可重复使用)原则,适应聚合物特定的本体,确保机器可读性和可重复性。 未来的突破取决于向开放科学的文化转变,由分散的数据市场和自主实验室加速,这些实验室将机器人实验与实时ML验证相结合。 通过技术创新、协作治理和道德管理解决数据碎片化问题,聚合物社区可以将瓶颈转化为加速剂。
分子图神经网络(GNNs)通常只关注基于XYZ的几何表示,因此忽略了像PubChem这样的公共数据库中可用的有价值的化学上下文。 这项工作引入了一个多模态框架,该框架集成了文本描述符,如IUPAC名称,分子公式,物理化学特性和同义词,以及分子图。 门控融合机制平衡了几何和文本特征,允许模型利用互补信息。 对基准数据集的实验表明,添加文本数据对某些电子属性产生了显着的改进,而其他电子属性的收益仍然有限。 此外,GNN架构显示类似的性能模式(在类似目标上改进和恶化),表明它们学习可比的表示,而不是明显不同的物理见解。
核量子效应(NQE)的核算可以在有限温度下显著改变材料特性。 使用路径整体分子动力学(PIMD)方法的原子建模可以充分解释这种效应,但需要计算高效和准确的原子间相互作用模型。 经验潜力很快,但可能缺乏足够的准确性,而量子力学计算是高度准确的,但计算成本昂贵。 机器学习的原子间电位为这一挑战提供了解决方案,与密度函数论(DFT)计算相比,提供了近乎量子力学的准确性,同时保持了高计算效率。 在这种情况下,开发了一个接口,将MLIP-2软件包的瞬间张量电位(MTP)集成到使用i-PI软件包的PIMD计算中。 然后,该接口应用于主动学习电位,并研究NQE对材料性能的影响,即晶格参数和热膨胀系数的温度依赖性,以及径向分布功能,用于氢化锂(LiH)和硅(Si)系统。 结果与实验数据、准谐波近似计算以及通用机器学习力场MatterSim的预测进行了比较。 这些比较证明了MTP-PIMD方法的高见性和有效性。
大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。
氟化化合物,通常被称为永远的化学物质,在半导体制造的各个步骤中至关重要,如光刻,蚀刻,室清洁等。 永远的化学排放可以表现出比二氧化碳大数千倍的全球变暖潜力,并在大气中持续数千年。 尽管受到严重影响,但计算机系统中的大多数可持续性工作都集中在碳排放上。 我们通过引入ForgetMeNot来解决这一差距,ForgetMeNot是一种建模工具,通过集成制造设施特定的实践和硬件规范来量化氟化化合物排放,并使用制造设施的实际排放数据验证其准确性。 我们展示了ForgetMeNot如何使制造设施能够优化减排的设计和材料使用决策,并为研究人员提供校准硬件设计排放估算的方法。 当ForgetMeNot用于分析制造CPU,DRAM和存储的排放时,它说明了硬件一代,光刻技术和容量如何影响氟化化合物排放。 最后,我们演示了数据中心运营商如何在平衡性能需求的同时组装低排放服务器。 通过将氟化排放纳入制造决策,ForgetMeNot为构建更可持续的系统铺平了道路。
发现新的超离子材料对于推进固态电池至关重要,与传统的锂离子电池相比,固态电池具有更好的能量密度和安全性。 识别此类材料的常规计算方法是资源密集型的,不易扩展。 最近,使用等变量图神经网络开发了通用的原子间潜在模型。 这些模型是在大量第一原理力和能量计算数据集上进行训练的。 人们可以通过利用它们作为评估离子电导率的传统方法的基础来实现显着的计算优势,例如分子动力学或推力弹性带技术。 然而,在此类计算中产生的对不同原子结构的模型推断的概括误差可能会损害结果的可靠性。 在这项工作中,我们提出了一种通过分析通用的原子间潜力来快速可靠地筛选离子导体的方法。 我们的方法包括一组启发式结构描述符,有效地利用底层模型的丰富知识,同时需要最小的概括能力。 使用我们的描述符,我们将含锂材料在材料项目数据库中根据其预期的离子导电性进行排名。 在10种排名最高的材料中,有8种在室温下被证实是超音速的。 值得注意的是,与机器学习潜力驱动的分子动力学相比,我们的方法实现了大约50的加速系数,并且与第一原则分子动力学相比至少快了3000倍。
具有特定原子结构的材料的可控合成支撑了技术进步,但仍然依赖于迭代,试错方法。 纳米粒子(NPs)的原子排列决定了它们的紧急特性,由于许多可调参数,合成特别具有挑战性。 在这里,我们引入了一种明确针对原子尺度结构合成的自主方法。 我们的方法通过将实时实验总散射(TS)和配对分布函数(PDF)数据与模拟目标模式相匹配,自主设计合成协议,而无需事先合成知识。 我们在同步加速器上展示了这种能力,成功地合成了两种结构上不同的黄金NP:5纳米十面体和10纳米面为中心的立方结构。 最终,指定模拟目标散射模式,从而代表定制的原子结构,按需获得合成材料及其可重复合成协议可能会彻底改变材料设计。 因此,ScatterLab为跨不同系统和应用的自主原子结构靶向合成提供了可推广的蓝图。
对高效边缘视觉的需求激发了开发用于执行图像处理任务的随机计算方法的兴趣。 具有固有随机性的存储器很容易将概率引入计算,从而实现随机图像处理计算。 在这里,我们提出了边缘检测的随机计算方法,这是一种基本的图像处理技术,通过支持度量的随机逻辑来促进。 具体来说,我们将测量器与逻辑电路集成,并利用来自微积分器的随机性来实现用于随机数编码和处理的紧凑随机逻辑。 随机数字,表现出良好调节的概率和相关性,可以处理,以执行具有统计概率的逻辑运算。 这有助于为具有高水平噪声误差的边缘场景的边缘视觉场景进行轻量级的随机边缘检测。 作为实际演示,我们使用随机逻辑实现了硬件随机罗伯茨交叉操作,并证明了其卓越的边缘检测性能,值得注意的是,95个计算成本,同时可承受50,强调了我们随机边缘检测方法在开发轻量级,容错的边缘视觉硬件和系统的巨大潜力,用于自动驾驶,虚拟/增强现实,医学成像诊断,工业自动化等。
为具有特定性能的功能材料开发反向设计方法对于推进可再生能源,催化,储能和碳捕获等领域至关重要。 基于扩散原理的生成模型可直接生产出满足性能限制的新材料,从而显著加快材料设计过程。 然而,生成和预测晶体结构的现有方法往往仍然受到低成功率的限制。 在这项工作中,我们提出了一个名为InvDesFlow-AL的新型逆材料设计生成框架,该框架基于主动学习策略。 该框架可以迭代优化材料生成过程,以逐步引导其达到所需的性能特征。 在晶体结构预测方面,InvDesFlow-AL模型实现了0.0423 Å的RMSE,与存在的生成模型相比,性能提高了32.96。 此外,InvDesFlow-AL在低成型能和低铬材料的设计中已经成功验证。 它可以系统地产生具有逐渐降低形成能量的材料,同时不断扩大不同化学空间的探索。 这些结果充分证明了拟议的主动学习驱动生成模型在加速材料发现和逆向设计方面的有效性。 为了进一步证明这种方法的有效性,我们在环境压力下搜索了BCS超导体,这是InvDesFlow-AL探索的一个例子。 因此,我们成功确定 Li_2AuH_6 为常规BCS超导体,超高过渡温度为140K。 这一发现为逆向设计在材料科学中的应用提供了强有力的经验支持。
实验获得的显微镜图像不可避免地受到噪声和其他不需要的信号的影响,这些信号会降低其质量,并可能隐藏相关特征。 随着最近图像采集率的提高,现代去噪和恢复解决方案变得必要。 本研究的重点是通过基于总变异(TV)的工作流程对显微镜图像进行分解和去噪,处理从各种显微镜技术获得的图像,包括原子力显微镜(AFM),扫描隧道显微镜(STM)和扫描电子显微镜(SEM)。 我们的方法是通过提取其不需要的信号组件并从原始信号组件中减去图像,或通过去噪来恢复图像。 我们评估TV-L^1,Huber-ROF和TGV-L^1在不同研究案例中实现这一目标的表现。 Huber-ROF被证明是最灵活的,而 TGV-L^1 最适合去噪。 我们的研究结果表明这种方法在显微镜中的更广泛适用性,不仅限于STM,AFM和SEM图像。 用于本研究的Python代码作为AiSurf的一部分公开提供。 它旨在集成到图像采集的实验工作流程中,或者可用于对以前获得的图像进行脱色。
尽管基于热力学能量的晶体结构预测(CSP)彻底改变了材料发现,但能量驱动的CSP方法通常难以识别通过动力学控制途径合成的可实验可实现的可转移材料,从而在理论预测和实验合成之间产生了关键差距。 在这里,我们提出了一个可合成的可数驱动的CSP框架,该框架将对称引导结构推导与基于Wyckoff编码的机器学习模型相结合,允许对可能产生高度可合成结构的子空间进行高效定位。 在确定的有希望的子空间中,使用最近合成的结构进行微调以提高预测准确性的基于结构的可合成性评估模型,与ab initio计算相结合,以系统地识别可合成候选者。 该框架成功再现了13个实验已知的XSE(X = Sc,Ti,Mn,Fe,Ni,Cu,Zn)结构,证明了其在预测可合成结构方面的有效性。 值得注意的是,从GNoME预测的554,054个候选者中过滤了92,310个结构,显示出有希望的可合成性的巨大潜力。 此外,还确定了8个热力学上有利的Hf-X-O(X = Ti,V和Mn)结构,其中三位 HfV_2O_7 候选者表现出高可合成性,提出了实验实现的可行候选物,并可能与实验观察到的温度诱导相变相关。 这项工作为机器学习辅助的无机材料合成建立了数据驱动的范式,突出了其弥合计算预测和实验实现之间的差距的潜力,同时为有针对性的发现新型功能材料开辟了新的机会。
发现新型功能材料对于应对可持续能源发电和气候变化的挑战至关重要。 混合有机无机钙钛矿(HOIP)因其在光伏领域卓越的光电性能而获得关注。 最近,几何深度学习,特别是图形神经网络(GNN),在预测材料特性和指导材料设计方面显示出强大的潜力。 然而,传统的GNN往往难以捕捉此类系统中普遍存在的周期性结构和高阶相互作用。 为了解决这些限制,我们提出了基于细变量(QC)的新表示,并介绍了用于材料属性预测的定量复合变压器(QCformer)。 材料结构被建模为可数复合物,它通过不同尺寸的微解编码配对和多体相互作用,并通过引体操作捕获材料周期性。 我们的模型利用在简单化上定义的高阶特性,并使用基于简单x的Transformer模块处理它们。 我们在基准数据集(如材料项目和JARVIS)上预训练QCformer,并在HOIP数据集上对其进行微调。 结果表明,QCformer在HOIP属性预测中优于最先进的模型,证明了其有效性。 报价复杂表示和QCformer模型共同为钙钛矿材料的预测建模提供了强大的新工具。
我们使用我们开发的AI搜索引擎(InvDesFlow)对环境稳定的超导氢化物进行广泛的调查。 具有Lu-H八面体图案的立方体结构 Li_2AuH_6 被确定为候选者。 在进行热力学分析后,我们提供了一个可行的途径,在环境压力下通过已知的LiAu和LiH化合物进行实验合成这种材料。 进一步的第一原理计算表明,Li_2AuH_6在环境压力下显示高超导过渡温度(T_c)∼140K。 H-1电子与Au-H八面体的声子振动模式以及Li原子的振动强烈耦合,后者在其他以前相似的情况下没有认真对待。 因此,与以前搜索金属共价键以找到高T_c超导体的说法不同,我们在这里强调那些具有强电子声子耦合(EPC)的声子模式的重要性。 我们建议,人们能够将原子相隔成二进制或三联氢化物,以引入具有强EPC的更潜在的声子模式,这是一种在多组分化合物中找到高T_c超导体的有效方法。
机器学习力场(MLFFs)承诺以更高的计算效率准确描述理论ab initio水平分子的势能面。 在MLFF中,等变量图神经网络(EQNN)在准确性和性能方面显示出巨大的前景,并且是这项工作的重点。 EQNNs恢复自由能源表面(FES)的能力仍有待彻底调查。 在这项工作中,我们研究了集体变量(CV)分布对EQNN预测丁烷和亚氨酸二肽(ADP)FES的准确性的影响。 介绍了一个可推广的工作流程,其中通过经典的分子动力学模拟生成训练配置,并通过ab initio计算获得能量和力。 我们评估训练数据中的键和角度约束如何影响EQNN力场在经典和理论的正弦水平上再现分子FES的准确性。 结果表明,模型的准确性不受采样CV在训练过程中分布的影响,因为训练数据包括系统FES特征区域的配置。 然而,当训练数据从经典模拟中获得时,EQNN会努力为具有高自由能量的配置推断出自由能量。 相比之下,在ab initio数据上使用相同的配置训练的模型显示出更高的推算精度。 研究结果强调了为EQNN创建全面的训练数据集以预测FES并强调了系统FES的先验知识的重要性。
微观结构通常决定材料性能,但它很少被视为显式设计变量,因为微观结构很难量化,预测和优化。 在这里,我们引入了一个以图像为中心的闭环框架,使微观结构形态成为一个可控的目标,并展示了其与富含Li-和Mn的分层氧化物阴极前体的用例。 这项工作为锂离子电池阴极前体合成的预测设计和优化提供了一个集成的AI驱动框架。 该框架集成了基于扩散的图像生成模型、定量图像分析管道和粒子群优化(PSO)算法。 通过从SEM图像中提取纹理,球形和中位粒度(D50)等关键形态描述符,该平台可以准确地预测SEM,如特定共沉条件产生的形态,包括反应时间,溶液浓度和pH依赖性结构变化。 然后,优化精确定位产生用户定义的目标形态的合成参数,通过预测和合成结构之间的紧密协议进行实验验证。 该框架为数据驱动型材料设计提供了实用的策略,实现了合成条件的前瞻性预测和反向设计,并为自主、图像引导的微观结构工程铺平了道路。
金属有机框架(MOF)将无机节点,有机边缘和拓扑网结合到可编程多孔晶体中,但它们的天文设计空间与蛮力合成相抗。 生成建模具有最终的承诺,但现有模型要么回收已知的构建块,要么仅限于小单元单元。 我们引入了Building-Block-Aware MOF Diffusion(BBA MOF Diffusion),这是一种SE(3)等效扩散模型,可学习单个构建块的3D全原子表示,对晶体学拓扑网进行显式编码。 在CoRE-MOF数据库中接受培训,BBA MOF扩散易于采样MOF,其单元细胞含有1000个原子,具有几何有效性,新颖性和多样性镜像实验数据库。 其原生的积木表示产生了前所未有的金属节点和有机边缘,扩大了可访问的化学空间。 模型预测的一个高得分 [Zn(1,4-TDC)(EtOH)2] MOF被合成,其中粉末X射线衍射,热重力分析和N2吸附证实了其结构保真度。 因此,BBA-Diff为可合成和高性能MOF提供了一条实用的途径。
kagome 格子是凝聚态物理和材料科学中的基本模型结构,具有对称保护的扁平带,马鞍点和狄拉克点。 这种结构已成为探索各种量子物理学的理想平台。 通过结合有效的模型分析和第一原则计算,我们提出,在kagome晶格内的反转对称断裂,扁平带和马鞍点相关van Hove奇点之间的协同作用具有产生强二阶非线性光学响应的重大潜力。 该属性提供了一个鼓舞人心的洞察,对kagome-like材料的实际应用,这有助于全面了解kagome晶格相关的物理。 此外,这项工作为设计具有强二阶非线性光学响应的材料提供了一种替代方法。