识别复杂科学和技术文件中的微妙技术错误,特别是那些需要多模态解释(例如图像中的公式)的微妙技术错误,对于大型语言模型(LLM)来说,这是一个重大障碍,其固有的错误纠正倾向可以掩盖不准确性。 这项探索性概念验证(PoC)研究调查了结构化的LLM上下文条件,以持续工作流提示(PWP)原则为指导,作为在推理时间调节这种LLM行为的方法策略。 该方法旨在提高易于获得的通用LLM(特别是Gemini 2.5 Pro和ChatGPT Plus o3)的可靠性,用于精确的验证任务,关键是仅依赖于其标准聊天界面而无需API访问或模型修改。 为了探索这种方法,我们专注于在一个单一的复杂试卷中验证化学公式,这些试卷具有已知的文本和基于图像的错误。 评估了几种提示策略:虽然基本提示被证明是不可靠的,但使PWP结构适应LLM的分析思维模式的方法似乎改善了两种模型的文本错误识别。 值得注意的是,这种方法还指导Gemini 2.5 Pro反复识别之前在手动审查中忽略的微妙的基于图像的公式错误,ChatGPT Plus o3在我们的测试中失败了。 这些初步发现强调了阻碍细节验证的特定LLM操作模式,并表明PWP知情的上下文调节提供了一种有前途的且易于访问的技术,用于开发更强大的LLM驱动的分析工作流程,特别是对于需要在科学和技术文档中仔细检测错误的任务。 超出此有限PoC的广泛验证是必要的,以确定更广泛的适用性。
在高维表面上定位第一顺序马鞍点的任务,将能量的变化描述为原子坐标的函数,是确定过渡状态理论谐波近似值中的热激活事件速率和估计热激活事件速率的重要一步。 当与电子结构计算直接结合时,收敛所需的能量和原子力评价的数量是一个主要问题。 在这里,我们描述了高斯过程回归(GPR)加速最小模式遵循方法的高效实现,其中二聚体用于估计黑森的最低特征模式。 代理能量表面在每次电子结构计算后构建和更新。 该方法应用于先前由Hermez及其同事 [J. 生成的500个分子反应的测试集。 化学。 理论计算。 18,6974(2022)]。 使用GPR与二聚体方法相比,使用GPR降低了达到马鞍点配置所需的电子结构计算数量。 尽管分子自由度的刚度范围很广,但计算是使用笛卡尔坐标进行的,并且发现需要类似数量的电子结构计算,作为Sella软件包中实现的精心设计的内部坐标方法。 目前在C++中实现GPR替代模型的效率足以使马鞍点搜索的墙壁时间在4个案例中的3个案例中减少,即使计算是在低Hartree-Fock级别进行的。
3D分子结构的生成模型在分子的设计和模拟中发挥着快速增长的作用。 扩散模型目前主导了3D分子生成的空间,而自回归模型却落后了。 在这项工作中,我们介绍了Quetzal,一种简单但可扩展的自动回归模型,在3D中逐个原子构建分子。 Quetzal将每个分子视为原子的有序序列,结合了一个因果变压器,该变压器预测下一个原子的离散类型与较小的扩散MLP,该MLP模拟了连续的下位置分布。 与现有的自动回归基线相比,Quetzal在生成质量方面实现了实质性的改进,并与最先进的扩散模型的性能竞争。 此外,通过减少通过密集变压器的昂贵前向通道的数量,Quetzal可以实现显着更快的生成速度,以及基于精确发散的可能性计算。 最后,没有任何架构变化,Quetzal原生处理可变尺寸的任务,如氢装饰和脚手架完成。 我们希望我们的工作能激发对3D分子生成建模的可扩展性和普遍性的看法。
钳子产品功能(TPF)近似已被广泛用于解决高维问题,如偏微分方程和特征值问题,通过计算开销实现理想的准确性,该计算开销以问题维度线性扩展。 然而,最近的研究强调了TPF在量子多体问题上的极高计算成本,即使对于具有三个粒子的系统也是如此。 这些问题的一个关键区别是对未知函数的抗对称要求。 在目前的研究中,我们严格地确定,一类TPF完全非对称的最小涉及术语的数量随着问题维度的成倍增加而呈指数级增长。 该类既包括传统上离散的TPF,也包括最近由神经网络参数化的TPF。 我们的证明利用了该类中反对称TPF与相应的反对称张量之间的联系,并专注于后者的Canonical Polyadic等级。 因此,我们的发现揭示了高维环境中反对称和低等级TPF之间的基本不兼容,并为进一步发展提供了新的见解。
我们介绍了电子张量重建算法(ELECTRA) - 一种用于使用浮动轨道预测电子电荷密度的等变量模型。 浮轨是量子化学界的一个长期概念,它通过在太空中自由放置轨道来实现更紧凑和准确的表征,而不是将所有轨道集中在原子的位置。 然而,找到这些轨道的理想位置需要广泛的领域知识,到目前为止,这阻碍了广泛的采用。 我们通过训练笛卡尔张量网络来预测轨道位置以及轨道系数,以数据驱动的方式解决这个问题。 这是通过一个对称打破机制实现的,该机制用于学习比输入分子低对称性的位置位移,同时保持电荷密度本身的旋转等效。 受到高斯溺水在代表太空密度方面的最新成功的启发,我们正在使用高斯轨道并预测其权重和协方差矩阵。 我们的方法在计算效率和既定基准的预测准确性之间实现了最先进的平衡。
在高维表面上定位第一顺序马鞍点的任务,将能量的变化描述为原子坐标的函数,是确定过渡状态理论谐波近似值中的热激活事件速率和估计热激活事件速率的重要一步。 当与电子结构计算直接结合时,收敛所需的能量和原子力评价的数量是一个主要问题。 在这里,我们描述了高斯过程回归(GPR)加速最小模式遵循方法的高效实现,其中二聚体用于估计黑森的最低特征模式。 代理能量表面在每次电子结构计算后构建和更新。 该方法应用于先前由Hermez及其同事 [J. 生成的500个分子反应的测试集。 化学。 理论计算。 18,6974(2022)]。 使用GPR与二聚体方法相比,使用GPR降低了达到马鞍点配置所需的电子结构计算数量。 尽管分子自由度的刚度范围很广,但计算是使用笛卡尔坐标进行的,并且发现需要类似数量的电子结构计算,作为Sella软件包中实现的精心设计的内部坐标方法。 目前在C++中实现GPR替代模型的效率足以使马鞍点搜索的墙壁时间在4个案例中的3个案例中减少,即使计算是在低Hartree-Fock级别进行的。
越来越多地使用高通量计算化学需要严格的方法来评估算法性能。 我们提出了贝叶斯分层建模范式(brms/Stan),用于分析关键性能指标:函数评估、计算时间和成功/失败。 该框架考虑了不同系统和功能之间的可变性,提供了超出主观视觉评估或频繁主义限制的可靠不确定性估计。 我们应用此方法比较了 Dimer 方法旋转阶段 (EON, with/not 去除外部旋转/翻译)的共轭梯度 (CG) 和 L-BFGS 算法,该算法位于 500 个初始马鞍搜索近似值的基准上,分析了 2000 次运行。 我们的结果表明,CG旋转通常优于L-BFGS,表现出统计学上可信的,PES呼叫的小幅减少和成功收敛的几率显着提高。 相反,启用旋转移除产生了大量的PES呼叫惩罚,而没有相应的可信改进成功几率在此实施。 这些发现,从我们的新的贝叶斯分层建模应用中,表明CG可能是更可取的迪默旋转优化在类似的上下文。 这个强大的统计框架突出了重新审视优化策略,量化不确定性和促进改进高通量计算化学方法的好处。
了解分子是理解生物体和推动药物发现进步的关键,需要跨学科的化学和生物学知识。 虽然大型分子语言模型在任务转移方面取得了显着的成功,但由于知识和推理能力有限,它们往往难以准确分析分子特征。 为了解决这个问题,我们介绍了Mol-LLaMA,这是一个大型分子语言模型,它掌握以分子为中心的一般知识,并表现出可解释性和推理能力。 为此,我们设计关键数据类型,包括基本的分子特征,考虑到分子推理的基本能力。 此外,为了提高分子理解,我们提出了一个模块,该模块集成了来自不同分子编码器的互补信息,利用了分子表示的独特优势。 我们的实验结果表明,Mol-LLaMA能够理解分子的一般特征并提供信息响应,这意味着它作为分子分析的通用助手的潜力。 我们的项目页面是https://mol-llama.github.io/。
识别复杂科学和技术文件中的微妙技术错误,特别是那些需要多模态解释(例如图像中的公式)的微妙技术错误,对于大型语言模型(LLM)来说,这是一个重大障碍,其固有的错误纠正倾向可以掩盖不准确性。 这项探索性概念验证(PoC)研究调查了结构化的LLM上下文条件,以持续工作流提示(PWP)原则为指导,作为在推理时间调节这种LLM行为的方法策略。 该方法旨在提高易于获得的通用LLM(特别是Gemini 2.5 Pro和ChatGPT Plus o3)的可靠性,用于精确的验证任务,关键是仅依赖于其标准聊天界面而无需API访问或模型修改。 为了探索这种方法,我们专注于在一个单一的复杂试卷中验证化学公式,这些试卷具有已知的文本和基于图像的错误。 评估了几种提示策略:虽然基本提示被证明是不可靠的,但使PWP结构适应LLM的分析思维模式的方法似乎改善了两种模型的文本错误识别。 值得注意的是,这种方法还指导Gemini 2.5 Pro反复识别之前在手动审查中忽略的微妙的基于图像的公式错误,ChatGPT Plus o3在我们的测试中失败了。 这些初步发现强调了阻碍细节验证的特定LLM操作模式,并表明PWP知情的上下文调节提供了一种有前途的且易于访问的技术,用于开发更强大的LLM驱动的分析工作流程,特别是对于需要在科学和技术文档中仔细检测错误的任务。 超出此有限PoC的广泛验证是必要的,以确定更广泛的适用性。
高度激发和非局部化分子振动状态的计算是计算挑战性的任务,这在很大程度上取决于描述振动运动的坐标的选择。 我们引入了一种新的方法来利用正态流 - 参数化的无倒函数 - 学习满足变化原理的最佳振动坐标。 这种方法产生针对手头振动问题的坐标,显着提高计算能量谱的准确性并增强基本设置收敛。 该方法的效率在 H_2S、H_2CO 和 HCN/HNC 的 100 个最低激发振动态的计算中得到证实。 该方法通过增强Hamiltonian的可分离性有效地捕获分子的基本振动行为,从而允许对近似的量子数进行有效分配。 我们证明优化的坐标可以在不同层次的基础截断之间传输,从而实现了计算高维系统振动光谱的具有成本效益的协议。
密度函数理论的准确性取决于非局部对交换相关性(XC)函数的贡献的近似。 迄今为止,机器学习和人类设计的近似值都缺乏准确性,可扩展性有限或依赖昂贵的参考数据。 为了解决这些问题,我们介绍了 Equivariant Graph Exchange Correlation (EG-XC),这是一种基于等变量图神经网络 (GNN) 的新型非本地 XC 函数。 在以前的作品依赖于半局部功能或密度的固定大小描述符时,我们将电子密度压缩成SO(3)等效核中心点云,以实现高效的非局部原子范围相互作用。 通过在点云上应用等变量GNN,我们以可扩展和准确的方式捕获分子范围相互作用。 为了训练EG-XC,我们通过一个只需要能量目标的自一致性场求解器来区分。 在我们的实证评估中,我们发现EG-XC在MD17上准确地重建“金标准”CCSD(T)能量。 在3BPA的分布外构象上,EG-XC将相对MAE减少了35,值得注意的是,EG-XC在QM9上的数据效率和分子大小外推方面表现出色,在5倍和更大的分子上训练的匹配力场。 在相同的训练集中,EG-XC平均产生51
神经网络(NN)是改进分子动力学准确性的有效模型,开辟了新的应用领域。 通常训练自下而上,原子化的NN电位模型可以达到第一原理精度,而粗粒状隐性溶剂NN电位超过经典连续溶剂模型。 然而,克服成本高昂的生成精确参考数据和共同自下而上培训数据效率低下的限制,需要有效地整合来自许多来源的数据。 本文介绍了框架化学训练,通过可定制的训练例程和高级训练算法学习复杂的NN潜在模型。 这些例程可以结合多个自上而下和自下而上的算法,例如,将实验和模拟数据或预训练潜力与成本较低的算法相结合。chemtrain提供了一个面向对象的高级界面,以简化自定义例程的创建。 在较低级别,chemtrain依靠JAX来计算梯度并扩展计算以使用可用资源。 我们展示了在将钛全原子模型和粗粒度二肽的隐性溶剂模型相参数化的例子中组合多种算法的简单性和重要性。
扩散模型已成为分子生成的强大工具,特别是在3D分子结构的背景下。 受非平衡统计物理学的启发,这些模型可以生成具有对药物发现至关重要的特定特性或要求的3D分子结构。 扩散模型在通过前向和反向扩散过程学习3D分子几何的复杂概率分布及其相应的化学和物理特性方面特别成功。 本综述侧重于为3D分子生成量身定做的扩散模型的技术实施。 它比较了用于分子生成任务的各种扩散模型的性能、评估方法和实施细节。 我们涵盖了原子和键体表示的策略,反向扩散去核化网络的架构,以及与生成稳定的3D分子结构相关的挑战。 本综述还探讨了扩散模型在de novo药物设计中的应用以及计算化学的相关领域,例如基于结构的药物设计,包括目标特异性分子生成,分子对接和蛋白质配体复合物的分子动力学。 我们还涵盖了物理特性、构象生成和基于片段的药物设计的条件生成。 通过总结3D分子生成最先进的扩散模型,本综述揭示了它们在促进药物发现中的作用以及它们当前的局限性。
大型语言模型(LLM)可以通过上下文学习以零或少的例子进行准确的分类。 我们将这种能力扩展到使用冷冻LLM(例如GPT-3.5,Gemini)进行不确定性估计的回归,在没有显式模型训练或特征工程的情况下,在自然语言中实现贝叶斯优化(BO)。 我们通过将实验催化剂合成和测试程序表示为自然语言提示,将其应用于材料发现。 材料发现的一个关键挑战是需要表征次优候选人,这减慢了进展。 虽然BO对大型设计空间有效,但像高斯工艺这样的标准替代模型假设平滑度和连续性,这种假设在高度非线性领域(如异质催化)中失败。 我们的任务无关的BO工作流程通过直接在语言空间中操作来克服这一点,产生可解释和可操作的预测,而无需结构或电子描述符。 在诸如水溶性和甲烷(OCM)氧化耦合等基准上,BO-ICL匹配或优于高斯工艺。 在反水气体移位(RWGS)反应的现场实验中,BO-ICL从3700个候选池的6次迭代中确定了近乎最优的多金属催化剂。 我们的方法重新定义了材料表征并加速了发现,在催化、材料科学和人工智能方面进行了广泛的应用。 代码:https://github.com/ur-whitelab/BO-ICL。
通过化学空间搜索是一个极具挑战性的问题,因为可能分子的数量与原子的数量一起增长。 在化合物数据库中训练的大型自回归模型已经产生了强大的生成器,但我们仍然缺乏强大的策略来生成具有所需特性的分子。 这个分子搜索问题与大型语言模型的“对齐”问题非常相似,尽管对于许多化学任务,我们有一个特定且易于评估的奖励功能。 在这里,我们引入了一种称为能量等级对齐(ERA)的算法,该算法利用显式奖励函数来产生基于梯度的目标,我们用它来优化自动回归策略。 我们理论上表明,该算法与近端策略优化(PPO)和直接偏好优化(DPO)密切相关,但具有最小化器,可收敛到理想的Gibbs-Boltzmann分布,奖励发挥能量函数的作用。 此外,该算法具有高度可扩展性,不需要强化学习,并且当每次配对的偏好观察数量很少时,相对于DPO表现良好。 我们部署这种方法对齐分子变压器和蛋白质语言模型,分别生成分子和蛋白质序列,具有外部指定的属性,并发现它如此稳健,通过化学空间的不同部分进行搜索。
现有的分子机器学习力场(MLFFs)通常侧重于原子,分子和简单的量子化学特性(如能量和力)的学习,但忽略了电子密度(ED)ρ(r)在准确理解分子力场(MFF)中的重要性。 ED描述了在原子或分子周围的特定位置找到电子的概率,该概率根据Hohenberg-Kohn定理独特地确定了交互式多粒子系统的所有地面状态特性(如能量,分子结构等)。 然而,ED的计算依赖于耗时的第一原理密度功能理论(DFT),这导致缺乏大规模的ED数据并限制了其在MLFF中的应用。 在本文中,我们介绍了EDBench,这是一个大规模的,高质量的ED数据集,旨在推进电子规模的基于学习的研究。 基于PCQM4Mv2,EDBench提供准确的ED数据,覆盖330万个分子。 为了全面评估模型理解和利用电子信息的能力,我们设计了一系列以ED为中心的基准任务,涵盖预测、检索和生成。 我们对几种最先进的方法的评估表明,从EDBench学习不仅可行,而且实现了高精度。 此外,我们证明,基于学习的方法可以有效地计算具有可比精度的ED,同时显著降低与传统DFT计算的计算成本。 EDBench的所有数据和基准都将免费提供,为ED驱动的药物发现和材料科学奠定了坚实的基础。
机器学习力场(MLFFs)承诺以更高的计算效率准确描述理论ab initio水平分子的势能面。 在MLFF中,等变量图神经网络(EQNN)在准确性和性能方面显示出巨大的前景,并且是这项工作的重点。 EQNNs恢复自由能源表面(FES)的能力仍有待彻底调查。 在这项工作中,我们研究了集体变量(CV)分布对EQNN预测丁烷和亚氨酸二肽(ADP)FES的准确性的影响。 介绍了一个可推广的工作流程,其中通过经典的分子动力学模拟生成训练配置,并通过ab initio计算获得能量和力。 我们评估训练数据中的键和角度约束如何影响EQNN力场在经典和理论的正弦水平上再现分子FES的准确性。 结果表明,模型的准确性不受采样CV在训练过程中分布的影响,因为训练数据包括系统FES特征区域的配置。 然而,当训练数据从经典模拟中获得时,EQNN会努力为具有高自由能量的配置推断出自由能量。 相比之下,在ab initio数据上使用相同的配置训练的模型显示出更高的推算精度。 研究结果强调了为EQNN创建全面的训练数据集以预测FES并强调了系统FES的先验知识的重要性。
我们开发了Aitomia - 一个由AI驱动的平台,以帮助执行AI驱动的原子学和量子化学(QC)模拟。 这个智能助手平台配备了聊天机器人和AI代理,帮助专家和指导非专家设置和运行原子模拟,监控他们的计算状态,分析模拟结果,并以文本和图形形式为用户总结。 我们通过利用微调的开源大型语言模型(LLM)、基于规则的代理和检索增强生成(RAG)系统来实现这些目标。 Aitoma利用我们的MLatom生态系统的多功能性来实现AI增强的计算化学。 该智能助手将集成到Aitomistic Hub和XACS在线计算服务中,一些功能已经公开,如http://mlatom.com/aitomia所述。 预计Aitomia将降低执行原子模拟的障碍,加速相关领域的研究和开发。
金属有机框架(MOF)将无机节点,有机边缘和拓扑网结合到可编程多孔晶体中,但它们的天文设计空间与蛮力合成相抗。 生成建模具有最终的承诺,但现有模型要么回收已知的构建块,要么仅限于小单元单元。 我们引入了Building-Block-Aware MOF Diffusion(BBA MOF Diffusion),这是一种SE(3)等效扩散模型,可学习单个构建块的3D全原子表示,对晶体学拓扑网进行显式编码。 在CoRE-MOF数据库中接受培训,BBA MOF扩散易于采样MOF,其单元细胞含有1000个原子,具有几何有效性,新颖性和多样性镜像实验数据库。 其原生的积木表示产生了前所未有的金属节点和有机边缘,扩大了可访问的化学空间。 模型预测的一个高得分 [Zn(1,4-TDC)(EtOH)2] MOF被合成,其中粉末X射线衍射,热重力分析和N2吸附证实了其结构保真度。 因此,BBA-Diff为可合成和高性能MOF提供了一条实用的途径。
机器学习(ML)电位是分子建模的强大工具,可实现相对小的计算成本。 然而,使用性能最好的图形神经网络架构的全原子模拟对于需要广泛采样(如自由能量计算)的应用来说仍然过于昂贵。 由于自由度降低和动态加快,隐性溶剂模型可以提供必要的加速。 在这里,我们引入了一个无溶剂能源路径再加权(ReSolv)框架,将小有机分子的隐性溶剂ML电位进行参数化,准确预测了水化自由能,这是药物设计和污染物建模中必不可少的参数。 通过自上而下(实验水化自由能量数据)和自下而上(真空中分子的initio数据)学习的组合,ReSolv绕过了显式散装溶剂中分子的难以解决的ab initio数据的需求,并且不必采用不太准确的数据生成模型。 在FreeSolv数据集上,ReSolv实现了接近平均实验不确定性的平均绝对误差,显著优于标准显式溶剂力场。 与显式溶剂ML电位相比,ReSolv提供了四个数量级的计算加速,并与实验达成了更密切的协议。 提出的框架为深度分子模型铺平了道路,这些模型比经典原子模型更准确,但计算成本更低。
VTX是一个分子可视化软件,能够处理大多数分子结构和动力学轨迹文件格式。 它具有基于现代OpenGL的实时高性能分子图形引擎,针对大规模分子系统和分子动力学轨迹的可视化进行了优化。 VTX包括多个交互式相机和用户交互功能,特别是自由飞行导航和完全模块化的图形用户界面,旨在提高可用性。 它允许制作高分辨率图像,用于演示和具有自定义背景的海报。 VTX设计专注于研究,教学和教育目的的性能和可用性。 可用性和实现:VTX是开源的,免费用于非商业用途。 Windows和Ubuntu Linux的构建可在http://vtx.drugdesign.fr上找到。 源代码可在https : / /github.com/VTX-Molecular-Visualization 。 补充信息:提供全细胞模型中显示自由飞行导航的视频
逆行,通过一系列有效反应将目标分子分解成更简单的前体的过程,是有机化学和药物开发的核心。 尽管最近的机器学习(ML)研究具有先进的单步逆行建模和随后的路线搜索,但这些解决方案仍然受到可能路径的广泛组合空间的限制。 同时,大型语言模型(LLM)也展示了非凡的化学知识,暗示了它们解决化学中复杂决策任务的潜力。 在这项工作中,我们探讨了LLM是否可以成功地驾驭高度受限的多步骤逆行规划问题。 我们引入了一种用于编码反应路径的高效方案,并提出了新的路由级搜索策略,超越了传统的分步反应预测。 通过全面的评估,我们表明我们的LLM增强方法擅长逆行化规划,并自然地延伸到可合成分子设计的更广泛挑战。