高效的矢量查询处理对于大规模启用AI应用程序至关重要。 最近的解决方案与不断增长的矢量数据集作斗争,这些矢量数据集超过了单机内存容量,迫使单体架构中不必要的数据移动和资源利用不足。 我们介绍了 d-HNSW,这是第一个基于 RDMA 的远程内存系统的分类向量相似性搜索引擎,它实现了高性能,同时支持快速数据索引,网络通信开销低。 d-HNSW的核心是基于图形的向量索引数据结构HNSW的新分类。 它利用HNSW中贪婪搜索的特性,在满足数据请求的同时,有效地协调从内存池到计算池的数据传输。 具体来说,它利用了三个想法:(i)代表索引缓存,由采样数据子集构建的轻量级索引,在计算池中缓存,以减少对基于分层图形的索引的关键组件的频繁访问,(ii) RDMA友好型数据布局设计,以减少矢量查询和插入产生的网络往返,以及(iii)批处理查询感知数据加载,以减少池之间数据传输的带宽使用,解决有限的缓存容量。 我们通过广泛的基准测试数据集来评估d-HNSW。 实验结果表明,d-HNSW在延迟时优于Naive d-HNSW实现,同时在数据集SIFT1M@1中保持召回为0.87。
最近,虚拟/增强现实(VR/AR)的进步推动了对动态点云(DPC)的需求。 与静态点云不同,DPC能够捕获物体或场景中的时间变化,从而更准确地模拟现实世界。 虽然静态点云的质量评估研究取得了重大进展,但对动态点云质量评估(DPCQA)的研究很少,这阻碍了面向质量的应用程序的开发,例如实际场景中的帧间压缩和传输。 在本文中,我们介绍了一个名为DPCD的大型DPCQA数据库,其中包括来自7种有损压缩和噪声失真类型的15个参考DPC和525个失真DPC。 通过将这些样本渲染到处理式视频序列(PVS),进行了全面的主观实验,以获得21位观众的平均意见分数(MOS)进行分析。 介绍了内容的特性、各种失真的影响和MOS的准确性,以验证拟议数据库的异质性和可靠性。 此外,我们评估DPCD上几个客观指标的性能。 实验结果表明,DPCQA比静态点云更具挑战性。 DPCD是DPCQA新研究工作的催化剂,可公开查阅https://huggingface.co/datasets/Olivialyt/DPCD。
大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。
反事实学习正在成为一种重要的范式,植根于因果关系,有望缓解图形神经网络(GNN)的常见问题,例如公平和可解释性。 然而,正如在许多现实世界的应用领域一样,进行随机对照试验是不切实际的,人们必须依靠现有的观察(事实)数据来检测反事实。 在本文中,我们介绍并解决了为基于GNN的节点分类任务搜索反事实证据的问题。 反事实证据是一对节点,无论它们的特性及其邻域子图结构中表现出很大的相似性,它们都被GNN分类不同。 我们开发高效和有效的搜索算法和新颖的索引解决方案,利用节点特征和结构信息来识别反事实证据,并推广到任何特定的GNN之外。 通过各种下游应用,我们展示了反事实证据在增强GNN的公正性和准确性方面的潜力。
现代深度学习模型通过将它们转换为高维嵌入向量来捕获复杂数据的语义。 新兴的应用程序,如检索增强生成,使用嵌入矢量空间中的近似近邻(ANN)搜索来查找类似的数据。 现有的向量数据库为高效的ANN搜索提供了索引,由于在实际高维数据集中的低延迟和高召回,基于图形的索引是最受欢迎的。 然而,这些索引的构建成本很高,在并发读写工作负载下遭受重大争议,并且扩展到多台服务器。 我们的目标是建立一个矢量数据库,在并发读写工作负载下实现高吞吐量和高召回。 为此,我们首先提出了一个ANN索引,具有明确的两阶段设计,将快速过滤阶段与高度压缩的向量和精细阶段相结合,以确保召回,我们设计了一种新的轻量级机器学习技术,以微调索引参数。 我们引入了早期终止检查,以动态调整每个查询的搜索过程。 接下来,我们通过解诵学习参数的管理来添加对写入的支持,同时保持搜索性能。 最后,我们设计了一个分布式矢量数据库,在分类架构中为新索引提供服务。 我们使用深度学习模型生成的高维嵌入数据集,根据12个最先进的索引和三个分布式矢量数据库评估我们的索引和系统。 实验结果表明,我们的指数在高召回区域和并发读写工作负载下优于指数基线。 此外,具有可扩展性,并且比基线的吞吐量高出16倍。 HAKES项目在https://www.comp.nus.edu.sg/dbsystem/hakes/上开源。
最近,虚拟/增强现实(VR/AR)的进步推动了对动态点云(DPC)的需求。 与静态点云不同,DPC能够捕获物体或场景中的时间变化,从而更准确地模拟现实世界。 虽然静态点云的质量评估研究取得了重大进展,但对动态点云质量评估(DPCQA)的研究很少,这阻碍了面向质量的应用程序的开发,例如实际场景中的帧间压缩和传输。 在本文中,我们介绍了一个名为DPCD的大型DPCQA数据库,其中包括来自7种有损压缩和噪声失真类型的15个参考DPC和525个失真DPC。 通过将这些样本渲染到处理式视频序列(PVS),进行了全面的主观实验,以获得21位观众的平均意见分数(MOS)进行分析。 介绍了内容的特性、各种失真的影响和MOS的准确性,以验证拟议数据库的异质性和可靠性。 此外,我们评估DPCD上几个客观指标的性能。 实验结果表明,DPCQA比静态点云更具挑战性。 DPCD是DPCQA新研究工作的催化剂,可公开查阅https://huggingface.co/datasets/Olivialyt/DPCD。
在两个多维时间序列之间找到最相似的子序列有许多应用:例如捕获股票市场的依赖性或发现狒狒的协调移动。 考虑到一个时间序列中发生的一种模式,我们可能会想知道同一模式是否发生在另一个时间序列中,并且具有一些可能具有不同长度的失真。 然而,据我们所知,目前还没有有效的框架来处理这个问题。 在这项工作中,我们提出了一个算法,该算法提供了在时间序列之间找到最相似的多维子序列的确切解决方案,其中时间序列和子序列之间的长度都有差异。 该算法建立在正确性和有效性的理论保证之上。 模拟数据集的结果表明,我们的方法不仅提供了正确的解决方案,而且还只使用了与基线方法相比的四分之一时间的运行时间。 在真实世界的数据集中,它以更快的速度提取最相似的子序列(与基线方法相比,速度高达20倍),并提供了关于股票市场情况的见解以及狒狒运动的多维时间序列关系。 我们的方法可用于任何时间序列。 这项工作的代码和数据集提供给公众使用。
数据湖中的数据种类繁多,给数据分析带来了重大挑战,因为数据科学家必须同时分析多模态数据,包括结构化、半结构化和非结构化数据。 虽然大型语言模型(LLM)已经显示出了有希望的功能,但它们在准确性,效率和新鲜度方面仍然不足以进行多模态数据分析。 首先,当前的自然语言(NL)或类似SQL的查询语言可能难以精确和全面地捕捉用户的分析意图。 其次,依靠单一统一的LLM来处理不同的数据模式,往往会导致大量的推理开销。 第三,存储在数据湖中的数据可能不完整或过时,因此整合外部开放领域知识以产生及时和相关的分析结果至关重要。 在本文中,我们设想了一个新的多模态数据分析系统。 具体来说,我们提出了基于模型上下文协议(MCP)的新型架构,这是一种新兴的范式,使LLM能够与知识渊博的代理合作。 首先,我们定义了一个语义运算符层次结构,用于查询数据湖中的多模态数据,并开发了一个AI-agent驱动的NL2Operator翻译器,以弥合用户意图和分析执行。 接下来,我们引入了基于MCP的执行框架,其中每个MCP服务器都托管针对特定数据模式优化的专门基础模型。 这种设计既提高了准确性,也提高了效率,同时通过模块化部署支持高可扩展性。 最后,我们通过利用深度学习和机器学习技术来更新数据湖和LLM知识,提出了更新机制,目标是平衡数据新鲜度和推理效率。
现代数据流应用程序需要内存效率的解决方案,以便在严格的资源限制下准确跟踪频繁项目,如重击器和重变器。 传统的草图面临着固有的准确性记忆权衡:它们要么失去精度来减少内存使用,要么夸大内存成本,以实现高记录能力。 本文介绍了Hidden Sketch,一种用于密钥和频率编码的省空间可逆数据结构。 我们的设计独特地结合了可逆的布卢姆滤波器(RBF)和计数器(CM)草图,用于可倒挂的密钥和频率存储,能够以最小的内存为密钥及其频率进行精确重建。 理论分析建立了Hidden Sketch的空间复杂性和保证可逆性,而广泛的实验证明了其在频繁物品跟踪任务中的准确性和空间效率的显着提高。 通过消除可逆性和空间效率之间的权衡,Hidden Sketch为资源受限环境中的实时流分析提供了可扩展的基础。
LLM通过大量非结构化文档集实现了令人兴奋的新型数据处理应用程序。 几个新的编程框架使开发人员能够通过编写语义运算符来构建这些应用程序:一组具有自然语言规范的AI驱动的数据转换声明。 这些包括LLM驱动的地图,过滤器,连接等,用于文档处理任务,如信息提取,总结等。 虽然语义运算符系统在基准测试中取得了强劲的性能,但它们可能很难优化。 此设置的优化器必须确定如何以在全球范围内优化系统的方式物理实现每个语义运算符。 现有的优化器在可以应用的优化数量上受到限制,大多数(如果不是全部)无法优化系统质量、成本或延迟,而其他维度则受到约束。 在本文中,我们介绍了Abacus,一个可扩展的,基于成本的优化器,它搜索语义运算符系统的最佳实现,给定一个(可能受限的)优化目标。 Abacus通过利用一组最小的验证示例来估计操作员的性能,如果可用,则对操作员性能有先验的信念。 我们评估Abacus在生物医学和法律领域(BioDEX;CUAD)和多模态问题回答(MMQA)的文档处理工作负载。 我们证明,由 Abacus 优化的系统比下一个最佳系统实现了18.7 更好的质量和高达23.6倍的成本和 4.2 倍的延迟。
图形机器学习的最新进展已经转向以数据为中心的范式,由两个新兴领域驱动:(1)联邦图形学习(FGL)实现多客户端协作,但面临数据和任务异质性的挑战,限制了其实用性;(2)图形基础模型(GFM)提供了强大的域通用化,但通常在单台机器上训练,错过了跨筒仓数据和资源。 这些范式是互补的,它们的整合带来了显著的好处。 受此激励,我们提出了FedGFM,一种新的去中心化GFM培训范式。 然而,一个关键的挑战是知识纠缠,其中多领域知识合并成难以区分的表征,阻碍了下游的适应。 为了解决这个问题,我们介绍了FedGFM+,这是一个增强的框架,有两个核心模块,以减少知识纠缠:(1) AncDAI:基于锚域感知的初始化策略。 在预训练之前,每个客户端将其本地图形编码为特定领域的原型,作为语义锚。 围绕这些锚的合成嵌入初始化了全局模型。 我们理论上证明这些原型是跨域可区分的,为区分特定领域知识提供了强烈的归纳偏差。 (2)AdaDPP:本地自适应域敏感提示池。 每个客户端在预训练期间学习一个轻量级的图形提示捕获域语义。 在微调过程中,所有客户端的提示形成一个池,GFM从中选择相关的提示来增强目标图形属性,改善下游适应。 FedGFM+在多个领域和任务的8种不同基准上进行评估,优于监督学习,FGL和联合GFM变体的20个基线。
网络安全的动态环境需要针对异构系统中的漏洞管理提供精确和可扩展的解决方案,由于国家漏洞数据库(NVD)等数据库中的数据不一致,因此配置特定的漏洞通常被错误识别。 NVD中不准确的通用平台枚举(CPE)数据进一步导致误报和不完全漏洞检索。 通过我们对CPE和CVEdeails数据的系统分析,揭示了50多个不一致之处,我们提出了VulCPE,一个使用统一CPE模式(uCPE),实体识别,关系提取和基于图形的建模来规范数据和模型配置依赖关系的框架。 VulCPE比现有工具可实现卓越的检索精度(0.766)和覆盖范围(0.926)。 VulCPE 确保精确、具有上下文感知的漏洞管理,增强网络弹性。
以前对Adiar BDD包的研究已经成功地设计出能够处理存储在外部内存中的大型二进制决策图(BDD)的算法。 为此,它使用连续扫描通过BDD来解决计算。 然而,这种方法使多变量量化的算法,关系产物和变量重新排序超出了其范围。 在这项工作中,我们通过引入嵌套扫描框架来解决这个问题。 在这里,多个并发扫描在彼此之间传递信息以计算结果。 我们已经在Adiar中实现了框架,并用它来创建一个新的外部内存多变量量化算法。 与传统的深度优先实现相比,Adiar与嵌套扫地能够解决更多的基准实例和/或更快地解决它们。
高效的矢量查询处理对于大规模启用AI应用程序至关重要。 最近的解决方案与不断增长的矢量数据集作斗争,这些矢量数据集超过了单机内存容量,迫使单体架构中不必要的数据移动和资源利用不足。 我们介绍了 d-HNSW,这是第一个基于 RDMA 的远程内存系统的分类向量相似性搜索引擎,它实现了高性能,同时支持快速数据索引,网络通信开销低。 d-HNSW的核心是基于图形的向量索引数据结构HNSW的新分类。 它利用HNSW中贪婪搜索的特性,在满足数据请求的同时,有效地协调从内存池到计算池的数据传输。 具体来说,它利用了三个想法:(i)代表索引缓存,由采样数据子集构建的轻量级索引,在计算池中缓存,以减少对基于分层图形的索引的关键组件的频繁访问,(ii) RDMA友好型数据布局设计,以减少矢量查询和插入产生的网络往返,以及(iii)批处理查询感知数据加载,以减少池之间数据传输的带宽使用,解决有限的缓存容量。 我们通过广泛的基准测试数据集来评估d-HNSW。 实验结果表明,d-HNSW在延迟时优于Naive d-HNSW实现,同时在数据集SIFT1M@1中保持召回为0.87。
现代深度学习模型通过将它们转换为高维嵌入向量来捕获复杂数据的语义。 新兴的应用程序,如检索增强生成,使用嵌入矢量空间中的近似近邻(ANN)搜索来查找类似的数据。 现有的向量数据库为高效的ANN搜索提供了索引,由于在实际高维数据集中的低延迟和高召回,基于图形的索引是最受欢迎的。 然而,这些索引的构建成本很高,在并发读写工作负载下遭受重大争议,并且扩展到多台服务器。 我们的目标是建立一个矢量数据库,在并发读写工作负载下实现高吞吐量和高召回。 为此,我们首先提出了一个ANN索引,具有明确的两阶段设计,将快速过滤阶段与高度压缩的向量和精细阶段相结合,以确保召回,我们设计了一种新的轻量级机器学习技术,以微调索引参数。 我们引入了早期终止检查,以动态调整每个查询的搜索过程。 接下来,我们通过解诵学习参数的管理来添加对写入的支持,同时保持搜索性能。 最后,我们设计了一个分布式矢量数据库,在分类架构中为新索引提供服务。 我们使用深度学习模型生成的高维嵌入数据集,根据12个最先进的索引和三个分布式矢量数据库评估我们的索引和系统。 实验结果表明,我们的指数在高召回区域和并发读写工作负载下优于指数基线。 此外,具有可扩展性,并且比基线的吞吐量高出16倍。 HAKES项目在https://www.comp.nus.edu.sg/dbsystem/hakes/上开源。
局部一致性出现在不同的领域,包括贝叶斯统计,关系数据库和量子基础。 同样,功能依赖的概念也出现在所有这些领域。 我们采用一般的方法来研究逻辑推理,使全球不一致和局部一致性。 我们的方法建立在K-relations的成对一致家族的基础上,即与带有一些积极交换单性元素的桂冠关系。 该框架涵盖了量子实验产生的概率分布家族及其可能性对应物。 作为第一步,我们研究此设置中函数依赖关系(FD)的包含问题。 值得注意的是,FD的转导规则不再健全,但可以由两个新颖的公理方案取代。 我们为一元FD的诱因问题提供了完整的公理化和PTIME算法。 此外,我们探索当背景家庭对布尔人已经意识到各种单体的背景家庭。
关系深度学习(RDL)是一种有前途的方法,通过将其表示为异质时间图,在多表关系数据上构建最先进的预测模型。 然而,常用的图形神经网络模型在捕获关系数据中固有的复杂结构模式和远程依赖性方面受到根本限制。 虽然图形变换器已经成为一般图形上GNN的强大替代品,但将它们应用于关系实体图形带来了独特的挑战:(i)传统位置编码无法概括为大规模的异构图形;(ii)现有的体系结构无法建模关系数据的时间动力学和模式约束;(iii)现有的标记化方案失去了关键的结构信息。 这里我们介绍了关系图谱变压器(RelGT),这是第一个专门为关系表设计的图形变压器架构。 RelGT采用新颖的多元素标记化策略,将每个节点分解为五个组件(特征,类型,跳跃距离,时间和局部结构),实现异质性,时间性和拓扑的高效编码,而无需昂贵的预计算。 我们的架构将本地对采样子图的关注与全球对可学习中心的关注相结合,结合了本地和数据库范围的表示。 在RelBench基准测试的21项任务中,RelGT始终匹配或优于GNN基线,达到18个图形变压器,作为关系深度学习的强大架构。
当前大型语言模型(LLM)可以帮助开发程序代码,而不是许多其他问题,但它们也可以支持使用知识图谱(KG)吗? 哪个LLM在语义Web和知识图谱工程(KGE)领域提供最佳功能? 是否有可能在不手动检查许多答案的情况下确定? 3.0 版中的 LLM-KG-Bench 框架旨在回答这些问题。 它由一组可扩展的任务组成,用于自动评估LLM答案,并涵盖了语义技术的不同方面。 在本文中,LLM-KG-Bench框架在版本3中介绍,以及使用它生成的提示,答案和评估的数据集以及几个最先进的LLM。 自最初发布以来,该框架已经进行了重大改进,包括更新的任务API,该API在处理评估任务,修订任务方面提供了更大的灵活性,并通过vllm库扩展了对各种开放模型的支持,以及其他改进。 使用30多个现代开放和专有的LLM生成了全面的数据集,从而创建了示例模型卡,以证明模型与RDF和SPARQL一起工作的能力,并比较其在Turtle和JSON-LD RDF序列化任务上的性能。
在本文中,我们研究了评估基本图形模式(简称BGP,简称SPARQL查询子类)与动态链接数据图形的问题;即持续更新的链接数据图形。 我们考虑通过消息流持续接收更新的设置,并支持三元组的插入和删除(更新直接作为删除和插入的组合处理)。 在这种情况下,我们提出了一组内存中的算法,最大限度地减少缓存数据,以有效和持续地回答 BGP 查询。 查询通常提交到系统中,并在处理更新消息时持续生成delta答案。 为了高效和持续地评估通过流数据提交的查询,以及最小化缓存数据的数量,我们提出了一种方法,将提交的查询分解成更简单的子查询,并通过结合子查询的中间答案来实现查询评估。 使用这种方法,提议的算法在多项式时间和空间中计算BGP查询的delta答案。 请注意,对于 BGP 查询的某些子类,我们表明评估可以在恒定或线性的时间和空间中实现。 合并所有历史delta答案,算法确保每个查询的答案在任何给定的时间构建。
由于其目标用例的多样性和要覆盖的API表面积大,数据湖屋(DLH)是可组合数据系统的天然候选者。 Bauplan是一个基于“备用数据部分”和SQL查询和Python管道的统一函数即服务(FaaS)运行时的可组合DLH。 虽然FaaS简化了构建和使用系统,但它在调度和优化数据工作负载方面带来了新的挑战。 在这项工作中,从可组合DLH的编程模型开始,我们将底层调度问题表征,并激励模拟成为在DLH上进行实验的有效工具。 然后,我们将Eudoxia引入并发布到社区Eudoxia,这是一个确定性模拟器,用于将数据工作负载作为云功能进行调度。 我们证明Eudoxia可以模拟广泛的工作负载,并实现高度可定制的调度算法的用户实现,为开发人员根据其基础架构评估不同的调度算法提供了一种廉价的机制。
Guarded Monotone Strict NP (GMSNP) 通过守卫存在量化的任意实体谓词扩展 Monotone Monadic Strict NP (MMSNP)。 我们证明GMSNP的遏制问题是可决定的,从而解决了Bienvenu,十Cate,Lutz和Wolter的公开问题,后来由Bourhis和Lutz重述。 我们的证明还附带了2NEXPTIME对问题的复杂性的上限,这与Bourhis和Lutz对MMSNP的下限相匹配。 为了获得这些结果,我们显著改善了 GMSNP 模型理论特性的知识状态。 Bodirsky、Knäuer和Starke之前都表明,每个 GMSNP 句子都定义了 ω 分类结构的 CSP 的有限结合。 我们表明,这些结构可用于从GMSNP的遏制问题减少到测试称为重新着色的某些地图存在的简单问题,尽管在比GMSNP更通用的设置中; 仔细分析这个产量说是上限。 作为次要贡献,我们通过在这些结构的属性中添加有限形式的同质性来完善Bodirsky,Knäuer和Starke的构造,使逻辑适应未来的复杂性分类,使用为无限域CSP开发的技术进行查询评估。
越来越多的移动物联网(IoT)设备导致移动对象数据激增,为流量路由、热点检测或天气预报等应用程序供电。 在管理此类数据时,空间数据库系统提供各种索引选项和数据格式,例如基于点或基于轨迹。 同样,数据集特征,如地理重叠和偏斜也可能有很大差异。 这三者都严重影响了数据库的性能。 虽然这在现有论文中已经研究过,但没有一个探讨所有三个方面组合产生的影响和权衡。 在本文中,我们评估索引选择、数据格式和数据集特性对流行的空间数据库系统PostGIS的性能影响。 我们专注于数据集特征的两个方面,重叠程度和偏斜程度,并提出新颖的近似方法来确定这些特征。 我们设计了一个基准,比较各种空间索引策略和数据格式,同时也考虑了数据集特性对数据库性能的影响。 我们包括各种真实世界和合成数据集,编写操作和读取查询,以涵盖应用程序运行时可能发生的广泛场景。 我们的结果为希望优化空间存储和查询的开发人员提供了实用的指导,同时也提供了对数据集特性及其对数据库性能影响的见解。
电池科学的跨学科合作是快速评估更好的成分和材料。 然而,不同的领域词汇和非兼容的实验结果减慢了合作。 我们批判性地评估当前最先进的技术,并开发结构化数据管理和解释系统,使数据策划可持续。 我们使用的技术包括本体技术,为知识提供结构,数据库系统符合FAIR原则,以及软件工程,将数据处理分解为可验证的步骤。 为了证明我们的方法,我们研究了Galva诺量静音滴定技术在各种电极上的适用性。 我们的工作是使自动化材料科学扩展到各个实验室以外的一个基石,以在全球范围内寻找更好的电池材料。
概念建模是信息系统开发和使用的重要组成部分,涉及识别和代表现实的相关方面。 尽管过去几十年来,服务和产品经历了持续的数字化,影响了商业和社会,但仍然需要概念建模工作来支持新技术的出现。 本文调查了过去五十年对概念建模的研究,并展示了其主题和趋势如何继续发展以适应新兴技术,同时保持基本结构的基础。 我们调查了5,300多篇论文,涉及从20世纪70年代到现在的概念建模主题,这些论文来自35个多学科期刊和会议,并将其用作分析概念建模进展的基础。 讨论了概念建模在我们不断发展的数字世界中应发挥的重要作用,并提出了未来的研究方向。
大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。