42digest
MatTools:为材料科学工具的大型语言模型提供基准测试

MatTools: Benchmarking Large Language Models for Materials Science Tools

Siyu Liu, Jiamin Xu, Beilin Ye, Bo Hu, David J. Srolovitz, Tongqi Wen

arXiv
2025年5月16日

大型语言模型(LLM)越来越多地应用于材料科学问题,包括文献理解,财产预测,材料发现和合金设计。 同时,已经开发出了广泛的基于物理的计算方法,可以计算材料特性。 在这里,我们提出了一个基准应用程序,以评估LLM的熟练程度,通过基于此类基于物理的计算材料科学包的代码的生成和安全执行来回答材料科学问题。 MatTools建立在两个互补组件上:材料模拟工具问答(QA)基准和真实世界的工具使用基准。 我们设计了一种自动化方法,以有效地收集现实世界的材料科学工具使用示例。 QA基准来自pymatgen(Python Materials Genomics)代码库和文档,由69,225个QA对组成,评估LLM理解材料科学工具的能力。 真实世界的基准包含 49 个任务(138 个子任务),需要生成用于材料属性计算的功能 Python 代码。 我们对不同LLM的评估产生了三个关键见解:(1)一般主义者超越专家;(2)AI了解AI;(3)Simpler更好。 MatTools为评估和提高材料科学工具应用的LLM能力提供了一个标准化的框架,促进了材料科学和一般科学研究更有效的AI系统的开发。

Large language models (LLMs) are increasingly applied to materials science questions, including literature comprehension, property prediction, materials discovery and alloy design. At the same time, a wide range of physics-based computational approaches have been developed in which materials properties can be calculated. Here, we propose a benchmark application to evaluate the proficiency of LLMs to answer materials science questions through the generation and safe execution of codes based on su...