Expert Evaluation of LLM World Models: A High-T_c Superconductivity Case Study
Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia, Alexey Vlaskin, Chris Co, Daniel J. Liebling, Scott Ellsworth, Matthew Abraham, Elizabeth Dorfman, N. P. Armitage, Chunhan Feng, Antoine Georges, Olivier Gingras, Dominik Kiese, Steven A. Kivelson, Vadim Oganesyan, B. J. Ramshaw, Subir Sachdev, T. Senthil, J. M. Tranquada, Michael P. Brenner, Subhashini Venugopalan and Eun-Ah Kim
大型语言模型(LLM)作为科学文献探索的强大工具显示出巨大的希望。 然而,他们在专业领域为复杂问题提供科学准确和全面答案的有效性仍然是一个活跃的研究领域。 使用高温铜酸盐作为范例,我们评估LLM系统在专家层面理解文献的能力。 我们构建了一个专家策划的数据库,其中包含了1726篇科学论文,涵盖了该领域的历史,以及一组67个专家制定的问题,探讨了对文献的深刻理解。 然后,我们评估六个不同的基于LLM的系统来回答这些问题,包括市售的封闭模型和自定义检索增强生成(RAG)系统,该系统能够在文本旁边检索图像。 然后,专家根据评估平衡观点,事实全面性,简洁性和证据支持的主题来评估这些系统的答案。 在六个使用RAG的系统中,两个使用RAG的文档在关键指标上的表现优于现有的封闭模型,特别是在提供全面和支持的答案方面。 我们讨论了LLM性能的有希望的方面以及所有模型的关键缺点。 一组专家制定的问题和主题对于评估基于LLM的推理系统的专家水平表现将是有价值的。
Large Language Models (LLMs) show great promise as a powerful tool for scientific literature exploration. However, their effectiveness in providing scientifically accurate and comprehensive answers to complex questions within specialized domains remains an active area of research. Using the field of high-temperature cuprates as an exemplar, we evaluate the ability of LLM systems to understand the literature at the level of an expert. We construct an expert-curated database of 1,726 scientific pa...