42digest首页
迈向大型物理基准

Towards a Large Physics Benchmark

Kristian G. Barman, Sascha Caron, Faegheh Hasibi, Eugene Shalugin, Yoris Marcet, Johannes Otte, Henk W. de Regt, and Merijn Moody

arXiv
2025年7月29日

我们引入了由科学界开发的基准框架,以评估,监测和指导基础物理学中的大型语言模型发展。 基于科学理解和创造力的哲学概念,我们开发了一个评分系统,其中每个问题都由专家为其正确性,难度和惊喜进行评分。 问题有三种形式:(一)概念理解的多项选择题,(二)需要数学推导的分析问题,以及(三)需要复杂解决问题的开放式任务。 我们当前的数据集包含各种各样的示例,包括机器学习挑战,对高能物理事件进行分类,例如四个顶级夸克信号。 为了确保持续相关性,我们提出了一个活生生的基准,物理学家在这里提出问题,例如与新出版物一起。 我们请通过:http://www.physicsbenchmarks.org/发言。 我们希望这个基准能够实现有针对性的人工智能开发,能够为基础物理研究做出有意义的贡献。

We introduce a benchmark framework developed by and for the scientific community to evaluate, monitor and steer large language model development in fundamental physics. Building on philosophical concepts of scientific understanding and creativity, we develop a scoring system in which each question is scored by an expert for its correctness, difficulty, and surprise. The questions are of three forms: (i) multiple-choice questions for conceptual understanding, (ii) analytical problems requiring ma...