42digest首页
EEFSUVA:新的数学奥林匹克基准

EEFSUVA: A New Mathematical Olympiad Benchmark

Nicole N Khatibi, Daniil A. Radamovich, Michael P. Brenner

arXiv
2025年9月23日

最近的突破促使人们声称,大型语言模型(LLM)与奥运会金牌相匹配,以数学基准的研究生水平熟练程度。 在这项工作中,我们详细研究这些主张,并评估当前基准捕获真正的LLM数学推理的程度。 这些基准的组成,主要来自国际数学奥林匹克竞赛(IMO)和相关比赛,可能由于潜在的数据污染和对熟悉的问题类型的狭隘关注而夸大了推理能力的模型。 为了对数学理解进行更全面的评估,我们引入了EEFSUVA,这是一个由东欧和前苏联国家分发的地区和国家奥林匹克竞赛策划的新基准。 这些比赛的特点是与IMO相当困难的问题,并以要求苛刻的非标准问题解决技术而闻名,但他们的问题在网上语料库中远不那么普遍。 初步结果表明,即使是最先进的LLM也表现出EEFSUVA相对于其他奥林匹克风格基准的显着性能下降。 这些发现还表明了更广泛的评估数据集对更全面评估数学推理和指导未来模型发展的潜在重要性。

Recent breakthroughs have spurred claims that large language models (LLMs) match gold medal Olympiad to graduate level proficiency on mathematics benchmarks. In this work, we examine these claims in detail and assess the extent to which current benchmarks capture genuine LLM mathematical reasoning. The composition of these benchmarks, primarily drawing from the International Mathematics Olympiad (IMO) and related competitions, may overstate models reasoning ability due to potential data contamin...