活水快报 - 42Digest

数学家的助手：将人工智能整合到研究实践中

The Mathematician's Assistant: Integrating AI into Research Practice

Jonas Henkel

arXiv

2025年8月27日

以"AlphaEvolve"和"Gemini Deep Think"等突破为标志的人工智能（AI）快速发展，正在开始提供强大的新工具，这些工具有可能显著改变数学许多领域的研究实践。本文基于截至2025年8月2日的发展，探讨了数学研究背景下公开可访问的大语言模型（LLMs）的当前格局。我们对近期基准测试（如MathArena和开放证明语料库（Balunović等人，2025；Dekoninck等人，2025））的分析揭示了一个复杂的双重性：虽然最先进的模型在解决问题和评估证明方面表现出强大的能力，但它们也展现出系统性缺陷，包括缺乏自我批判以及最终答案准确性与完整证明有效性之间存在模型依赖性差异。基于这些发现，我们提出了一个将AI整合到研究工作流程中的持久框架，以增强型数学家原则为核心。在这个模型中，AI在人类研究者的批判性指导下作为副驾驶发挥作用，这种方法被提炼为五个有效和负责任使用的指导原则。然后我们系统地探讨了AI在研究生命周期中可以应用的七种基本方式，从创造力和构思到最终的写作过程，展示了这些原则如何转化为具体实践。我们得出结论，AI目前的主要作用是增强而非自动化。这需要一套新的技能组合，专注于战略提示、批判性验证和方法论严谨性，以有效使用这些强大工具。

The rapid development of artificial intelligence (AI), marked by breakthroughs like 'AlphaEvolve' and 'Gemini Deep Think', is beginning to offer powerful new tools that have the potential to significantly alter the research practice in many areas of mathematics. This paper explores the current landscape of publicly accessible large language models (LLMs) in a mathematical research context, based on developments up to August 2, 2025. Our analysis of recent benchmarks, such as MathArena and the Op...

历史与综述人工智能人机交互机器学习

View Source