AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

历史与综述研究快报

相关分类

数学

Mathematics

代数几何

Algebraic Geometry

代数拓扑学

Algebraic Topology

偏微分方程分析

Analysis of PDEs

数学

Mathematics

代数几何

Algebraic Geometry

代数拓扑学

Algebraic Topology

偏微分方程分析

Analysis of PDEs

最新研究

用生成式AI推进数学研究

使用生成式AI模型进行高级数学的主要缺点是,这些模型不是逻辑推理引擎。然而,大型语言模型及其改进可以在高等数学中选择人类难以看到的模式。通过将生成式AI模型的设计发挥优势,数学家可以将它们用作强大的交互助手,可以执行繁琐的任务,生成和调试代码,检查示例,制定猜想等等。我们讨论了如何利用生成式AI模型推进数学研究。我们还讨论了他们与计算机代数系统和Lean等正式证明助手的集成。

历史与综述人工智能人机交互群论

从欧拉到今天:通用数学可谬误对ArXiv论文中的错误进行大规模计算分析

我们介绍了来自ArXiv存储库的数学论文的大规模计算分析的结果,展示了一个全面的系统,该系统不仅可以检测数学错误,还可以提供完整的裁判报告和期刊级推荐。我们的自动化分析系统处理了多个数学类别的37,000多篇论文,揭示了显著的错误率和质量分布。值得注意的是,该系统确定了跨越三个世纪数学的论文中的错误,包括Leonhard Euler(1707-1783)和Peter Gustav Lejeune Dirichlet(1805-1859)的作品,以及当代菲尔兹奖章获得者。在数值分析(math.NA)中,我们观察到错误率为9.6%(23,761篇论文中2,271个错误),而几何拓扑(math.GT)显示6.5%(13,209篇论文中有862个错误)。引人注目的是,类别理论(math.CT)在分析的93篇论文中显示0%的错误,有证据表明这些结果“更容易”用于自动化分析。除了错误检测外,该系统还评估了期刊适用性的论文,为顶级通才期刊推荐了0.4%的论文,为顶级现场特定期刊推荐了15.5%的论文,并在专业场地对其余论文进行分类。这些发现既证明了所有时代数学错误的普遍性,也证明了大规模自动化综合数学同行评审的可行性。这项工作表明,该方法虽然适用于数学,但与学科无关,可以很容易地扩展到物理,计算机科学和ArXiv存储库中代表的其他领域。

历史与综述人工智能数字图书馆

数值集成器的多项式不平等和最佳稳定性

ẋ=f(x) 的数值集成器称为稳定,如果应用于 1D Dahlquist 测试方程 ẋ=λ x,λ∈C 与固定时间步 h>0,数值求解保持边界,因为步数倾向于无穷大。众所周知,任何明确的集成商都不得在λ的某些限制之外保持稳定。此外,这些稳定性限制仅对某些特定集成商(每种情况不同)都严格,然后可以称为“最佳稳定”。这种最佳稳定性结果通常使用复杂分析的复杂技术进行验证,从而证明相当深奥。在这篇文章中,我们追求一种替代方法,利用与伯恩斯坦和马尔科夫兄弟的不平等对多项式的联系。这大大简化了证明,并提供了一个框架,统一了所获得的不同结果。

数值分析历史与综述

数学欺诈性出版:欧洲的行动呼吁和信息基础设施如何帮助

IMU-ICIAM工作组关于数学科学欺诈出版的新报告记录了双目计量学,掠夺性网点和造纸厂活动的游戏如何侵蚀对研究的信任,包括数学。这个简短的EMS笔记将分析带回了欧洲。我们敦促读者认识到欺诈性出版的警告信号,报告严重的违规行为,以便对其进行调查和制裁,并批判性地反思自己的编辑和审查做法。然后,我们概述了为什么欧洲能够很好地领导结构性反应:开放科学政策制定的十年;数据,软件和学术交流的成熟基础设施;以及社区主导的钻石开放获取的新能力。最后,我们概述了成员国非印刷贡献的发展,包括正式证明(例如精益和伊莎贝尔)的增长,我们强调了zbMATH Open作为欧洲质量信号的作用,可以帮助编辑,审稿人和作者避开有问题的场地。

数字图书馆历史与综述

EEFSUVA:新的数学奥林匹克基准

最近的突破促使人们声称,大型语言模型(LLM)与奥运会金牌相匹配,以数学基准的研究生水平熟练程度。在这项工作中,我们详细研究这些主张,并评估当前基准捕获真正的LLM数学推理的程度。这些基准的组成,主要来自国际数学奥林匹克竞赛(IMO)和相关比赛,可能由于潜在的数据污染和对熟悉的问题类型的狭隘关注而夸大了推理能力的模型。为了对数学理解进行更全面的评估,我们引入了EEFSUVA,这是一个由东欧和前苏联国家分发的地区和国家奥林匹克竞赛策划的新基准。这些比赛的特点是与IMO相当困难的问题,并以要求苛刻的非标准问题解决技术而闻名,但他们的问题在网上语料库中远不那么普遍。初步结果表明,即使是最先进的LLM也表现出EEFSUVA相对于其他奥林匹克风格基准的显着性能下降。这些发现还表明了更广泛的评估数据集对更全面评估数学推理和指导未来模型发展的潜在重要性。

计算与语言机器学习历史与综述

通用三Jug拼图的图形理论模型

一个经典的三壶拼图要求,给定三个罐子A,B和C,具有固定的最大容量,用罐A充满葡萄酒的最大容量,是否有可能通过将葡萄酒从一个罐子倒到另一个水壶而将其分成两半,而无需使用任何其他测量设备。然而,我们考虑三口拼图的通用版本,并呈现一个独立的图形理论模型,以确定该谜题是否有解决方案。如果它有一个解决方案,那么可以使用这个模型来确定相同的。我们还介绍了一个算法的草图,以确定难题的解。

历史与综述离散数学组合数学

优点指标:论文在研究中的隐性成本

曾几何时,科学家的价值是用他们的想法来衡量的,证明,也许他们在研讨会上对希尔伯特的问题进行了雄辩的辩论。但是现在,引用指标已经进入中心阶段,并给了我们新的大师:FWCI和CNCI。本文批判性地,并带有一丝讽刺,研究了这些看似客观的指标如何塑造和经常扭曲科学景观。通过实例和分析,我们强调了在评估研究人员和科学贡献时过于依赖此类指标的后果。

数字图书馆历史与综述

计算不适应时代的Apriori知识:AI在数学发现中的作用

我们可以从计算机程序的输出中获取数学事实的知识吗? 像Burge这样的人(在我们看来是正确的)认为,例如,Appel和Haken从他们的计算机程序中获得了四色定理的先验知识,因为他们的程序只是自动化了人类的数学推理形式。然而,与此类程序不同,我们认为现代LLM和DNN的不透明性在以类似的方式从中获取先验数学知识方面造成了障碍。我们声称,如果一个自动将人类形式的证明检查程序附加到这些机器上,那么我们毕竟可以从它们中获得先验数学知识,即使原始机器对我们来说是完全不透明的,并且它们输出的证明本身可能不是人类可调查的。

人工智能人机交互历史与综述

带信息嵌入和检索应用的 Checkered Pattern 矩阵排名

秸秃图案的特点是其方形结构和使用只有两种不同的颜色。这些颜色通常由两种类型的数值集表示:1,0和1-1。基于1,0的矩阵在形成检查模式时可能与基于1-1的矩阵相同,因为唯一的区别是数字0改为-1。然而,这两种矩阵在数学意义上是完全不同的,因为使用1,0的矩阵具有2的等级,使用1-1的矩阵具有1的等级。提前了解这种差异可以让我们减少矩阵操作所需的计算工作量,例如信息嵌入和检索。

历史与综述信息论

在拼字游戏中的虚张声势

众所周知,在信息不完善(如扑克)的游戏中,以某种概率虚张声势可能是最佳策略的组成部分。然而,据我们所知,没有人曾经表现出一个拼字游戏的位置,其中最优策略涉及虚张声势,甚至是拼字游戏位置,其中最优策略是混合(即随机)策略。我们展示了一个精心构建的拼字游戏位置,实际上可能会出现在锦标赛中,没有播放无效的单词,其中最佳策略(假设绑分数导致点平分,没有使用所谓的“点差”作为平局破损机制)是使A以概率1/3和概率为2/3的移动B。移动B可以合理地称为虚张声势,因为它设置了玩家实际上无法执行的威胁,但对手可能无法排除。

历史与综述计算机科学与博弈论组合数学

重塑:合作的艺术体验

本文描述了一个名为ReShape的项目,我们创建并设计了一个众包艺术计划,受到数学的启发和动力。

历史与综述计算机图形学

优化几何问题集技能开发

本文介绍了一种用于注释和组织欧几里德几何问题的本体论和方法,这些问题于20世纪90年代初开发并作为软件工具实施。虽然这项工作的大部分 - 包括本体和解决方案图范式 - 是在30多年前完成的,但我们认为它在现代人工智能的背景下重新具有相关性。特别是,我们探讨了这样的假设,即这个既定的框架在与当代大型语言模型配对时可以促进自动化的解决方案验证和反馈,从而支持教师和自学者进行几何教育。我们记录了原始架构及其持久价值,并概述了将历史教育资源与下一代人工智能技术联系起来的途径。

历史与综述人工智能

发展Mathlib：大规模数学库的维护

Lean数学库Mathlib是形式化数学领域中增长最快的库之一。我们描述了管理这种增长的各种策略，同时允许变更并避免维护者过载。这包括通过弃用系统处理破坏性变更、使用代码质量分析工具（代码检查工具）为用户提供关于常见陷阱的直接反馈、通过有意识的库（重新）设计加快编译时间、处理技术债务以及编写自定义工具来帮助审查和分类新贡献。

编程语言数学软件历史与综述

评估自我效能感量表（MASE）在测验和考试中的开发

自我效能感是教育中的一个重要构念，因其与学业成就存在预测性关系。现有的评估相关自我效能感测量工具主要关注学生对特定内容任务的信念，但忽略了关于参加评估的信念。本研究旨在开发和测试评估自我效能感量表（MASE），该量表设计用于评估与评估相关的两种效能信念（即"理解与执行"和"情绪调节"）在两种情境下的表现（即低风险的在线测验和高风险的期末考试）。研究1（N = 301）的验证性因子分析结果支持了两种评估情境下假设的双因子测量模型。在研究2中，多组验证性因子分析（MGCFA）结果（N = 277）证实这些模型具有时间不变性，并为量表的效度提供了证据。研究3证明了考试相关的MASE在不同学生群体中具有不变性（Ns = 277; 329）。本文还讨论了所开发量表在教育研究中的潜在应用。

历史与综述计算机与社会

数学家的助手：将人工智能整合到研究实践中

以"AlphaEvolve"和"Gemini Deep Think"等突破为标志的人工智能（AI）快速发展，正在开始提供强大的新工具，这些工具有可能显著改变数学许多领域的研究实践。本文基于截至2025年8月2日的发展，探讨了数学研究背景下公开可访问的大语言模型（LLMs）的当前格局。我们对近期基准测试（如MathArena和开放证明语料库（Balunović等人，2025；Dekoninck等人，2025））的分析揭示了一个复杂的双重性：虽然最先进的模型在解决问题和评估证明方面表现出强大的能力，但它们也展现出系统性缺陷，包括缺乏自我批判以及最终答案准确性与完整证明有效性之间存在模型依赖性差异。基于这些发现，我们提出了一个将AI整合到研究工作流程中的持久框架，以增强型数学家原则为核心。在这个模型中，AI在人类研究者的批判性指导下作为副驾驶发挥作用，这种方法被提炼为五个有效和负责任使用的指导原则。然后我们系统地探讨了AI在研究生命周期中可以应用的七种基本方式，从创造力和构思到最终的写作过程，展示了这些原则如何转化为具体实践。我们得出结论，AI目前的主要作用是增强而非自动化。这需要一套新的技能组合，专注于战略提示、批判性验证和方法论严谨性，以有效使用这些强大工具。

历史与综述人工智能人机交互机器学习

互联定理:评估数学结果的基于图形的方法

数学结果的评估在评估研究人员的贡献和塑造该领域的方向方面发挥着核心作用。目前,这种评估主要依赖于人类判断,无论是通过期刊同行评审还是研究机构的委员会。为了补充这些传统流程,我们提出了数据驱动的方法。我们构建了一个分层图谱,链接定理,论文和字段来捕捉它们的引文关系。然后,我们引入了一个PageRank风格的算法来计算这些实体的影响分数。使用这些分数,我们分析场排名随着时间的推移的演变,并量化场间的影响。我们希望这个框架能够有助于开发更先进的定量方法来评估数学研究,并作为专家评估的补充。

社会与信息网络历史与综述

建模仍然很重要:数学生物学和ODE数值方法中灾难性浮点错误的惊人实例

我们通过数学建模和数值分析指导读者的旅程,强调两个学科的关键相互作用。针对具有动态系统和普通微分方程数值方法基础知识的本科生,我们探索了一个来自数学生物学的模型,其中数值方法由于灾难性的浮点错误而严重失败。我们通过研究模型的稳态来分析这种行为的原因,并使用不变性理论来开发适合数值模拟的替代模型。我们的故事旨在激励分析和数字知识的结合,即使在世界一见钟情的情况下也是如此。我们已经建立了一个在线存储库,其中包含一个包含所有数值实验的交互式笔记本,使这项研究完全可复制,对课堂教学有用。

历史与综述数值分析

AI目前的趋势能处理完整的数学课程吗?

本文讨论了人工智能(AI)当前趋势在大学层面承担完整数学课程的责任方面的能力。该研究从四个重要方面评估这种能力,即创建课程教学大纲,提出选定的材料,回答学生问题,并创建评估。它表明,尽管人工智能在一些重要领域(如组织和准确性)很强大,但仍有一些人类方面与人工智能目前的能力相去不远。仍然存在一个隐藏的情感部分,即使在科学中,人工智能在当前状态下也无法实现。本文提出了一些建议,以整合人类和人工智能的潜力,以尽可能达到创建完整数学课程的目标,从而创造更好的结果。

人工智能人机交互历史与综述

递归最小二乘算法的性能增强,具有等级二更新

新的递归最小二乘算法与两个更新(RLSR2),包括指数和瞬时遗忘(通过适当的遗忘因子和窗口大小选择实现)在本报告中引入并系统地与著名的RLS算法与排名一个更新相关联。此外,本报告中还建立了与信息矩阵和参数向量逆收并融合相关的递归算法的新属性(可用于进一步的性能改进)。在存在大量谐波排放的情况下,在估计电网事件的问题中研究了新算法的性能。

最优化与控制信息论数值分析动力系统

第二个机器转向:从检查证明到创建概念

我们确定了数学发现过程中的第二个机器转向:在自动化验证检查之后,人工智能现在准备自动化数学概念本身的*创建*。我们讨论了当前的技术,障碍和潜在解决方案的现状,以及数学化概念本身的初步尝试。本文最后评估了这些能力如何重塑数学和人机协作,以及我们可能发现自己的一些不同未来。

历史与综述人工智能

继续滚动加载更多