Iterated Agent for Symbolic Regression
Zhuo-Yang Song, Zeyu Cai, Shutao Zhang, Jiashen Wei, Jichen Pan, Shi Qiu, Qing-Hong Cao, Tie-Jiun Hou, Xiaohui Liu, Ming-xing Luo, Hua Xing Zhu
符号回归(SR),从数据中自动发现数学表达式,是科学探究的基石。 然而,它经常受到搜索空间的组合爆炸和过度拟合趋势的阻碍。 植根于遗传编程的流行方法,通过语法方式探索这个空间,通常产生过于复杂,不可解释的模型。 本文介绍了IdeaSearchFitter,这是一个在进化搜索中使用大语言模型(LLM)作为语义运算符的框架。 通过生成以自然语言原理为指导的候选人表达式,我们的方法将发现偏向于不仅准确而且概念上连贯和可解释的模型。 我们展示了IdeaSearchFitter在各种挑战中的功效:它在Feynman符号回归数据库(FSReD)上实现了具有竞争力的,噪音强劲的性能,优于几个强大的基线;在真实世界的数据中发现了具有良好准确性复杂性权衡的机械对齐模型;并在前沿高能物理应用中为Parton分布函数提供紧凑,物理激励的参数化。 IdeaSearchFitter是我们更广泛的迭代代理框架IdeaSearch中的专门模块,可在https://www.ideasearch.cn/上公开。
Symbolic regression (SR), the automated discovery of mathematical expressions from data, is a cornerstone of scientific inquiry. However, it is often hindered by the combinatorial explosion of the search space and a tendency to overfit. Popular methods, rooted in genetic programming, explore this space syntactically, often yielding overly complex, uninterpretable models. This paper introduces IdeaSearchFitter, a framework that employs Large Language Models (LLMs) as semantic operators within an ...