EGG-SR: Embedding Symbolic Equivalence into Symbolic Regression via Equality Graph
Nan Jiang, Ziyi Wang, and Yexiang Xue
符号回归试图通过搜索闭态表达式来从实验数据中揭示物理定律,这是AI驱动的科学发现中的一项重要任务。 然而,表达搜索空间的指数级增长使任务在计算上具有挑战性。 减少有效搜索空间和加速训练的一个有希望的但探索不足的方向在于符号等价物:许多表达式虽然在语法上不同,但定义了相同的函数 - 例如log(x_1^2x_2^3),log(x_1^2)+log(x_2^3)和2log(x_1)+3log(x_2)。 现有的算法将这些变体视为不同的输出,导致冗余的探索和缓慢的学习。 我们引入了EGG-SR,这是一个统一的框架,将平等图(e-graphs)集成到不同的符号回归算法中,包括蒙特卡洛树搜索(MCTS),深度强化学习(DRL)和大型语言模型(LLM)。 EGG-SR通过拟议的EGG模块紧凑地代表等效表达式,通过以下方式实现更高效的学习:(1)在EGG-MCTS中修剪冗余子树探索,(2)在EGG-DRL中跨等效类聚合奖励,(3)丰富EGG-LLM中的反馈提示。 在温和的假设下,我们表明嵌入电子图会收紧MCTS的遗憾约束,并减少DRL梯度估计器的方差。 经验上,EGG-SR在具有挑战性的基准测试中持续增强多个基线,发现比最先进的方法具有低标准化平均平方误差的方程。 代码实施可查阅:https://www.github.com/jiangnanhugo/egg-sr。
Symbolic regression seeks to uncover physical laws from experimental data by searching for closed-form expressions, which is an important task in AI-driven scientific discovery. Yet the exponential growth of the search space of expression renders the task computationally challenging. A promising yet underexplored direction for reducing the effective search space and accelerating training lies in symbolic equivalence: many expressions, although syntactically different, define the same function – ...