OR-R1: Automating Modeling and Solving of Operations Research Optimization Problem via Test-Time Reinforcement Learning
Zezhen Ding, Zhen Tan, Jiheng Zhang, Tianlong Chen
优化建模和求解是运营研究(OR)在实际决策中的应用的基础,但将自然语言问题描述翻译成正式模型和求解器代码的过程仍然高度专业化。 虽然大型语言模型(LLM)的最新进展为自动化开辟了新的机会,但基于LLM的现有方法的概括能力和数据效率仍然有限,因为大多数都需要大量注释或合成数据,从而产生高成本和可扩展性障碍。 在这项工作中,我们介绍了OR-R1,一个用于自动化优化建模和解决的数据高效训练框架。 OR-R1首先采用监督微调(SFT),帮助模型从有限的标记数据中获取问题制定和代码生成的基本推理模式。 此外,它还通过测试时间组相对策略优化(TGRPO)提高了能力和一致性。 这种两阶段设计使OR-R1能够利用稀缺的标签和丰富的未标记数据进行有效学习。 实验表明,OR-R1实现了最先进的性能,平均求解精度为67.7%,仅使用ORLM等先前方法所需的合成数据1/10,超过ORLM的求解精度高达4.2%。 值得注意的是,OR-R1仅通过100个合成样品,优于ORLM超过2.4%。 此外,TGRPO在准确性方面额外提高了3.1%-6.4%,显著缩小了单次尝试(Pass@1)和多尝试(Pass@8)性能之间的差距,从13%降至7%。 跨不同真实世界基准的广泛评估表明,OR-R1为自动化或优化问题建模和解决提供了强大、可扩展且具有成本效益的解决方案,降低了工业或应用的专业知识和数据障碍。
Optimization modeling and solving are fundamental to the application of Operations Research (OR) in real-world decision making, yet the process of translating natural language problem descriptions into formal models and solver code remains highly expertise intensive. While recent advances in large language models (LLMs) have opened new opportunities for automation, the generalization ability and data efficiency of existing LLM-based methods are still limited, asmost require vast amounts of annot...