42digest
通过强化学习提高大型语言模型的装配代码性能

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

Anjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken

arXiv
2025年5月16日

大型语言模型(LLM)在广泛的编程任务中表现出强大的性能,但其代码优化的潜力仍然不足。 这项工作调查了LLM是否可以优化汇编代码的性能,其中对执行的细粒度控制可以实现难以用高级语言表达的改进。 我们提出了一个强化学习框架,使用近端策略优化(PPO)训练LLM,该框架由奖励函数引导,该函数既考虑功能正确性,又通过测试用例验证,以及相对于行业标准编译器gcc-O3的执行性能。 为了支持这项研究,我们引入了8,072个现实世界计划的基准。 我们的模型Qwen2.5-Coder-7B-PPO实现了96.0基线,优于所有其他评估的20个模型,包括Claude-3.7-sonnet。 这些结果表明,强化学习可以释放LLM的潜力,作为汇编代码性能的有效优化器。

Large language models (LLMs) have demonstrated strong performance across a wide range of programming tasks, yet their potential for code optimization remains underexplored. This work investigates whether LLMs can optimize the performance of assembly code, where fine-grained control over execution enables improvements that are difficult to express in high-level languages. We present a reinforcement learning framework that trains LLMs using Proximal Policy Optimization (PPO), guided by a reward fu...