活水快报 - 42Digest

通过强化学习提高大型语言模型的装配代码性能

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning

Anjiang Wei, Tarun Suresh, Huanmi Tan, Yinglun Xu, Gagandeep Singh, Ke Wang, Alex Aiken

arXiv

2025年5月16日

大型语言模型(LLM)在广泛的编程任务中表现出强大的性能,但其代码优化的潜力仍然不足。这项工作调查了LLM是否可以优化汇编代码的性能,其中对执行的细粒度控制可以实现难以用高级语言表达的改进。我们提出了一个强化学习框架,使用近端策略优化(PPO)训练LLM,该框架由奖励函数引导,该函数既考虑功能正确性,又通过测试用例验证,以及相对于行业标准编译器gcc-O3的执行性能。为了支持这项研究,我们引入了8,072个现实世界计划的基准。我们的模型Qwen2.5-Coder-7B-PPO实现了96.0基线,优于所有其他评估的20个模型,包括Claude-3.7-sonnet。这些结果表明,强化学习可以释放LLM的潜力,作为汇编代码性能的有效优化器。

Large language models (LLMs) have demonstrated strong performance across a wide range of programming tasks, yet their potential for code optimization remains underexplored. This work investigates whether LLMs can optimize the performance of assembly code, where fine-grained control over execution enables improvements that are difficult to express in high-level languages. We present a reinforcement learning framework that trains LLMs using Proximal Policy Optimization (PPO), guided by a reward fu...

计算与语言人工智能性能编程语言软件工程

View Source