42digest
VeriReason:使用测试台反馈强化学习,用于推理增强的Verilog生成

VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation

Yiting Wang, Guoheng Sun, Wanghao Ye, Gang Qu, Ang Li

arXiv
2025年5月17日

使用大型语言模型(LLM)自动生成寄存器传输级别(RTL)代码,为简化数字电路设计和减少人力工作提供了巨大的前景。 然而,目前基于LLM的方法面临着严峻的挑战,包括培训数据稀缺,规范代码对齐不良,缺乏验证机制以及平衡泛化与专业化。 受 DeepSeek-R1 的启发,我们引入了 VeriReason,这是一个集成了用于 RTL 生成的引导奖励近端优化 (GRPO) 强化学习的监督微调框架。 使用策划的训练示例和反馈驱动的奖励模型,VeriReason将测试台评估与结构方法论相结合,同时嵌入了自主纠错的自我检查功能。 在 VerilogEval 基准测试中,VeriReason 提供了显著改进:在 VerilogEval Machine 基准测试中实现了 83.1 的正确性,大大优于同类型号和更大的商业系统,如 GPT-4 Turbo。 此外,与基线方法相比,我们的方法表明,与基线方法相比,首次尝试的功能正确性增加了2.8倍,并且对看不见的设计表现出稳健的概括。 据我们所知,VeriReason代表了第一个成功集成明确推理能力与Verilog一代强化学习的系统,为自动化RTL合成建立了新的最先进的技术。 模型和数据集可在以下网址查阅:https://huggingface.co/collections/AI4EDA-CASE Code:https://github.com/NellyW8/VeriReason

Automating Register Transfer Level (RTL) code generation using Large Language Models (LLMs) offers substantial promise for streamlining digital circuit design and reducing human effort. However, current LLM-based approaches face significant challenges with training data scarcity, poor specification-code alignment, lack of verification mechanisms, and balancing generalization with specialization. Inspired by DeepSeek-R1, we introduce VeriReason, a framework integrating supervised fine-tuning with...