Evaluating Software Process Models for Multi-Agent Class-Level Code Generation
Wasique Islam Shafin, Md Nakhla Rafi, Zhenhao Li, Tse-Hsun Chen
现代软件系统要求的代码不仅具有功能,而且易于维护和结构良好。 虽然大型语言模型(LLM)越来越多地用于自动化软件开发,但大多数研究都集中在孤立的单代理函数级生成上。 这项工作探讨了流程结构和角色专业化如何塑造多代理LLM工作流程,用于类级代码生成。 我们模拟了一个瀑布风格的开发周期,涵盖要求、设计、实现和测试,使用三个 LLM(GPT-4o-mini、DeepSeek-Chat 和 Claude-3.5-Haiku)从 ClassEval 基准测试 100 个 Python 任务。 我们的研究结果表明,多代理工作流程重组,而不是持续增强模型性能。 瀑布式协作可以产生更清洁、更易于维护的代码,但通常会降低功能正确性(GPT-4o-mini的-37.8%和DeepSeek-Chat的-37.8%),Claude-3.5-Haiku是一个值得注意的例外(+9.5%)。 重要的是,过程约束会改变失败特征:缺少代码等结构问题减少,而语义和验证错误变得更加频繁。 在所有的阶段中,测试通过提高验证覆盖率以及引入新的推理失败来发挥最大的影响,而要求和设计具有相对温和的效果。 总体而言,这项研究提供了经验证据,表明软件流程结构从根本上改变了LLM的推理,协作和失败,揭示了僵化的工作流纪律和多代理代码生成中灵活解决问题之间的固有权衡。
Modern software systems require code that is not only functional but also maintainable and well-structured. Although Large Language Models (LLMs) are increasingly used to automate software development, most studies focus on isolated, single-agent function-level generation. This work examines how process structure and role specialization shape multi-agent LLM workflows for class-level code generation. We simulate a Waterfall-style development cycle covering Requirement, Design, Implementation, an...