42digest
让审判开始:使用基于LLM的代理进行漏洞检测的模拟法庭方法

Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents

Ratnadira Widyasari, Martin Weyssow, Ivana Clairine Irsan, Han Wei Ang, Frank Liauw, Eng Lieh Ouh, Lwin Khin Shar, Hong Jin Kang, David Lo

arXiv
2025年5月16日

检测源代码中的漏洞仍然是一项关键但具有挑战性的任务,特别是当良性和易受攻击的功能具有显着的相似之处时。 在这项工作中,我们引入了VulTrial,这是一个受审判室启发的多代理框架,旨在增强自动漏洞检测。 它雇佣了四个特定角色的代理,他们是安全研究员,代码编写者,主持人和审查委员会。 通过使用GPT-3.5和GPT-4o的广泛实验,我们证明Vultrial优于单剂和多剂基线。 使用GPT-4o,VulTrial通过小数据(50对样本)的多智能体提高了102.39 84.17指令调优的性能,进一步提高了VulTrial的性能139.89分析增加代理相互作用数量对VulTrial整体性能的影响。 虽然由于代币使用量的增加,多代理设置本身会产生更高的成本,但我们的研究结果表明,将VulTrial应用于GPT-3.5等具有成本效益的模型可以提高其性能69.89,而单个代理设置中GPT-4o的整体成本较低。

Detecting vulnerabilities in source code remains a critical yet challenging task, especially when benign and vulnerable functions share significant similarities. In this work, we introduce VulTrial, a courtroom-inspired multi-agent framework designed to enhance automated vulnerability detection. It employs four role-specific agents, which are security researcher, code author, moderator, and review board. Through extensive experiments using GPT-3.5 and GPT-4o we demonstrate that Vultrial outperfo...