42digest
PeerGuard:通过相互推理来防御多智能系统免受后门攻击

PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning

Falong Fan and Xi Li

arXiv
2025年5月16日

多智能系统利用先进的人工智能模型作为自主代理,在机器人和交通管理等应用程序中交互、合作或竞争完成复杂的任务。 尽管它们越来越重要,但多智能体系统的安全性仍然基本未被充分开发,大多数研究都集中在单个AI模型而不是交互代理上。 这项工作调查了多代理系统中的后门漏洞,并提出了基于代理相互作用的防御机制。 通过利用推理能力,每个代理评估其他人的反应,以检测不合逻辑的推理过程,这些推理过程表明中毒的代理人。 基于LLM的多剂系统(包括ChatGPT系列和Llama 3)的实验证明了拟议方法的有效性,在识别毒剂方面实现了高精度,同时最大限度地减少了清洁剂上的误报。 我们相信这项工作提供了对多智能体系统安全的见解,并有助于开发稳健,值得信赖的AI交互。

Multi-agent systems leverage advanced AI models as autonomous agents that interact, cooperate, or compete to complete complex tasks across applications such as robotics and traffic management. Despite their growing importance, safety in multi-agent systems remains largely underexplored, with most research focusing on single AI models rather than interacting agents. This work investigates backdoor vulnerabilities in multi-agent systems and proposes a defense mechanism based on agent interactions....