42digest首页
LLM 代理真的能辩论吗? 逻辑推理中多代理辩论的受控研究

Can LLM Agents Really Debate? A Controlled Study of Multi-Agent Debate in Logical Reasoning

Haolun Wu, Zhenkun Li, Lingyao Li

arXiv
2025年11月11日

多代理辩论(MAD)最近已成为提高大型语言模型(LLM)推理性能的有希望的框架。 然而,除了简单的集合或多数投票之外, LLM 代理人是否能够真正参与审议推理,但仍不清楚。 我们通过使用Knight-Knave-Spy逻辑谜题进行对照研究来解决这个问题,该谜题能够在可验证的地面真理下对辩论结果和过程进行精确,逐步评估。 我们系统地设置了六个结构和认知因素,包括代理团队规模,组成,信心可见性,辩论顺序,辩论深度和任务难度,以解开它们各自对集体推理的影响。 我们的结果表明,内在的推理强度和群体多样性是辩论成功的主要驱动因素,而秩序或信心可见性等结构性参数则提供有限的收益。 除了结果之外,过程级别的分析还确定了关键的行为模式:多数压力抑制了独立纠正,有效的团队推翻了不正确的共识,理性,有效性一致的推理最强烈地预测了改善。 这些发现为LLM辩论如何以及为什么成功或失败提供了宝贵的见解,为设计可解释和寻求真理的多代理推理系统提供了指导。

Multi-agent debate (MAD) has recently emerged as a promising framework for improving the reasoning performance of large language models (LLMs). Yet, whether LLM agents can genuinely engage in deliberative reasoning, beyond simple ensembling or majority voting, remains unclear. We address this question through a controlled study using the Knight–Knave–Spy logic puzzle, which enables precise, step-wise evaluation of debate outcomes and processes under verifiable ground truth. We systematically set...