Convergence dynamics of Agent-to-Agent Interactions with Misaligned objectives
Romain Cosentino, Sarath Shekkizhar, Adam Earle
我们为多代理场景中的代理到代理交互开发了一个理论框架。 我们考虑设置中,两个基于语言模型的代理在上下文中执行迭代梯度更新,使用另一个代理的输出作为输入。 我们表征了当代理具有错位目标时与相互作用相关的生成动力学,并表明这导致一个偏颇的平衡,其中两个代理都没有达到其目标 - 从客观间隙和每个代理的提示引起的几何形状中可以预测的剩余误差。 我们为非对称收敛创造条件,并提供了一种可以证明取得对抗结果的算法,产生片面的成功。 受过训练的变压器模型以及用于上下文线性回归任务的GPT5实验验证了该理论。 我们的框架提供了一个用于研究、预测和防御多智能体系统的设置;明确地将快速设计和交互设置与稳定性、偏差和鲁棒性联系起来。
We develop a theoretical framework for agent-to-agent interactions in multi-agent scenarios. We consider the setup in which two language model based agents perform iterative gradient updates toward their respective objectives in-context, using the output of the other agent as input. We characterize the generation dynamics associated with the interaction when the agents have misaligned objectives, and show that this results in a biased equilibrium where neither agent reaches its target - with the...