42digest首页
通过分散式内存检索进行多代理上下文协调

Multi-agent In-context Coordination via Decentralized Memory Retrieval

Tao Jiang, Zichuan Lin, Lihe Li, Yi-Chen Li, Cong Guan, Lei Yuan, Zongzhang Zhang, Yang Yu, Deheng Ye

arXiv
2025年11月13日

大型变压器模型,经过各种数据集的训练,在不需要参数更新的情况下,在以前看不见的任务上展示了令人印象深刻的几杆性能。 这种能力也在强化学习(RL)中进行了探索,其中代理与环境进行交互,以检索上下文并最大化累积奖励,在复杂环境中表现出强大的适应性。 然而,在合作多代理强化学习(MARL)中,代理商必须协调实现共同的目标,分散的政策部署可能导致任务调整和奖励分配的不匹配,从而限制政策适应的效率。 为了应对这一挑战,我们介绍了通过分散内存检索(MAICC)进行多代理上下文协调(MAICC),这是一种旨在通过快速适应来增强协调的新方法。 我们的方法包括训练一个集中的嵌入模型来捕获细粒度的轨迹表示,然后是分散模型,这些模型近似集中模型,以获取团队级任务信息。 根据学习的嵌入,相关的轨迹被检索为上下文,这些轨迹与代理当前的子轨迹相结合,为决策提供信息。 在分散执行期间,我们引入了一种新的内存机制,可以有效地平衡测试时间在线数据与离线内存。 基于构建的内存,我们提出了一个混合实用程序评分,该分数结合了个人和团队级别的回报,确保了跨代理的信用分配。 包括基于水平觅食(LBF)和SMAC(v1/v2)在内的合作MARL基准的广泛实验表明,与现有方法相比,MAICC能够更快地适应看不见的任务。 代码可在https://github.com/LAMDA-RL/MAICC查阅。

Large transformer models, trained on diverse datasets, have demonstrated impressive few-shot performance on previously unseen tasks without requiring parameter updates. This capability has also been explored in Reinforcement Learning (RL), where agents interact with the environment to retrieve context and maximize cumulative rewards, showcasing strong adaptability in complex settings. However, in cooperative Multi-Agent Reinforcement Learning (MARL), where agents must coordinate toward a shared ...