通过分散式内存检索进行多代理上下文协调
大型变压器模型,经过各种数据集的训练,在不需要参数更新的情况下,在以前看不见的任务上展示了令人印象深刻的几杆性能。 这种能力也在强化学习(RL)中进行了探索,其中代理与环境进行交互,以检索上下文并最大化累积奖励,在复杂环境中表现出强大的适应性。 然而,在合作多代理强化学习(MARL)中,代理商必须协调实现共同的目标,分散的政策部署可能导致任务调整和奖励分配的不匹配,从而限制政策适应的效率。 为了应对这一挑战,我们介绍了通过分散内存检索(MAICC)进行多代理上下文协调(MAICC),这是一种旨在通过快速适应来增强协调的新方法。 我们的方法包括训练一个集中的嵌入模型来捕获细粒度的轨迹表示,然后是分散模型,这些模型近似集中模型,以获取团队级任务信息。 根据学习的嵌入,相关的轨迹被检索为上下文,这些轨迹与代理当前的子轨迹相结合,为决策提供信息。 在分散执行期间,我们引入了一种新的内存机制,可以有效地平衡测试时间在线数据与离线内存。 基于构建的内存,我们提出了一个混合实用程序评分,该分数结合了个人和团队级别的回报,确保了跨代理的信用分配。 包括基于水平觅食(LBF)和SMAC(v1/v2)在内的合作MARL基准的广泛实验表明,与现有方法相比,MAICC能够更快地适应看不见的任务。 代码可在https://github.com/LAMDA-RL/MAICC查阅。
多智能体系统机器学习