42digest首页
部分动作替换:在离线MARL中解决分布转移

Partial Action Replacement: Tackling Distribution Shift in Offline MARL

Yue Jin, Giovanni Montana

arXiv
2025年11月10日

离线多智能体强化学习(MARL)受到评估非分配(OOD)联合行动的挑战的严重阻碍。 我们的核心发现是,当行为策略被考虑在内时 - 代理在数据收集期间全部或部分独立行动的常见场景 - 部分行动替换策略(PAR)可以显着减轻这一挑战。 PAR更新了代理行动的单个或部分,而其他操作仍然固定在行为数据上,与完全的联合行动更新相比,减少了分布移位。 基于此见解,我们开发Soft-Partial Conservative Q-Learning(SPACQL),使用PAR来缓解OOD问题,并根据价值估计的不确定性动态加权不同的PAR策略。 我们为这种方法提供了严格的理论基础,证明在因子化行为政策下,诱导的分布移量与偏离剂的数量呈线性尺度,而不是与联合行动空间成倍地扩展。 这为这一重要的离线MARL问题带来了一个可证明的更严格的值错误。 我们的理论结果还表明,SPaCQL使用不确定性加权自适应地解决分布变化。 我们的经验结果表明,SPaCQL能够实现更有效的策略学习,并在离线数据集显示独立结构时表现出其优于基线算法的显着优势。

Offline multi-agent reinforcement learning (MARL) is severely hampered by the challenge of evaluating out-of-distribution (OOD) joint actions. Our core finding is that when the behavior policy is factorized - a common scenario where agents act fully or partially independently during data collection - a strategy of partial action replacement (PAR) can significantly mitigate this challenge. PAR updates a single or part of agents' actions while the others remain fixed to the behavioral data, reduci...