Causal Model-Based Reinforcement Learning for Sample-Efficient IoT Channel Access
Aswin Arun, Christo Kurisummoottil Thomas, Rimalpudi Sarvendranath, and Walid Saad
尽管多智能体强化学习(MARL)在无线用例(如中等访问控制(MAC)方面具有优势,但它们在物联网(IoT)中的实际应用受到其示例效率低下的阻碍。 为了减轻这一挑战,人们可以利用基于模型的强化学习(MBRL)解决方案,然而,传统的MBRL方法依赖于无法解释且无法推理的黑箱模型。 相反,在本文中,通过利用因果学习工具开发基于因果模型的MARL框架。 特别是,提出的模型可以使用结构因果模型(SCM)和基于注意力的推理网络明确地表示网络变量之间的因果依赖。 然后开发可解释的因果模型,以捕获MAC控制消息如何影响观测,传输操作如何决定结果,以及通道观察如何影响奖励。 然后使用数据增强技术,使用学习的因果模型通过近端策略优化(PPO)生成合成部署。 分析结果表明,因果MBRL相对于黑盒方法的指数样本复杂性增益。 广泛的模拟表明,平均而言,拟议的方法可以减少58%的环境相互作用,并且与无模型基线相比产生更快的收敛。 拟议的方法本质上也被证明是通过基于注意力的因果归因提供可解释的调度决策,揭示哪些网络条件推动了该策略。 由此产生的样品效率和可解释性的结合使因果MBRL成为资源受限无线系统的一种实用方法。
Despite the advantages of multi-agent reinforcement learning (MARL) for wireless use case such as medium access control (MAC), their real-world deployment in Internet of Things (IoT) is hindered by their sample inefficiency. To alleviate this challenge, one can leverage model-based reinforcement learning (MBRL) solutions, however, conventional MBRL approaches rely on black-box models that are not interpretable and cannot reason. In contrast, in this paper, a novel causal model-based MARL framewo...