Learning-Based Channel Access in Wi-Fi: A Multi-Armed Bandit Approach
Miguel Casasnovas, Francesc Wilhelmi, Richard Combes, Maksymilian Wojnar, Katarzyna Kosek-Szott, Szymon Szott, Anders Jonsson, Luis Esteve, Boris Bellalta
由于其静态协议设计,IEEE 802.11(又名Wi-Fi)信道接入缺乏适应动态网络条件的适应性,导致频谱利用率低,不必要的争合和分组碰撞。 本文研究强化学习(RL)解决方案,以优化Wi-Fi的中等访问控制(MAC)。 特别是,建议使用多臂匪徒(MAB)框架进行动态通道访问(包括主通道和通道宽度)和争量窗口(CW)调整。 在这个设置中,我们研究相关的学习设计原则,例如采用联合或因子动作空间(分别由单个代理(SA)和多个代理(MA)处理)以及纳入上下文信息的重要性。 我们的模拟结果表明,合作MA架构比SA架构更快地收敛,因为代理在较小的动作空间上运行。 另一个关键见解是,上下文MAB算法始终优于非上下文算法,突出了在动作选择中利用侧信息的价值。 此外,在多人游戏设置中,结果表明分散的学习者可以实现隐式协调,尽管他们的贪婪可能会降低共存网络的性能并诱发策略追逐动态。 总体而言,这些发现表明,基于MAB的学习为静态IEEE 802.11协议提供了一种实用和自适应的替代品,从而实现了更高效和智能的频谱利用。
Due to its static protocol design, IEEE 802.11 (aka Wi-Fi) channel access lacks adaptability to address dynamic network conditions, resulting in inefficient spectrum utilization, unnecessary contention, and packet collisions. This paper investigates reinforcement learning (RL) solutions to optimize Wi-Fi's medium access control (MAC). In particular, a multi-armed bandit (MAB) framework is proposed for dynamic channel access (including both the primary channel and channel width) and contention wi...