42digest首页
CoRL-MPI:通过可学习的行为增强MPI,实现高效且可证明安全的多机器人碰撞避免

CoRL-MPPI: Enhancing MPPI With Learnable Behaviours For Efficient And Provably-Safe Multi-Robot Collision Avoidance

Stepan Dergachev, Artem Pshenitsyn, Aleksandr Panov, Alexey Skrynnik, Konstantin Yakovlev

arXiv
2025年11月12日

分散式防撞仍然是可扩展多机器人系统的核心挑战。 解决这个问题的一个有希望的方法是模型预测路径综合(MPI) - 一个自然适合处理任何机器人运动模型的框架,并提供强大的理论保证。 尽管如此,在实践中,基于MPI的控制器可能会提供次优的轨迹,因为它的性能在很大程度上依赖于不知情的随机抽样。 在这项工作中,我们介绍了CoRL-MPI,这是合作强化学习和MPI的新融合,以解决这一限制。 我们在模拟中训练一个动作策略(近似为深度神经网络),学习局部合作避免碰撞行为。 然后,将这种学习政策嵌入到MPI框架中,以指导其抽样分布,使其偏向于更明智和合作的行动。 值得注意的是,CoRL-MPPI保留了常规MPI的所有理论保证。 我们根据最先进的基线(包括 ORCA、BVC 和多智能体 MPPI 实现)评估我们在密集、动态模拟环境中的方法。 我们的结果表明,CoRL-MPI显著提高了导航效率(以成功率和制造率衡量)和安全性,从而实现了敏捷和强大的多机器人导航。

Decentralized collision avoidance remains a core challenge for scalable multi-robot systems. One of the promising approaches to tackle this problem is Model Predictive Path Integral (MPPI) – a framework that is naturally suited to handle any robot motion model and provides strong theoretical guarantees. Still, in practice MPPI-based controller may provide suboptimal trajectories as its performance relies heavily on uninformed random sampling. In this work, we introduce CoRL-MPPI, a novel fusion ...