Safe Planning in Interactive Environments via Iterative Policy Updates and Adversarially Robust Conformal Prediction
Omid Mirzaeedodangeh, Eliot Shekhtman, Nikolai Matni, Lars Lindemann
在互动环境中对自主代理的安全规划 - 例如在行人和人控制车辆中控制自动驾驶汽车 - 构成了重大挑战,因为环境的行为是未知的,并且对自主代理的行为作出反应。 这种耦合导致交互驱动的分布转变,其中自主代理的控制策略可能会改变环境的行为,从而使现有工作中的安全保障无效。 事实上,最近的研究已经使用构象预测(CP)来使用观察到的环境数据生成无分布的安全保障。 然而,CP关于数据可交换性的假设在交互式设置中违反了,这是由于循环依赖,其中控制策略更新改变了环境的行为,反之亦然。 为了解决这一差距,我们提出了一个迭代框架,通过量化计划的政策更新对环境行为的潜在影响,有力地维护政策更新的安全保障。 我们通过对抗性强的CP意识到这一点,我们在每个事件中使用当前政策下的观察数据执行常规CP步骤,但随后通过分析调整CP结果以考虑分配变化,从而在政策更新中转移安全保障。 这种调整是基于策略到轨迹的灵敏度分析,从而产生一个安全的、偶然的开环规划器。 我们进一步对系统进行收缩分析,提供CP结果和政策更新保证收敛的条件。 我们的经验证明这些安全和收敛保证在二维汽车行人案例研究。 据我们所知,这些是在此类互动环境中提供有效安全保障的第一个结果。
Safe planning of an autonomous agent in interactive environments – such as the control of a self-driving vehicle among pedestrians and human-controlled vehicles – poses a major challenge as the behavior of the environment is unknown and reactive to the behavior of the autonomous agent. This coupling gives rise to interaction-driven distribution shifts where the autonomous agent's control policy may change the environment's behavior, thereby invalidating safety guarantees in existing work. Indeed...