42digest
机器人操纵中的零射视觉通用

Zero-Shot Visual Generalization in Robot Manipulation

Sumeet Batra, Gaurav Sukhatme

arXiv
2025年5月16日

培训基于视觉的操纵策略,在各种视觉环境中保持稳健,仍然是机器人学习中重要且未解决的挑战。 目前的方法通常通过依赖点云和深度等不变表示来回避问题,或者通过视觉域随机化和/或大型视觉多样性数据集进行野蛮的概括。 解纠缠的表示学习 - 特别是当与关联记忆原则相结合时 - 最近显示出了基于视觉的强化学习策略对视觉分布变化稳健的保证。 然而,这些技术在很大程度上被限制在更简单的基准和玩具环境中。 在这项工作中,我们将解缠的表示学习和关联内存扩展到更直观和动态复杂的操作任务,并在模拟和真实硬件上展示对视觉扰动的零镜头适应性。 我们进一步将这种方法扩展到模仿学习,特别是Diffusion Policy,并且与最先进的模仿学习方法相比,在视觉推广方面显示出显着的收益。 最后,我们介绍了一种从模型等距文献改编的新技术,该技术将任何经过训练的神经网络策略转换为一个不变的2D平面旋转,使我们的政策不仅在视觉上健壮,而且能够适应某些相机扰动。 我们认为,这项工作标志着朝着操纵政策迈出了重要的一步,这些政策不仅具有适应性,而且对现实世界部署的复杂性和动力性质也具有强大性。 补充视频可在https://sites.google.com/view/vis-gen-robotics/home上查阅。

Training vision-based manipulation policies that are robust across diverse visual environments remains an important and unresolved challenge in robot learning. Current approaches often sidestep the problem by relying on invariant representations such as point clouds and depth, or by brute-forcing generalization through visual domain randomization and/or large, visually diverse datasets. Disentangled representation learning - especially when combined with principles of associative memory - has re...