Object-Centric Representations Improve Policy Generalization in Robot Manipulation
Alexandre Chapin (imagine), Bruno Machado (imagine), Emmanuel Dellandrea (imagine), Liming Chen (imagine)
视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
Visual representations are central to the learning and generalization capabilities of robotic manipulation policies. While existing methods rely on global or dense features, such representations often entangle task-relevant and irrelevant scene information, limiting robustness under distribution shifts. In this work, we investigate object-centric representations (OCR) as a structured alternative that segments visual input into a finished set of entities, introducing inductive biases that align m...