EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video
Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang
模仿学习进行操纵有一个众所周知的数据稀缺问题。 与自然语言和2D计算机视觉不同,没有互联网规模的数据库用于灵巧操作。 一个吸引人的选择是以自我为中心的人类视频,一个被动的可扩展数据源。 然而,现有的大规模数据集,如Ego4D,没有原生手姿势注释,也没有专注于对象操作。 为此,我们使用Apple Vision Pro来收集EgoDex:迄今为止最大和最多样化的灵巧的人操纵数据集。 EgoDex拥有829小时的以自我为中心的视频,在录制时收集了配对的3D手和手指跟踪数据,其中可以使用多个校准相机和设备上的SLAM来精确跟踪每个手的每个关节的姿势。 该数据集涵盖了194个不同的桌面任务中的日常家庭物品的各种不同操作行为,从系鞋带到折叠洗衣。 此外,我们培训和系统地评估数据集上手轨迹预测的模仿学习政策,引入衡量这个日益重要领域的进展的指标和基准。 通过发布这个大规模的数据集,我们希望推动机器人技术、计算机视觉和基础模型的前沿。
Imitation learning for manipulation has a well-known data scarcity problem. Unlike natural language and 2D computer vision, there is no Internet-scale corpus of data for dexterous manipulation. One appealing option is egocentric human video, a passively scalable data source. However, existing large-scale datasets such as Ego4D do not have native hand pose annotations and do not focus on object manipulation. To this end, we use Apple Vision Pro to collect EgoDex: the largest and most diverse data...