活水快报 - 42Digest

GR-3技术报告

GR-3 Technical Report

Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang

arXiv

2025年7月21日

我们报告了在构建通用机器人策略方面的最新进展，即GR-3的开发。GR-3是一个大规模vision-language-action (VLA)模型。它在泛化到新物体、新环境和涉及抽象概念的指令方面展现出卓越能力。此外，它可以通过最少的人类轨迹数据进行高效微调，实现快速且经济高效的新场景适应。GR-3在长周期和灵巧任务处理方面也表现优异，包括需要双手操作和移动的任务，展现出稳健可靠的性能。这些能力通过多方面的训练方案实现，包括与网络规模视觉语言数据的协同训练、通过VR设备收集的人类轨迹数据进行高效微调，以及与机器人轨迹数据的有效模仿学习。此外，我们介绍了ByteMini，这是一款具有卓越灵活性和可靠性的多功能双手移动机器人，与GR-3集成后能够完成广泛的任务。通过大量真实世界实验，我们证明GR-3在各种具有挑战性的任务上超越了最先进的基准方法π_0。我们希望GR-3能够成为构建通用机器人、协助人类日常生活的一步。

We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, incl...

机器人学人工智能计算机视觉与模式识别

View Source