SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
Zhengyi Luo, Ye Yuan, Tingwu Wang, Chenran Li, Sirui Chen, Fernando Castañeda, Zi-Ang Cao, Jiefeng Li, David Minor, Qingwei Ben, Xingye Da, Runyu Ding, Cyrus Hogg, Lina Song, Edy Lim, Eugene Jeong, Tairan He, Haoru Xue, Wenli Xiao, Zi Wang, Simon Yuen, Jan Kautz, Yan Chang, Umar Iqbal, et al.
尽管在数千个GPU上训练的十亿参数基础模型的兴起,但类似的扩展增益尚未显示出用于人形控制。 目前用于类人体的神经控制器在尺寸上仍然很小,针对有限的行为集,并在几天内对少数GPU进行了训练。 我们表明,扩大模型容量,数据和计算产生了一个通用的人形控制器,能够创建自然和健壮的全身运动。 具体来说,我们将运动跟踪定位为人形控制的自然和可扩展的任务,利用来自各种运动捕捉数据的密集监督,在没有手动奖励工程的情况下获取人类运动先验。 我们通过沿着三个轴缩放来构建运动跟踪的基础模型:网络大小(从1.2M到42M参数),数据集体积(超过100M帧,700小时的高质量运动数据)和计算(9k GPU小时)。 除了展示规模的好处外,我们还通过两种机制展示了我们模型的实用功能:(1)一个实时的通用运动学规划器,将运动跟踪与下游任务执行联系起来,实现自然和交互式控制,(2)一个支持各种运动输入接口的统一令牌空间,如VR远程操作设备,人类视频和视觉语言动作(VLA)模型,所有这些都使用相同的策略。 扩展运动跟踪表现出有利的性能:随着计算和数据多样性的增加,性能稳步提高,学习表示推广到看不见的运动,大规模建立运动跟踪作为人形控制的实际基础。
Despite the rise of billion-parameter foundation models trained across thousands of GPUs, similar scaling gains have not been shown for humanoid control. Current neural controllers for humanoids remain modest in size, target a limited behavior set, and are trained on a handful of GPUs over several days. We show that scaling up model capacity, data, and compute yields a generalist humanoid controller capable of creating natural and robust whole-body movements. Specifically, we posit motion tracki...