ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations
Jiahui Zhang, Yusen Luo, Abrar Anwar, Sumedh Anand Sontakke, Joseph J Lim, Jesse Thomason, Erdem Biyik, Jesse Zhang
我们介绍了 ReWiND,这是一个仅从语言指令中学习机器人操作任务的框架,无需每次任务演示。 标准强化学习(RL)和模仿学习方法需要专家通过人类设计的奖励功能或演示来监督每一项新任务。 相比之下,ReWiND从一个小型演示数据集开始学习:(1)一个数据高效,语言条件的奖励函数,用奖励标记数据集,(2)使用这些奖励与离线RL预先训练的语言条件策略。 给定一个看不见的任务变化,ReWiND使用学习奖励功能对预先训练的策略进行微调,需要最少的在线交互。 我们表明,ReWiND的奖励模型有效地概括了看不见的任务,在奖励概括和政策调整指标方面优于基线高达2.4倍。 最后,我们证明ReWiND能够对新任务进行高效采样的适应,在模拟中以2倍的优势击败基线,并将现实世界的预训练双手动策略提高5倍,朝着可扩展的现实世界机器人学习迈出了一步。 见网站https://rewind-reward.github.io/。
We introduce ReWiND, a framework for learning robot manipulation tasks solely from language instructions without per-task demonstrations. Standard reinforcement learning (RL) and imitation learning methods require expert supervision through human-designed reward functions or demonstrations for every new task. In contrast, ReWiND starts from a small demonstration dataset to learn: (1) a data-efficient, language-conditioned reward function that labels the dataset with rewards, and (2) a language-c...