42digest首页
意见:为稳健的机器人学习实现统一表达性政策优化

Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning

Haidong Huang, Haiyue Zhu. Jiayu Song, Xixin Zhao, Yaohua Zhou, Jiayi Zhang, Yuze Zhai, Xiaocong Li

arXiv
2025年11月13日

线下到在线强化学习(O2O-RL)已成为安全高效的机器人政策部署的有希望的范例,但面临两个基本挑战:在线适应期间多模态行为的覆盖有限和分配变化。 我们提出了UEPO,这是一个受大型语言模型预训练和微调策略启发的统一生成框架。 我们的贡献是三重的:(1)多种子动力学感知扩散政策,在不训练多个模型的情况下有效地捕获各种模式;(2)一个动态背离正则化机制,强制执行物理上有意义的政策多样性;(3)一个基于扩散的数据增强模块,增强了动力学模型的泛化。 在D4RL基准测试中,UEPO在运动任务上实现了+5.9%的绝对改进,在灵巧操作方面实现了+5.9%的绝对改进,在灵巧操作方面实现了+12.4%的绝对改进,展示了强大的通用性和可扩展性。

Offline-to-online reinforcement learning (O2O-RL) has emerged as a promising paradigm for safe and efficient robotic policy deployment but suffers from two fundamental challenges: limited coverage of multimodal behaviors and distributional shifts during online adaptation. We propose UEPO, a unified generative framework inspired by large language model pretraining and fine-tuning strategies. Our contributions are threefold: (1) a multi-seed dynamics-aware diffusion policy that efficiently capture...