From Exploration to Exploitation: A Two-Stage Entropy RLVR Approach for Noise-Tolerant MLLM Training
Donglai Xu, Hongzheng Yang, Yuzhi Zhao, Pingping Zhang, Jinpeng Chen, Wenao Ma, Zhijian Hou, Mengyang Wu, Xiaolei Li, Senkang Hu, Ziyi Guan, Jason Chun Lok Li, Lai Man Po
多模态大语言模型(MLLM)的可验证奖励强化学习(RLVR)高度依赖于高质量的标记数据,这些数据通常很少,在现实世界中容易产生大量的注释噪声。 现有的无监督RLVR方法,包括纯熵最小化,可以过度适应不正确的标签,并限制组相关策略优化(GRPO)的关键奖励排名信号。 为了应对这些挑战并提高噪声耐受性,我们提出了一种新的 RLVR 两级令牌级熵优化方法。 这种方法在训练过程中动态地指导模型从探索到开发。 在初始探索阶段,令牌级熵最大化促进了多样化和随机输出的生成,作为一个强大的正则器,可以防止过早收敛到嘈杂的标签,并确保足够的组内变化,从而在GRPO中实现更可靠的奖励梯度估计。 随着训练的进展,该方法过渡到开发阶段,代币级熵最小化鼓励模型产生自信和确定性的输出,从而巩固所获得的知识和改进预测的准确性。 经验上,跨越三个MLLM骨干 - Qwen2-VL-2B,Qwen2-VL-7B和Qwen2.5-VL-3B - 跨越不同的噪声设置和多项任务,我们的分阶段策略通过统一和增强基于外部,内部和熵的方法,始终优于先前的方法,提供强大和卓越的性能。
Reinforcement Learning with Verifiable Rewards (RLVR) for Multimodal Large Language Models (MLLMs) is highly dependent on high-quality labeled data, which is often scarce and prone to substantial annotation noise in real-world scenarios. Existing unsupervised RLVR methods, including pure entropy minimization, can overfit to incorrect labels and limit the crucial reward ranking signal for Group-Relative Policy Optimization (GRPO). To address these challenges and enhance noise tolerance, we propos...