Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, Jujie He, Jiacai Liu, Chaojie Wang, Rui Yan, Wei Shen, Fuxiang Zhang, Jiacheng Xu, Yang Liu, Yahui Zhou
尽管奖励模型(RMs)在基于人类反馈的强化学习(RLHF)中起着关键作用,但当前最先进的开放奖励模型在大多数现有评估基准上表现不佳,无法捕捉人类偏见的微妙和复杂谱系。即使是采用先进训练技术的方法也未能带来显著的性能提升。我们假设这种脆弱性主要源于偏好数据集的局限性,这些数据集通常范围狭窄、使用合成标签或缺乏严格的质量控制。为解决这些挑战,我们提出了一个包含4000万偏好对的大规模偏好数据集SynPref-40M。为实现大规模数据精炼,我们设计了一个人机协同的两阶段流程,充分利用人类标注质量与AI可扩展性的互补优势。在该流程中,人类提供经过验证的标注,而大型语言模型则基于人类指导执行自动精炼。基于这种偏好混合训练,我们推出了Skywork-Reward-V2,这是一套包含从0.6B至8B参数的八个奖励模型,训练使用了从SynPref-40M中精心挑选的2600万偏好对。我们证明Skywork-Reward-V2在广泛能力上具有多功能性,包括与人类偏好对齐、客观正确性、安全性、抵抗风格偏见和最佳N选择扩展,在七个主要奖励模型基准测试中实现了最先进的性能。消融研究证实,我们方法的有效性不仅源于数据规模,还来自高质量的精炼。Skywork-Reward-V2系列代表了开放奖励模型的重大进展,突显了现有偏好数据集的未开发潜力,并展示了人机协同精炼如何能显著提高数据质量。
Despite the critical role of reward models (RMs) in reinforcement learning from human feedback (RLHF), current state-of-the-art open RMs perform poorly on most existing evaluation benchmarks, failing to capture the spectrum of nuanced and sophisticated human preferences. Even approaches that incorporate advanced training techniques have not yielded meaningful performance improvements. We hypothesize that this brittleness stems primarily from limitations in preference datasets, which are often na...