SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
Xueyao Zhang, Chaoren Wang, Huan Liao, Ziniu Li, Yuancheng Wang, Li Wang, Dongya Jia, Yuanzhe Chen, Xiulin Li, Zhuo Chen, Zhizheng Wu
将大型生成模型与人类反馈保持一致是一项关键挑战。 在语音合成中,由于缺乏大规模的人类偏好数据集,这尤其明显,这阻碍了真正与人类感知一致的模型的发展。 为了解决这个问题,我们引入了SpeechJudge,这是一个全面的套件,包括一个数据集,一个基准和一个以自然为中心的奖励模型 - 语音合成最基本的主观指标之一。 首先,我们介绍了SpeechJudge-Data,这是一个由99K语音对组成的大规模人类反馈语料库。 该数据集使用一组不同的语音风格和多种语言的多样化高级文本到语音(TTS)模型构建,具有可理解性和自然性偏好的人体注释。 由此,我们建立了SpeechJudge-Eval,一个具有挑战性的语音自然性判断基准。 我们的评估表明,现有的指标和AudioLLM与这项任务作斗争;领先的模型Gemini-2.5-Flash与人类判断的一致不到70%,突出了改进的重大差距。 为了弥补这一差距,我们开发了基于Qwen2.5-Omni-7B的生成式奖励模型(GRM)。 它通过两阶段后培训过程在SpeechJudge-Data上进行培训:监督微调(SFT),具有思想链原理,然后是强化学习(RL)和GRPO关于具有挑战性的案例。 在SpeechJudge-Eval基准测试中,与经典的Bradley-Terry奖励模型(72.7%)相比,SpeechJudge-GRM表现出卓越的性能,实现了77.2%的准确率(在推理时间缩放@10后达到79.4%)。 此外,SpeechJudge-GRM还可以在语音生成模型训练后用作奖励功能,以促进其与人类偏好的一致。
Aligning large generative models with human feedback is a critical challenge. In speech synthesis, this is particularly pronounced due to the lack of a large-scale human preference dataset, which hinders the development of models that truly align with human perception. To address this, we introduce SpeechJudge, a comprehensive suite comprising a dataset, a benchmark, and a reward model centered on naturalness–one of the most fundamental subjective metrics for speech synthesis. First, we present ...