Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese
Xihuai Wang, Ziyi Zhao, Siyu Ren, Shao Zhang, Song Li, Xiaoyu Li, Ziwen Wang, Lin Qiu, Guanglu Wan, Xuezhi Cao, Xunliang Cai, Weinan Zhang
大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
Recent advances in large language models (LLMs) have significantly improved text-to-speech (TTS) systems, enhancing control over speech style, naturalness, and emotional expression, which brings TTS Systems closer to human-level performance. Although the Mean Opinion Score (MOS) remains the standard for TTS System evaluation, it suffers from subjectivity, environmental inconsistencies, and limited interpretability. Existing evaluation datasets also lack a multi-dimensional design, often neglecti...