Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation
Canxiang Yan, Chunxiang Jin, Dawei Huang, Haibing Yu, Han Peng, Hui Zhan, Jie Gao, Jing Peng, Jingdong Chen, Jun Zhou, Kaimeng Ren, Ming Yang, Mingxue Yang, Qiang Xu, Qin Zhao, Ruijie Xiong, Shaoxiong Lin, Xuezhi Wang, Yi Yuan, Yifei Wu, Yongjie Lyu, Zhengyu He, Zhihao Qiu, Zhiqiang Fang, et al.
现有的语音模型通过理解和生成任务在令牌表示上受到竞争要求的影响。 这种表示差异阻止了语音语言模型执行基于指令的自由形式编辑。 为了解决这个挑战,我们引入了一个新的框架,统一了语音理解、生成和编辑。 我们统一模型的核心是统一连续语音标记器MingTok-Audio,这是第一个有效集成语义和声学特征的连续标记器,这使得它既适用于理解和生成任务。 基于这种统一的连续音频标记器,我们开发了语音语言模型Ming-UniAudio,实现了生成和理解能力之间的平衡。 Ming-UniAudio在ContextASR基准的12个指标中有8个指标上设置了新的最先进的(SOTA)记录。 值得注意的是,对于中国语音克隆,它实现了竞争激烈的种子-TTS-WER 0.95。 利用这一基础模型,我们进一步培训了专用语音编辑模型Ming-UniAudio-Edit,这是第一个语音语言模型,仅由自然语言指令引导,仅由自然语言指令引导,处理语义和声学修饰,而无需时间戳条件。 为了严格评估编辑能力并为未来的研究奠定基础,我们引入了Ming-Freeform-Audio-Edit,这是第一个为基于指令的自由形式语音编辑量身定制的综合基准,具有跨越语义正确性,声学质量和指令对齐的不同场景和评估维度。 我们开源了连续的音频标记器、统一的基础模型和基于自由形式的指令式编辑模型,以方便统一音频理解、生成和操作的发展。
Existing speech models suffer from competing requirements on token representations by understanding and generation tasks. This discrepancy in representation prevents speech language models from performing instruction-based free-form editing. To solve this challenge, we introduce a novel framework that unifies speech understanding, generation, and editing. The core of our unified model is a unified continuous speech tokenizer MingTok-Audio, the first continuous tokenizer to effectively integrate ...