VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction
Yuhao Wang, Ziyang Cheng, Heyang Liu, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang
目前的端到端口语模型(SLM)已经取得了显着的进展,但它们仍然会遇到相当大的响应延迟。 这种延迟主要源于语音令牌的自动回归生成以及对语音合成的复杂流匹配模型的依赖。 为了克服这一点,我们引入了VocalNet-M2,这是一种新颖的低延迟SLM,集成了多代码簿令牌化器和多令牌预测(MTP)策略。 我们的模型直接生成多代码簿语音令牌,从而消除了延迟诱导流匹配模型的需求。 此外,我们的MTP战略提高了发电效率,提高了整体性能。 广泛的实验表明,VocalNet-M2实现了第一块延迟的大幅减少(从大约725ms到350ms),同时保持主流SLM的竞争性能。 这项工作还提供了单代码簿和多代码簿策略的全面比较,为实时交互式应用程序开发高效和高性能的SLM提供了有价值的见解。
Current end-to-end spoken language models (SLMs) have made notable progress, yet they still encounter considerable response latency. This delay primarily arises from the autoregressive generation of speech tokens and the reliance on complex flow-matching models for speech synthesis. To overcome this, we introduce VocalNet-M2, a novel low-latency SLM that integrates a multi-codebook tokenizer and a multi-token prediction (MTP) strategy. Our model directly generates multi-codebook speech tokens, t...