FabasedVC: Enhancing Voice Conversion with Text Modality Fusion and Phoneme-Level SSL Features
Wenyu Wang, Zhetao Hu, Yiquan Zhou, Jiacheng Xu, Zhiyu Wu, Chen Li, Shihao Li
在语音转换(VC)中,保存完整的语义信息,同时准确建模目标扬声器的音色和音色至关重要。 本文建议FabasedVC实现VC,在音色,前音和持续时间上与目标扬声器具有增强的相似性,以及改进内容完整性。 它是一个基于端到端的VITS VC系统,集成了相关的文本方式信息,电话级自我监督学习(SSL)功能和持续时间预测器。 具体来说,我们使用文本特征编码器来编码诸如文本、音素、音调和BERT特征等属性。 然后,我们使用两种方法将帧级 SSL 功能处理成电话级功能:基于每个音素持续时间的平均池化和注意力机制。 此外,还纳入持续时间预测器,以更好地调整目标演讲者的语音率和音调。 实验结果表明,我们的方法在自然性、相似性和内容完整性方面优于竞争系统。
In voice conversion (VC), it is crucial to preserve complete semantic information while accurately modeling the target speaker's timbre and prosody. This paper proposes FabasedVC to achieve VC with enhanced similarity in timbre, prosody, and duration to the target speaker, as well as improved content integrity. It is an end-to-end VITS-based VC system that integrates relevant textual modality information, phoneme-level self-supervised learning (SSL) features, and a duration predictor. Specifical...