42digest首页
HQ-SVC:在低资源情景中实现高质量的零射击声转换

HQ-SVC: Towards High-Quality Zero-Shot Singing Voice Conversion in Low-Resource Scenarios

Bingsong Bai, Yizhong Geng, Fengping Wang, Cong Wang, Puyuan Guo, Yingming Gao, Ya Li

arXiv
2025年11月11日

零镜头唱歌语音转换(SVC)将源歌手的音色转换为看不见的目标扬声器的声音,同时在不微调的情况下保留旋律内容。 现有方法将扬声器音色和声乐内容分别建模,丢失必要的声学信息,从而降低输出质量,同时需要大量计算资源。 为了克服这些限制,我们提出了HQ-SVC,这是高质量零射SVC的高效框架。 HQ-SVC首先使用解耦编解码器提取联合内容和扬声器功能。 然后,它通过间距和体积建模增强保真度,保留通常在单独的建模方法中丢失的关键声学信息,并通过可微分的信号处理和扩散技术逐步改进输出。 评估证实HQ-SVC在转换质量和效率方面明显优于最先进的零镜头SVC方法。 除了语音转换之外,HQ-SVC与专门的音频超分辨率方法相比,实现了卓越的语音自然性,同时原生支持语音超分辨率任务。

Zero-shot singing voice conversion (SVC) transforms a source singer's timbre to an unseen target speaker's voice while preserving melodic content without fine-tuning. Existing methods model speaker timbre and vocal content separately, losing essential acoustic information that degrades output quality while requiring significant computational resources. To overcome these limitations, we propose HQ-SVC, an efficient framework for high-quality zero-shot SVC. HQ-SVC first extracts jointly content an...