42digest首页
多采样频率自然性 MOS 预测 使用自监督学习模型与采样-频率-独立层

Multi-Sampling-Frequency Naturalness MOS Prediction Using Self-Supervised Learning Model with Sampling-Frequency-Independent Layer

Go Nishikawa, Wataru Nakata, Yuki Saito, Kanami Imamura, Hiroshi Saruwatari, Tomohiko Nakamura

arXiv
2025年7月19日

我们向AudioMOS Challenge (AMC) 2025 Track 3:平均意见评分(MOS)预测介绍了具有多个采样频率(SF)的语音。 我们提交的模型将 SF 无关 (SFI) 卷积层集成到自监督学习 (SSL) 模型中,以实现 MOS 预测的 SFI 语音特征提取。 我们提出了一些提高模型MOS预测性能的策略:从预训练的非SFI-SSL模型中提炼知识,并使用大规模MOS数据集进行预训练。 我们向AMC 2025 Track 3提交的材料在一个评估指标中排名第一,在最终排名中排名第四。 我们还报告我们的消融研究的结果,以调查我们模型的基本因素。

We introduce our submission to the AudioMOS Challenge (AMC) 2025 Track 3: mean opinion score (MOS) prediction for speech with multiple sampling frequencies (SFs). Our submitted model integrates an SF-independent (SFI) convolutional layer into a self-supervised learning (SSL) model to achieve SFI speech feature extraction for MOS prediction. We present some strategies to improve the MOS prediction performance of our model: distilling knowledge from a pretrained non-SFI-SSL model and pretraining w...