Unifying Model and Layer Fusion for Speech Foundation Models
Yi-Jen Shih, David Harwath
演讲基础模型最近获得了很大的关注。 之前的作品已经表明,来自同一模型的多层表示的融合或多个模型的融合可以提高下游任务的性能。 我们通过提出一个接口模块来统一这两种融合策略,该模块可以实现跨多个上游语音模型的融合,同时跨层集成信息。 我们在各种语音任务(包括ASR和副语言分析)中对不同的自我监督和监督模型进行了广泛的实验,并证明我们的方法优于先前的融合方法。 我们进一步分析了其在模型大小和计数方面的可扩展性,强调了选择适当的上游模型的重要性。 我们的结果表明,在给出合适的上游模型选择时,建议的接口提供了额外的性能提升,使其成为使用语音基础模型的有希望的方法。
Speech Foundation Models have gained significant attention recently. Prior works have shown that the fusion of representations from multiple layers of the same model or the fusion of multiple models can improve performance on downstream tasks. We unify these two fusion strategies by proposing an interface module that enables fusion across multiple upstream speech models while integrating information across their layers. We conduct extensive experiments on different self-supervised and supervised...