POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation
Xuanchen Li, Chenrui Cui, Tianrui Wang, Meng Ge, Zikang Huang, Jin Li, Yizhou Peng, Longbiao Wang, Jianwu Dang, and Nyima Tashi
语音大语言模型(SpeechLLMs)在多语言语音到文本翻译(S2TT)方面取得了突破。 然而,现有的方法往往忽略了源语言的语义共性,导致有偏见的翻译性能。 在这项工作中,我们提出了POTSA(语音对齐的平行最佳传输),这是一个基于跨语言并行语音对和最优传输(OT)的新框架,旨在弥合高和低资源翻译差距。 首先,我们引入了一个Bias Compensation模块,以粗糙地对齐跨语言的初始语音表示。 其次,我们将令牌级别的OT约束施加在Q-Former上,使用并行语音对来建立细粒度的一致性。 然后,我们应用一个层调度策略,将OT约束集中在语义上最有利的层。 FLEURS数据集的实验表明,我们的方法实现了SOTA性能,平均超过五种常用语言的+0.93 BLEU和零射语言的+5.05 BLEU,每源语言仅使用10小时的并行语音。
Speech Large Language Models (SpeechLLMs) have achieved breakthroughs in multilingual speech-to-text translation (S2TT). However, existing approaches often overlook semantic commonalities across source languages, leading to biased translation performance. In this work, we propose POTSA (Parallel Optimal Transport for Speech Alignment), a new framework based on cross-lingual parallel speech pairs and Optimal Transport (OT), designed to bridge high- and low-resource translation gaps. First, we int...