活水快报 - 42Digest

POTSA:低资源语音对文本翻译的跨语言语音对齐框架

POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation

Xuanchen Li, Chenrui Cui, Tianrui Wang, Meng Ge, Zikang Huang, Jin Li, Yizhou Peng, Longbiao Wang, Jianwu Dang, and Nyima Tashi

arXiv

2025年11月12日

语音大语言模型(SpeechLLMs)在多语言语音到文本翻译(S2TT)方面取得了突破。然而,现有的方法往往忽略了源语言的语义共性,导致有偏见的翻译性能。在这项工作中,我们提出了POTSA(语音对齐的平行最佳传输),这是一个基于跨语言并行语音对和最优传输(OT)的新框架,旨在弥合高和低资源翻译差距。首先,我们引入了一个Bias Compensation模块,以粗糙地对齐跨语言的初始语音表示。其次,我们将令牌级别的OT约束施加在Q-Former上,使用并行语音对来建立细粒度的一致性。然后,我们应用一个层调度策略,将OT约束集中在语义上最有利的层。 FLEURS数据集的实验表明,我们的方法实现了SOTA性能,平均超过五种常用语言的+0.93 BLEU和零射语言的+5.05 BLEU,每源语言仅使用10小时的并行语音。

Speech Large Language Models (SpeechLLMs) have achieved breakthroughs in multilingual speech-to-text translation (S2TT). However, existing approaches often overlook semantic commonalities across source languages, leading to biased translation performance. In this work, we propose POTSA (Parallel Optimal Transport for Speech Alignment), a new framework based on cross-lingual parallel speech pairs and Optimal Transport (OT), designed to bridge high- and low-resource translation gaps. First, we int...

计算与语言声音处理

View Source