CarelessWhisper: Turning Whisper into a Causal Streaming Model
Tomer Krichli, Bhiksha Raj, Joseph Keshet
自动语音识别(ASR)取得了显着的进步,OpenAI Whisper和NVIDIA Canary等模型在离线转录方面实现了最先进的(SOTA)性能。 然而,由于架构和培训方法的限制,这些模型不是为流式传输(在线或实时)转录而设计的。 我们提出了一种方法,将变压器编码器解码器模型变成低延迟流模型,对未来环境粗心大意。 我们提出了一个分析,解释了为什么将编码器解码器变压器转换为低延迟流模型并不简单。 我们提出的方法通过使用低等级适应(LoRA)和弱对齐数据集对编码器进行微调,将现有的(非因果关系)编码器修改为因果编码器。 然后,我们提出了一个更新的推理机制,该机制利用微调因果编码器和解码器来产生贪婪和波束搜索解码,并且被证明是局部最优的。 关于低延迟块大小(低于300 msec)的实验表明,我们的微调模型在大多数情况下优于现有的非微调流方法,同时使用较低的复杂性。 此外,我们观察到我们的训练过程可以更好地对齐,从而能够提取单词级时间戳的简单方法。 我们发布我们的培训和推理代码以及微调模型,以支持流媒体ASR的进一步研究和开发。
Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model that is careless about future context. We present an an...