活水快报 - 42Digest

DOTA-ME-CS: Daily Oriented Text Audio-Mandarin English-Code Switching 数据集

DOTA-ME-CS: Daily Oriented Text Audio-Mandarin English-Code Switching Dataset

Yupei Li, Zifan Wei, Heng Yu, Jiahao Xue, Huichi Zhou, Björn W. Schuller

arXiv

2025年1月21日

代码切换,通信中两种或两种以上语言之间的交替,对自动语音识别(ASR)系统提出了巨大的挑战。现有模型和数据集有效应对这些挑战的能力有限。为了解决这一差距并促进代码交换ASR研究的进展,我们引入了DOTA-ME-CS:每日导向文本音频普通话-英语代码切换数据集,该数据集由18.54小时的音频数据组成,包括来自34名参与者的9,300个录音。为了增强数据集的多样性,我们应用人工智能(AI)技术,如AI音色合成,速度变化和噪声增加,从而提高任务的复杂性和可扩展性。该数据集经过精心策划,以确保多样性和质量,为研究人员提供强大的资源,通过详细的数据分析来解决双语语音识别的复杂性。我们进一步展示了数据集在未来研究中的潜力。 DOTA-ME-CS数据集以及附带的代码将公开提供。

Code-switching, the alternation between two or more languages within communication, poses great challenges for Automatic Speech Recognition (ASR) systems. Existing models and datasets are limited in their ability to effectively handle these challenges. To address this gap and foster progress in code-switching ASR research, we introduce the DOTA-ME-CS: Daily oriented text audio Mandarin-English code-switching dataset, which consists of 18.54 hours of audio data, including 9,300 recordings from 34...

声音处理音频与语音处理

View Source