音频与语音处理研究快报

最新研究

音乐火烈鸟:在音频语言模型中扩展音乐理解

我们介绍了Music Flamingo,这是一种新颖的大型音频语言模型,旨在推进基础音频模型中的音乐(包括歌曲)理解。虽然音频语言研究进展迅速,但由于其动态,分层和信息密集性,音乐仍然具有挑战性。扩展开放式音频理解模型的困难进一步限制了进展,主要是因为高质量的音乐数据和注释稀缺。因此,以前的模型仅限于制作简短的高级字幕,只回答表面问题,并在不同的音乐文化中表现出有限的概括。为了应对这些挑战,我们策划了MF-Skills,这是一个通过多阶段管道标记的大型数据集,产生了丰富的标题和问答对,涵盖和谐,结构,音色,歌词和文化背景。我们在MF-Skills上微调增强的Audio Flamingo 3骨干,进一步加强与音乐理解相关的多种技能。为了提高模型的推理能力,我们引入了一个训练后的食谱:我们首先从MF-Think冷启动,MF-Think是一个基于音乐理论的新型思维链数据集,然后是基于GRPO的强化学习,并带有自定义奖励。音乐火烈鸟在音乐理解和推理的10多个基准中取得了最先进的成果,确立了自己作为一个通才和音乐智能的音频语言模型。除了强有力的经验结果之外,Music Flamingo还通过演示模型如何从表面识别转向分层,类人对歌曲的感知,为高级音乐理解设定了新的标准。我们相信这项工作为社区建立下一代模式提供了基准和基础,这些模型与人类一样有意义地参与音乐。

音频与语音处理研究快报

相关分类

最新研究

音乐火烈鸟:在音频语言模型中扩展音乐理解

使用生成式效果嵌入模型进行音乐混合

双语双头深模型,用于帕金森氏症检测从语音

MTR-DuplexBench:迈向全双工语音语言模型多轮对话的综合评估

统一用于语音基础模型的模型和图层融合

SteerMusic:为零镜头文本引导和个性化音乐编辑增强的音乐一致性

Diff-V2M:一种分层条件扩散模型,具有用于视频到音乐生成显式节奏建模

DOTA-ME-CS: Daily Oriented Text Audio-Mandarin English-Code Switching 数据集

揭发深度伪造:利用深度伪造语音检测的增强功能和功能

量化Whisper-small:设计选择如何影响ASR性能

HQ-SVC:在低资源情景中实现高质量的零射击声转换

SeniorTalk:一个带有丰富老年人注释的中国对话数据集

修剪为正则化:灵敏度-感知 ASR 中的一枪修剪

Ming-UniAudio:演讲LLM,用于联合理解,生成和编辑与统一表示

MedVoiceBias:临床决策中音频LLM行为的对照研究

SPUR:将空间音频理解和推理集成到大型音频语言模型中的即插即用框架

Omni-AVSR:采用大型语言模型实现统一的多模态语音识别

EchoMark:带有水印嵌入房间的感知声学环境传递冲动反应

用变形金刚生成钢琴音乐:规模、数据和指标的比较研究

MACS:具有上下文意义和语义对齐的多源音频到图像生成