Music Flamingo: Scaling Music Understanding in Audio Language Models
Sreyan Ghosh and Arushi Goel and Lasha Koroshinadze and Sang-gil Lee and Zhifeng Kong and Joao Felipe Santos and Ramani Duraiswami and Dinesh Manocha and Wei Ping and Mohammad Shoeybi and Bryan Catanzaro
我们介绍了Music Flamingo,这是一种新颖的大型音频语言模型,旨在推进基础音频模型中的音乐(包括歌曲)理解。 虽然音频语言研究进展迅速,但由于其动态,分层和信息密集性,音乐仍然具有挑战性。 扩展开放式音频理解模型的困难进一步限制了进展,主要是因为高质量的音乐数据和注释稀缺。 因此,以前的模型仅限于制作简短的高级字幕,只回答表面问题,并在不同的音乐文化中表现出有限的概括。 为了应对这些挑战,我们策划了MF-Skills,这是一个通过多阶段管道标记的大型数据集,产生了丰富的标题和问答对,涵盖和谐,结构,音色,歌词和文化背景。 我们在MF-Skills上微调增强的Audio Flamingo 3骨干,进一步加强与音乐理解相关的多种技能。 为了提高模型的推理能力,我们引入了一个训练后的食谱:我们首先从MF-Think冷启动,MF-Think是一个基于音乐理论的新型思维链数据集,然后是基于GRPO的强化学习,并带有自定义奖励。 音乐火烈鸟在音乐理解和推理的10多个基准中取得了最先进的成果,确立了自己作为一个通才和音乐智能的音频语言模型。 除了强有力的经验结果之外,Music Flamingo还通过演示模型如何从表面识别转向分层,类人对歌曲的感知,为高级音乐理解设定了新的标准。 我们相信这项工作为社区建立下一代模式提供了基准和基础,这些模型与人类一样有意义地参与音乐。
We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restri...