42digest首页
SteerMusic:为零镜头文本引导和个性化音乐编辑增强的音乐一致性

SteerMusic: Enhanced Musical Consistency for Zero-shot Text-Guided and Personalized Music Editing

Xinlei Niu, Kin Wai Cheuk, Jing Zhang, Naoki Murata, Chieh-Hsin Lai, Michele Mancusi, Woosung Choi, Giorgio Fabbro, Wei-Hsiang Liao, Charles Patrick Martin, Yuki Mitsufuji

arXiv
2025年4月15日

音乐编辑是音乐制作的重要一步,它有广泛的应用,包括游戏开发和电影制作。 大多数现有的零拍摄文本引导编辑方法都依赖于预训练的扩散模型,涉及向后扩散过程。 然而,这些方法往往难以保存音乐内容。 此外,文本指令通常无法准确描述所需的音乐。 在本文中,我们提出了两种音乐编辑方法,通过利用乐谱蒸馏来提高原始音乐与编辑音乐之间的一致性。 第一种方法,SterMusic,是一种使用delta去噪评分的粗粒度零镜头编辑方法。 第二种方法SteeMusic+通过操纵代表用户定义音乐风格的概念令牌来实现细粒度的个性化音乐编辑。 SteerMusic+允许将音乐编辑到用户定义的音乐风格中,仅靠文本指令无法实现。 实验结果表明,我们的方法在保持音乐内容一致性和编辑保真度方面优于现有方法。 用户研究进一步证实我们的方法实现了卓越的音乐编辑质量。

Music editing is an important step in music production, which has broad applications, including game development and film production. Most existing zero-shot text-guided editing methods rely on pretrained diffusion models by involving forward-backward diffusion processes. However, these methods often struggle to preserve the musical content. Additionally, text instructions alone usually fail to accurately describe the desired music. In this paper, we propose two music editing methods that improv...