Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation
Shulei Ji and Zihao Wang and Jiaxing Yu and Xiangyuan Yang and Shuyu Li and Songruoyao Wu and Kejun Zhang
视频到音乐(V2M)生成旨在创建与视觉内容一致的音乐。 然而,现有方法仍然存在两个主要挑战:(1)缺乏明确的节奏建模阻碍了视听时间对齐;(2)有效地将各种视觉特征与条件音乐生成仍然微不足道。 为了解决这些问题,我们提出了Diff-V2M,这是一个基于分层条件扩散模型的一般V2M框架,由两个核心组件组成:视觉特征提取和条件音乐生成。 对于节奏建模,我们首先评估几种节奏表示,包括低分辨率的mel-spectrograms,tempgrams和发病检测功能(ODF),并设计一个节奏预测器,直接从视频中推断它们。 为了确保上下文和情感的一致性,我们还提取语义和情感特征。 所有特征都通过分层交叉注意力机制融入生成器中,其中情感特征通过第一层塑造情感音调,而语义和节奏特征在第二交叉注意力层中融合。 为了增强特征集成,我们引入了时间步骤感知融合策略,包括特征性线性调制(FiLM)和加权融合,使模型能够在整个扩散过程中自适应地平衡语义和节奏线索。 广泛的实验将低分辨率的 ODF 识别为建模音乐节奏的更有效信号,并证明 Diff-V2M 在域内和域外数据集上的表现优于现有模型,在客观指标和主观比较方面实现了最先进的性能。 Demo和代码见https://Tayjsl97.github.io/Diff-V2M-Demo/。
Video-to-music (V2M) generation aims to create music that aligns with visual content. However, two main challenges persist in existing methods: (1) the lack of explicit rhythm modeling hinders audiovisual temporal alignments; (2) effectively integrating various visual features to condition music generation remains non-trivial. To address these issues, we propose Diff-V2M, a general V2M framework based on a hierarchical conditional diffusion model, comprising two core components: visual feature e...