活水快报 - 42Digest

基于分层运动建模的音乐对齐全息3D舞蹈生成

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling

Xiaojie Li, Ronghui Li, Shukai Fang, Shuzhao Xie, Xiaoyang Guo, Jiaqing Zhou, Junkun Peng, Zhi Wang

arXiv

2025年7月20日

协调良好且与音乐对齐的全息舞蹈能显著增强情感表现力和观众参与度。然而，由于全息3D舞蹈数据集的稀缺性、音乐与舞蹈跨模态对齐的困难性，以及身体、手部和面部相互依赖运动的建模复杂性，生成此类舞蹈仍具挑战性。为解决这些问题，我们引入了SoulDance——一个通过专业动作捕捉系统采集的高精度音乐-舞蹈配对数据集，包含精细标注的全息舞蹈动作。基于此数据集，我们提出了SoulNet框架，旨在生成音乐对齐、运动协调的全息舞蹈序列。SoulNet包含三个核心组件：(1)分层残差向量量化(Hierarchical Residual Vector Quantization)，用于建模身体、手部和面部之间复杂精细的运动依赖关系；(2)音乐对齐生成模型(Music-Aligned Generative Model)，将这些分层运动单元组合成富有表现力且协调的全息舞蹈；(3)音乐-运动检索模块(Music-Motion Retrieval Module)，这是一个预训练的跨模态模型，作为音乐-舞蹈对齐先验，确保生成过程中舞蹈与输入音乐的时间同步和语义连贯性。大量实验表明，SoulNet在生成高质量、音乐协调且对齐良好的全息3D舞蹈序列方面显著优于现有方法。

Well-coordinated, music-aligned holistic dance enhances emotional expressiveness and audience engagement. However, generating such dances remains challenging due to the scarcity of holistic 3D dance datasets, the difficulty of achieving cross-modal alignment between music and dance, and the complexity of modeling interdependent motion across the body, hands, and face. To address these challenges, we introduce SoulDance, a high-precision music-dance paired dataset captured via professional motion...

多媒体声音处理音频与语音处理

View Source