活水快报 - 42Digest

移动时间:通过双时钟去角化实现无训练运动控制视频生成

Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising

Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany

arXiv

2025年11月9日

基于扩散的视频生成可以创建逼真的视频,但现有的基于图像和文本的调节无法提供精确的运动控制。运动条件合成的先前方法通常需要针对模型的微调,这在计算上是昂贵和限制性的。我们引入了Time-to-Move(TTM),这是一种无训练的即插即用框架,用于运动和外观控制的视频生成,具有图像到视频(I2V)扩散模型。我们的关键见解是使用通过用户友好的操作获得的粗糙参考动画,例如剪切和拖拽或基于深度的重新投影。在SDEdit使用粗布局线索进行图像编辑的激励下,我们将粗糙的动画视为粗糙的运动线索,并将机制调整到视频域。我们通过图像调节来保持外观,并引入双时钟去噪,这是一种依赖区域的策略,可以在运动指定的区域中强制进行强对齐,同时允许其他地方的灵活性,平衡用户意图与自然动力学的保真度。这种对采样过程的轻量修改无需额外的培训或运行时成本,并且与任何骨干兼容。对物体和相机运动基准的广泛实验表明,TTM在现实主义和运动控制方面与现有的基于训练的基线相匹配或超过。除此之外,TTM还引入了一种独特的功能:通过像素级调理进行精确的外观控制,超过仅文本提示的限制。访问我们的项目页面获取视频示例和代码:https://time-to-move.github.io/。

Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude r...

计算机视觉与模式识别人工智能计算机图形学机器学习多媒体

View Source