多媒体研究快报

最新研究

移动时间:通过双时钟去角化实现无训练运动控制视频生成

基于扩散的视频生成可以创建逼真的视频,但现有的基于图像和文本的调节无法提供精确的运动控制。运动条件合成的先前方法通常需要针对模型的微调,这在计算上是昂贵和限制性的。我们引入了Time-to-Move(TTM),这是一种无训练的即插即用框架,用于运动和外观控制的视频生成,具有图像到视频(I2V)扩散模型。我们的关键见解是使用通过用户友好的操作获得的粗糙参考动画,例如剪切和拖拽或基于深度的重新投影。在SDEdit使用粗布局线索进行图像编辑的激励下,我们将粗糙的动画视为粗糙的运动线索,并将机制调整到视频域。我们通过图像调节来保持外观,并引入双时钟去噪,这是一种依赖区域的策略,可以在运动指定的区域中强制进行强对齐,同时允许其他地方的灵活性,平衡用户意图与自然动力学的保真度。这种对采样过程的轻量修改无需额外的培训或运行时成本,并且与任何骨干兼容。对物体和相机运动基准的广泛实验表明,TTM在现实主义和运动控制方面与现有的基于训练的基线相匹配或超过。除此之外,TTM还引入了一种独特的功能:通过像素级调理进行精确的外观控制,超过仅文本提示的限制。访问我们的项目页面获取视频示例和代码:https://time-to-move.github.io/。

计算机视觉与模式识别人工智能计算机图形学机器学习

多媒体研究快报

相关分类

最新研究

移动时间:通过双时钟去角化实现无训练运动控制视频生成

智能载波分配:自适应多模态Steganography的跨模式推理框架

提示-OT:视觉语言模型适应中知识保存的最佳运输正则化范式

基于ROI的深度图像压缩与隐性比特分配

超越RGB的代理之旅:视觉和语言导航的分层语义空间表征丰富

通过粒度感知和区域不确定建模的跨模细粒度对齐

第三届艺术可开发人工智能国际研讨会(XAIxArts)

SteerMusic:为零镜头文本引导和个性化音乐编辑增强的音乐一致性

SciCom Wiki:支持视频和播客科学传播知识基础设施的数字图书馆

生成式AI满足6G及以后:语义通信的扩散模型

空间-时间数据增强视觉语言模型,用于交通场景理解

用于实时市场增长预测和多源内容扩散分析的AI集成决策支持系统

MCAD: 多模态上下文感知 音频 描述 生成 足球

使用先进的多模态模型制作动态虚拟活动

强大的多模式任务导向通信与冗余感知表示

Mina:孟加拉国为获得司法救助的多种语言LLM法律助理代理

元宇宙系统公共空间的私人聊天

混合空间-频率域图像水印的稳健性和易感性分析

TMDC:一个双阶段模式的去去和补充框架,用于多模态情绪分析与缺失和嘎嘎模式

即插即用 澄清器:以自我为中心的意图消歧义的零射击多模态框架

MCAD: 多模态上下文感知音频描述生成足球

即插即用澄清器:以自我为中心的意图消歧义的零射击多模态框架