42digest首页

计算机图形学研究快报

最新研究

移动时间:通过双时钟去角化实现无训练运动控制视频生成

基于扩散的视频生成可以创建逼真的视频,但现有的基于图像和文本的调节无法提供精确的运动控制。 运动条件合成的先前方法通常需要针对模型的微调,这在计算上是昂贵和限制性的。 我们引入了Time-to-Move(TTM),这是一种无训练的即插即用框架,用于运动和外观控制的视频生成,具有图像到视频(I2V)扩散模型。 我们的关键见解是使用通过用户友好的操作获得的粗糙参考动画,例如剪切和拖拽或基于深度的重新投影。 在SDEdit使用粗布局线索进行图像编辑的激励下,我们将粗糙的动画视为粗糙的运动线索,并将机制调整到视频域。 我们通过图像调节来保持外观,并引入双时钟去噪,这是一种依赖区域的策略,可以在运动指定的区域中强制进行强对齐,同时允许其他地方的灵活性,平衡用户意图与自然动力学的保真度。 这种对采样过程的轻量修改无需额外的培训或运行时成本,并且与任何骨干兼容。 对物体和相机运动基准的广泛实验表明,TTM在现实主义和运动控制方面与现有的基于训练的基线相匹配或超过。 除此之外,TTM还引入了一种独特的功能:通过像素级调理进行精确的外观控制,超过仅文本提示的限制。 访问我们的项目页面获取视频示例和代码:https://time-to-move.github.io/。

计算机视觉与模式识别人工智能计算机图形学机器学习
arXiv

深反面:通过生成式精炼实现一致的反照率和表面细节恢复

使用生成式先验重建人类头像对于实现多功能和逼真的头像模型至关重要。 传统方法通常依赖于由生成模型引导的体积表示,但这些方法需要广泛的体积渲染查询,导致训练缓慢。 或者,基于表面的表示通过可区分的栅格化提供更快的优化,但它们通常受到顶点计数的限制,当与生成先验相结合时,限制了网格分辨率和可扩展性。 此外,将生成性先验物集成到基于物理的人类头像建模中,在很大程度上仍未被探索。 为了应对这些挑战,我们引入了DIS(Deep Inverse Shading),这是一个用于高保真,可重轻缩的头像重建的统一框架,将生成前置纳入连贯的表面表示。 DIS以基于网格的模型为中心,作为优化表面和材料细节的目标。 该框架使用正常转换模块将多视图2D生成表面正常预测融合到中央网格中,细节丰富但往往不一致。 该模块通过可微光栅化将生成式正常输出转换为每个三角表面偏移,从而捕获超出稀疏顶点限制的精细几何细节。 此外,DIS还集成了去阴影模块,以恢复准确的材料性能。 该模块通过删除烘焙阴影和反向传播重建错误来完善反照率预测,以优化几何形状。 通过联合优化几何形状和材料外观,DIS实现了物理上一致的高质量重建,适合精确重新照明。 我们的实验表明,DIS提供SOTA重开质量,增强的渲染效率,更低的内存消耗和详细的表面重建。

计算机图形学
arXiv

SONIC:用于自然人形全身控制的超尺寸运动跟踪

尽管在数千个GPU上训练的十亿参数基础模型的兴起,但类似的扩展增益尚未显示出用于人形控制。 目前用于类人体的神经控制器在尺寸上仍然很小,针对有限的行为集,并在几天内对少数GPU进行了训练。 我们表明,扩大模型容量,数据和计算产生了一个通用的人形控制器,能够创建自然和健壮的全身运动。 具体来说,我们将运动跟踪定位为人形控制的自然和可扩展的任务,利用来自各种运动捕捉数据的密集监督,在没有手动奖励工程的情况下获取人类运动先验。 我们通过沿着三个轴缩放来构建运动跟踪的基础模型:网络大小(从1.2M到42M参数),数据集体积(超过100M帧,700小时的高质量运动数据)和计算(9k GPU小时)。 除了展示规模的好处外,我们还通过两种机制展示了我们模型的实用功能:(1)一个实时的通用运动学规划器,将运动跟踪与下游任务执行联系起来,实现自然和交互式控制,(2)一个支持各种运动输入接口的统一令牌空间,如VR远程操作设备,人类视频和视觉语言动作(VLA)模型,所有这些都使用相同的策略。 扩展运动跟踪表现出有利的性能:随着计算和数据多样性的增加,性能稳步提高,学习表示推广到看不见的运动,大规模建立运动跟踪作为人形控制的实际基础。

机器人学人工智能计算机视觉与模式识别计算机图形学
arXiv

坚固和高亲力的3D高斯溅射:为纹理缺陷的户外场景融合姿势和几何约束

3D Gaussian Splatting(3DGS)因其效率和视觉质量之间的平衡而成为数字资产创建的关键渲染管道。 为了解决由几何纹理不一致导致的不稳定姿势估计和场景表示失真的问题,我们在具有弱或重复纹理的大型户外场景中,从两个方面来解决这个问题:姿势估计和场景表示。 对于姿势估计,我们利用激光雷达-IMU Odometry为大型环境中的相机提供先前的姿势。 这些先前的姿势约束被纳入了 COLMAP 的三角测量过程,并通过捆绑调整进行姿势优化。 确保像素数据关联和先前姿势之间的一致性有助于保持稳健性和准确性。 对于场景表示,我们引入了正常的向量约束和有效的等级正则化,以强制高斯原语的方向和形状的一致性。 这些限制与现有的光度损耗共同优化,以提高地图质量。 我们使用公共和自我收集的数据集来评估我们的方法。 在姿势优化方面,我们的方法只需要三分之一的时间,同时保持两个数据集的准确性和稳健性。 在场景表示方面,结果表明我们的方法明显优于传统的3DGS管道。 值得注意的是,在以弱纹理或重复纹理为特征的自我收集的数据集上,我们的方法展示了增强的可视化功能,并实现了卓越的整体性能。 代码和数据将在https://github.com/justinyeah/normal_shape.git上公布。

计算机视觉与模式识别计算机图形学
arXiv

继续滚动加载更多