计算机图形学研究快报

相关分类

最新研究

神经-SDF二阶正则化的有限差异近似

我们引入了一个有限差框架,用于神经符号距离场(SDF)学习中的曲率正则化。现有方法使用通过二阶自动分化获得的完整Hessian信息强制执行曲率先验,这是准确的,但计算成本很高。其他人通过避免明确的黑森组装来减少这种开销,但仍需要更高阶的差异化。相比之下,我们的方法用轻量级的有限差分模板取代了这些操作,这些模板使用众所周知的Taylor扩展近似第二个导数,截断误差为O(h^2),可以作为高斯曲率和排名缺陷损失的下拉替换。实验表明,我们的有限差值变体实现了与自动区分同类相媲美的重建保真度,同时将GPU内存使用和训练时间减少了高达2倍。对稀疏、不完整和非CAD数据进行的额外测试证实,拟议的配方是稳健和通用的,为弧度感知SDF学习提供了一种高效且可扩展的替代方案。

计算机图形学计算机视觉与模式识别机器学习

移动时间:通过双时钟去角化实现无训练运动控制视频生成

基于扩散的视频生成可以创建逼真的视频,但现有的基于图像和文本的调节无法提供精确的运动控制。运动条件合成的先前方法通常需要针对模型的微调,这在计算上是昂贵和限制性的。我们引入了Time-to-Move(TTM),这是一种无训练的即插即用框架,用于运动和外观控制的视频生成,具有图像到视频(I2V)扩散模型。我们的关键见解是使用通过用户友好的操作获得的粗糙参考动画,例如剪切和拖拽或基于深度的重新投影。在SDEdit使用粗布局线索进行图像编辑的激励下,我们将粗糙的动画视为粗糙的运动线索,并将机制调整到视频域。我们通过图像调节来保持外观,并引入双时钟去噪,这是一种依赖区域的策略,可以在运动指定的区域中强制进行强对齐,同时允许其他地方的灵活性,平衡用户意图与自然动力学的保真度。这种对采样过程的轻量修改无需额外的培训或运行时成本,并且与任何骨干兼容。对物体和相机运动基准的广泛实验表明,TTM在现实主义和运动控制方面与现有的基于训练的基线相匹配或超过。除此之外,TTM还引入了一种独特的功能:通过像素级调理进行精确的外观控制,超过仅文本提示的限制。访问我们的项目页面获取视频示例和代码:https://time-to-move.github.io/。

计算机视觉与模式识别人工智能计算机图形学机器学习

IFG:功能性抓地力生成的互联网规模指南

受过互联网规模数据训练的大型视觉模型在分割和语义理解对象部分方面表现出强大的能力,即使在杂乱,拥挤的场景中也是如此。然而,虽然这些模型可以引导机器人朝向物体的一般区域,但它们缺乏精确控制灵巧的机器人手进行3D抓握所需的几何理解。为了克服这一点,我们的关键见解是利用模拟,使用力闭合抓线管道,了解场景中手和物体的局部几何形状。由于这条管道速度缓慢,需要地面实况观测,因此所得数据被提炼成在相机点云上实时运行的扩散模型。通过将互联网规模模型的全球语义理解与基于模拟的本地感知力闭合的几何精度相结合,无需任何手动收集的训练数据即可实现高性能语义抓取。有关此的可视化,请访问我们的网站https://ifgrasping.github.io/

机器人学人工智能计算机视觉与模式识别计算机图形学

深反面:通过生成式精炼实现一致的反照率和表面细节恢复

使用生成式先验重建人类头像对于实现多功能和逼真的头像模型至关重要。传统方法通常依赖于由生成模型引导的体积表示,但这些方法需要广泛的体积渲染查询,导致训练缓慢。或者,基于表面的表示通过可区分的栅格化提供更快的优化,但它们通常受到顶点计数的限制,当与生成先验相结合时,限制了网格分辨率和可扩展性。此外,将生成性先验物集成到基于物理的人类头像建模中,在很大程度上仍未被探索。为了应对这些挑战,我们引入了DIS(Deep Inverse Shading),这是一个用于高保真,可重轻缩的头像重建的统一框架,将生成前置纳入连贯的表面表示。 DIS以基于网格的模型为中心,作为优化表面和材料细节的目标。该框架使用正常转换模块将多视图2D生成表面正常预测融合到中央网格中,细节丰富但往往不一致。该模块通过可微光栅化将生成式正常输出转换为每个三角表面偏移,从而捕获超出稀疏顶点限制的精细几何细节。此外,DIS还集成了去阴影模块,以恢复准确的材料性能。该模块通过删除烘焙阴影和反向传播重建错误来完善反照率预测,以优化几何形状。通过联合优化几何形状和材料外观,DIS实现了物理上一致的高质量重建,适合精确重新照明。我们的实验表明,DIS提供SOTA重开质量,增强的渲染效率,更低的内存消耗和详细的表面重建。

计算机图形学

OUGS:通过3DGS中的对象感知不确定性估计进行主动视图选择

3D Gaussian Splatting(3DGS)的最新进展为新颖的视图合成取得了最先进的结果。然而,在复杂的场景中有效地捕获特定物体的高保真重建仍然是一个重大挑战。现有主动重建方法的一个关键限制是它们依赖于场景级的不确定性指标,这些指标通常受到不相关的背景混乱的偏见,并导致以对象为中心的任务的低效视图选择。我们介绍了OUGS,这是一个新颖的框架,通过更原则,物理基础的3DGS不确定性配方来应对这一挑战。我们的核心创新是直接从3D高斯原语的显式物理参数(例如位置、尺度、旋转)中获取不确定性。通过渲染Jacobian传播这些参数的协方差,我们建立了一个高度可解释的不确定性模型。这个基础允许我们无缝集成语义分割掩码,以产生有针对性的、感知对象的不确定性评分,从而有效地将对象与其环境区分开来。这允许更有效的主动视图选择策略,优先考虑对提高对象保真度至关重要的观点。对公共数据集的实验评估表明,与现有的先进方法相比,我们的方法显着提高了3DGS重建过程的效率,并为目标对象实现了更高的质量,同时也作为全球场景的强大不确定性估算器。

计算机视觉与模式识别计算几何学计算机图形学人机交互

ElastoGen: 4D 生成式 Elastodynamics

我们展示了ElastoGen,一种知识驱动的AI模型,可以生成物理精确的4D弹性动力学。与从基于视频或图像的观测中学习的深度模型不同,ElastoGen利用物理学原理并从既定的数学和优化程序中学习。 ElastoGen的核心思想是将微分方程(对应于非线性力平衡)转换为一系列迭代的局部卷积运算,这些运算自然适合深层架构。我们按照这一总体设计理念精心构建我们的网络模块。 ElastoGen在训练要求和网络规模方面比深度生成模型轻便得多。由于其与实际物理程序的一致性,ElastoGen有效地为各种超弹性材料生成准确的动力学,并可以轻松地与上下游深度模块集成,以实现端到端4D生成。

机器学习计算机视觉与模式识别计算机图形学

TouchWalker:来自触摸屏手指行走的实时阿凡达运动

我们介绍了TouchWalker,一个实时系统,用于使用触摸屏上的手指行走手势控制全身头像运动。该系统包括两个主要组件:TouchWalker-MotionNet,一种神经运动发生器,从时间稀疏的两指输入中按帧合成全身头像运动,以及TouchWalker-UI,这是一种紧凑的触摸界面,将用户触摸输入解释为头像相对的脚位置。与以前依赖符号手势触发或预定义运动序列的系统不同,TouchWalker使用其神经组件在每帧的基础上生成连续的,上下文感知的全体运动 - 包括运行等空降阶段,即使在半空中台阶期间没有输入 - 可实现更具表现力和即时的交互。为了确保手指触点和头像运动之间的精确对齐,它采用具有专用脚对齐损耗的MoE-GRU架构。我们在一项用户研究中评估了TouchWalker,将其与虚拟操纵杆基线与跨各种运动任务的预定义运动进行比较。结果表明,TouchWalker提高了用户的体现、享受和沉浸感。

人机交互计算机图形学

使用先进的多模态模型制作动态虚拟活动

在本文中,我们研究了多模态大语言模型(MLLM)用于生成虚拟活动,利用视觉语言模式的集成来实现虚拟环境的解释。我们的方法通过MLLM的多模态推理功能识别和抽象关键场景元素,包括场景布局,语义上下文和对象身份。通过将这些抽象与关于人类活动的大量知识联系起来,MLLM能够产生适应性和上下文相关的虚拟活动。我们提出了一个结构化框架来阐明抽象的活动描述,强调虚拟空间内详细的多字符交互。利用衍生的高级上下文,我们的方法准确地定位虚拟字符,并确保其交互和行为通过战略优化在现实和上下文上是适当的。实验结果证明了我们方法的有效性,为增强模拟虚拟环境中的现实主义和上下文意识提供了新的方向。

人机交互计算机图形学多媒体

Chat2SVG:具有大型语言模型和图像扩散模型的矢量图形生成

可扩展矢量图形(SVG)已成为数字设计中矢量图形的事实标准,提供分辨率独立性和对单个元素的精确控制。尽管它们具有优势,但创建高质量的SVG内容仍然具有挑战性,因为它需要专业编辑软件的技术专业知识和相当多的时间投资来制作复杂的形状。最近的文本到SVG生成方法旨在使矢量图形创建更容易访问,但它们在形状规律性,概括能力和表现力方面仍然遇到限制。为了应对这些挑战,我们引入了Chat2SVG,这是一个混合框架,结合了大型语言模型(LLM)和图像扩散模型的优势,用于文本到SVG生成。我们的方法首先使用LLM从基本的几何原语生成语义上有意义的SVG模板。在图像扩散模型的指导下,双级优化管道在潜在空间中改进路径并调整点坐标以增强几何复杂性。广泛的实验表明,Chat2SVG在视觉保真度、路径规律性和语义对齐方面优于现有方法。此外,我们的系统通过自然语言指令实现直观的编辑,使所有用户都可以使用专业矢量图形创建。

计算机视觉与模式识别计算机图形学

SONIC:用于自然人形全身控制的超尺寸运动跟踪

尽管在数千个GPU上训练的十亿参数基础模型的兴起,但类似的扩展增益尚未显示出用于人形控制。目前用于类人体的神经控制器在尺寸上仍然很小,针对有限的行为集,并在几天内对少数GPU进行了训练。我们表明,扩大模型容量,数据和计算产生了一个通用的人形控制器,能够创建自然和健壮的全身运动。具体来说,我们将运动跟踪定位为人形控制的自然和可扩展的任务,利用来自各种运动捕捉数据的密集监督,在没有手动奖励工程的情况下获取人类运动先验。我们通过沿着三个轴缩放来构建运动跟踪的基础模型:网络大小(从1.2M到42M参数),数据集体积(超过100M帧,700小时的高质量运动数据)和计算(9k GPU小时)。除了展示规模的好处外,我们还通过两种机制展示了我们模型的实用功能:(1)一个实时的通用运动学规划器,将运动跟踪与下游任务执行联系起来,实现自然和交互式控制,(2)一个支持各种运动输入接口的统一令牌空间,如VR远程操作设备,人类视频和视觉语言动作(VLA)模型,所有这些都使用相同的策略。扩展运动跟踪表现出有利的性能:随着计算和数据多样性的增加,性能稳步提高,学习表示推广到看不见的运动,大规模建立运动跟踪作为人形控制的实际基础。

机器人学人工智能计算机视觉与模式识别计算机图形学

表面光源的计算因果设计

设计自由表面以基于现实世界的照明模式控制光线具有挑战性,因为现有的刻度透镜设计通常假设过于简化的点或平行光源。我们建议使用一组优化的点源表示表面光源,其参数通过新颖的可微分渲染框架与真实光源的照明相适应。我们基于物理的渲染方法使用通量模拟光传输,而无需事先了解光源的强度分布。为了在优化过程中有效地探索光源参数空间,我们应用了一个收缩映射,将受限问题转换为不受约束的问题。使用优化的光源模型,我们设计自由形透镜形状,考虑通量一致性和正常集成性。模拟和物理实验表明,与点源近似值相比,我们的方法更准确地表示真实的表面光源,产生与目标光分布紧密匹配的图像的刻度透镜。

计算机图形学

Lightning Grasp:具有接触场的高性能程序Grasp合成

尽管进行了多年的研究,但灵巧双手的实时多样化抓握合成仍然是机器人和计算机图形学中未解决的核心挑战。我们介绍了Lightning Grasp,一种新颖的高性能过程抓握合成算法,通过最先进的方法实现量级加速,同时为不规则的,类似工具的对象实现无监督的抓握生成。该方法避免了先前方法的许多限制,例如需要仔细调整的能量函数和敏感的初始化。这一突破是由一个关键的见解驱动的:通过简单,高效的数据结构 - 接触场将复杂的几何计算与搜索过程脱钩。这种抽象崩溃了问题的复杂性,使程序搜索能够以前所未有的速度进行。我们开源我们的系统,以推动机器人操作的进一步创新。

机器人学人工智能计算机视觉与模式识别分布式、并行与集群计算

MACS:具有上下文意义和语义对齐的多源音频到图像生成

在深度生成模型的突破推动下,音频到图像生成已成为一项关键的跨模态任务,将复杂的听觉信号转换为丰富的视觉表现。然而,以前的作品只关注用于图像生成的单源音频输入,忽略了自然听觉场景中的多源特性,从而限制了生成综合视觉内容的性能。为了弥补这一差距,我们提出了一种称为MACS的方法,用于进行多源音频到图像生成。据我们所知,这是第一个明确将多源音频分开的工作,以便在图像生成之前捕获丰富的音频组件。 MACS是一种两阶段的方法。在第一阶段,多源音频输入被弱监督方法分离,其中音频和文本标签通过使用大型预训练的CLAP模型投射到公共空间进行语义对齐。我们引入排名损失,以考虑分离音频信号的上下文意义。在第二阶段,只需使用可训练的适配器和MLP层将分离的音频信号映射到生成状态即可实现有效的图像生成。我们将LLP数据集作为第一个完整的多源音频到图像生成基准进行预处理。这些实验是在多源、混合源和单源音频到图像生成任务上进行的。拟议的MACS在所有任务的21个评估索引中的17个中胜过当前最先进的方法,并提供卓越的视觉质量。

声音处理计算机视觉与模式识别计算机图形学音频与语音处理

M^3ashy:通过Hyperdiffusion进行多模态材料合成

高质量的材料合成对于复制复杂的表面特性以创建逼真的场景至关重要。尽管基于分析模型的材料外观的产生取得了进展,但现实世界测量的BRDFs的合成在很大程度上仍未被探索。为了应对这一挑战,我们提出了基于超扩散的新型多模态材料合成框架M^3ashy。 M^3ashy通过利用神经场作为BRDF的紧凑连续表示,实现复杂现实世界材料的高质量重建。此外,我们的多模态条件超扩散模型允许以材料类型、自然语言描述或参考图像为条件的柔性材料合成,从而对材料生成提供更大的用户控制。为了支持未来的研究,我们贡献了两个新材料数据集,并引入了两个 BRDF 分布指标,用于更严格的评估。我们通过广泛的实验证明了Mashy的有效性,包括基于统计学的新型受限合成,从而能够生成所需类别的材料。

计算机图形学

做画自己:由杰出指导的生成式面部涂漆

我们介绍了EXE-GAN,这是一个使用生成对抗网络的新型示例引导面部绘画框架。我们的方法不仅可以保持输入面部图像的质量,还可以完成具有示例式面部属性的图像。我们通过同时利用输入图像的全局样式、随机潜在代码生成的随机样式以及示例图像的示例样式来实现这一点。我们引入了一种新颖的属性相似性度量,以鼓励网络以自我监督的方式从示例中学习面部属性的风格。为了保证跨越画区边界的自然过渡,我们引入了一种新的空间变异梯度反向传播技术,根据空间位置调整损耗梯度。在公共CelebA-HQ和FFHQ数据集上的广泛评估和实际应用验证了EXE-GAN在面部绘画视觉质量方面的优越性。

计算机视觉与模式识别人工智能计算机图形学多媒体

坚固和高亲力的3D高斯溅射:为纹理缺陷的户外场景融合姿势和几何约束

3D Gaussian Splatting(3DGS)因其效率和视觉质量之间的平衡而成为数字资产创建的关键渲染管道。为了解决由几何纹理不一致导致的不稳定姿势估计和场景表示失真的问题,我们在具有弱或重复纹理的大型户外场景中,从两个方面来解决这个问题:姿势估计和场景表示。对于姿势估计,我们利用激光雷达-IMU Odometry为大型环境中的相机提供先前的姿势。这些先前的姿势约束被纳入了 COLMAP 的三角测量过程,并通过捆绑调整进行姿势优化。确保像素数据关联和先前姿势之间的一致性有助于保持稳健性和准确性。对于场景表示,我们引入了正常的向量约束和有效的等级正则化,以强制高斯原语的方向和形状的一致性。这些限制与现有的光度损耗共同优化,以提高地图质量。我们使用公共和自我收集的数据集来评估我们的方法。在姿势优化方面,我们的方法只需要三分之一的时间,同时保持两个数据集的准确性和稳健性。在场景表示方面,结果表明我们的方法明显优于传统的3DGS管道。值得注意的是,在以弱纹理或重复纹理为特征的自我收集的数据集上,我们的方法展示了增强的可视化功能,并实现了卓越的整体性能。代码和数据将在https://github.com/justinyeah/normal_shape.git上公布。

计算机视觉与模式识别计算机图形学

用于符号距离函数的几何隐式神经表示

隐性神经表示(INRs)已成为在低维空间中表示信号的一个有前途的框架。本调查回顾了关于表面场景近似签名距离函数(SDF)的专用INR问题的现有文献,使用定向点云或一组图景。我们指的是神经自付费用SDF,它们在其损失函数中加入了微分几何工具,如正态和曲率,作为几何INR。这种3D重建方法背后的关键思想是在损失函数中包括额外的正则化术语,确保INR满足该函数应持有的某些全局属性 - 例如在自开发中具有单位梯度。我们探索关键的方法论组件,包括INR的定义,几何损失函数的构建,以及从微分几何学角度的采样方案。我们的审查强调了几何INR在定向点云和图景表面重建中取得的重大进步。

计算机视觉与模式识别计算几何学计算机图形学

低等级动态网络的建模和拓扑估计

动态网络的传统拓扑学习方法变得不适合表现出低等级特征的过程。为了解决这个问题,我们提出了低等级的动态网络模型,以确保可识别性。通过采用因果 Wiener 过滤,我们建立了一个必要且足够的条件,将过滤器的间距模式与条件格兰杰因果关系联系起来。基于这一理论结果,我们开发了一种一致的方法来估计所有网络边缘。模拟结果表明了拟议框架的吝啬和拓扑估计方法的一致性。

计算机图形学机器学习 (统计)

评估吉萨大金字塔边缘集成多匝道构造模型的计算框架

尽管进行了数十年的研究,但缺乏一个定量的集成框架来评估胡夫金字塔的微小尺度吞吐量,几何控制和零外部足迹。我们测试集成边缘-Ramp(IER)模型 - 由省略和回填周线课程形成的螺旋路径 - 使用统一的端到端管道耦合参数几何,离散事件物流和分阶段有限元素分析(FEA)。自适应多匝道策略可以维持4-6分钟的调度,并产生13.8-20.6年的中位现场持续时间(95%CI);包括采石,河流运输和季节性暂停给予20-27年。 FEA 指出,压力和定居点仍然处于自我重量的旧王国石灰岩的合理范围内。该模型的几何形状也与μ子成像(假设生成结果)识别的内部空隙一致。 IER有助于调和吞吐量,调查访问和零足迹关闭,并产生可伪造的预测(边缘填充签名,角磨损)。我们的研究提供了一个可转移的开放数据/代码框架,用于测试古代巨型结构的建筑假设。

物理学史与哲学计算工程、金融与科学计算机图形学计算物理学

CACETer:用于可控发电的转向扩散模型

扩散模型已经改变了图像生成,但控制其输出以可靠地擦除不受欢迎的概念仍然具有挑战性。现有方法通常需要针对特定任务的训练和努力在具体(例如对象)和抽象(例如样式)概念上推广。我们提出了CASteer(交叉注意力转向),这是一个无训练框架,用于扩散模型中的概念擦除,使用转向向量来动态影响隐藏的表示。 CA斯特通过从为每个目标概念生成的图像中平均神经激活来预先计算特定概念的转向向量。在推理过程中,它动态地应用这些向量来抑制不希望的概念,只有当它们出现时,确保不相关的区域不受影响。这种选择性激活可以实现精确的上下文感知,而不会降低整体图像质量。这种方法可以在广泛的视觉概念中有效地去除有害或不需要的内容,所有这些都无需模型再培训。 CAPythoner优于最先进的概念擦除技术,同时保留不相关的内容并最大限度地减少意外效果。补编中提供了伪代码。

计算机图形学

继续滚动加载更多