我们提出了一种神经方法,用于估计空间变化的采光选择分布,以改进蒙特卡洛渲染中的重要性采样,尤其是在具有许多光源的复杂场景中。我们的方法使用神经网络来预测每个着色点的采光选择分布,基于局部信息进行训练,通过最小化学习分布与目标分布之间的KL散度,以在线方式进行。为了有效地管理数百或数千个光源,我们将我们的神经方法与光层次技术相结合,其中网络预测集群级别的分布,而现有方法则在集群内采样光源。此外,我们引入了一种残差学习策略,利用现有技术的初始分布,加速训练过程中的收敛。我们的方法在各种具有挑战性的场景中实现了卓越的性能。
很少镜头的适应仍然是视觉语言模型(VLM)的核心挑战,特别是在有限的监管和嘈杂的支持样本下。 我们提出了PromptFuseNL,这是一个统一的框架,通过将预测提示调优与双分支正和负学习相结合,增强了很少的概括。 该方法通过任务条件残差、多阶段跨模态协调和语义硬负挖掘来完善类原型。 为了解决标签噪声,我们引入了一种无监督实例重重策略,可以降低不可靠的支持示例,而无需额外的标签或结构更改。 PromptFuseNL通过轻量级模块融合了视觉和文本线索,以实现高效和歧视性的预测。 在15个基准测试中,它始终如一地超越了所有拍摄设置中现有的基于提示和适配器的方法,同时保持高效,与完全快速调谐相比,实现了高达300倍的更快训练和1000倍的FLOP,实现了新的最先进的强大和可扩展的单镜头视觉语言适应。
优惠贝叶斯优化(PBO)是贝叶斯优化的一种变体,它观察到相对偏好(例如,成对比较)而不是直接客观值,使其特别适用于人圈场景。 然而,现实世界的优化任务往往涉及不平等限制,现有的PBO方法尚未解决。 为了填补这一空白,我们提出了受限制的优惠贝叶斯优化(CPBO),这是PBO的扩展,首次纳入了不平等约束。 具体来说,我们为此提出了一种新的获取功能。 我们的技术评估表明,我们的CPBO方法通过专注于探索可行的区域,成功地确定了最佳解决方案。 作为实际应用,我们还介绍了使用CPBO进行横幅广告设计的设计师在循环系统,其中目标是设计师的主观偏好,约束确保了目标预测的点击率。 我们与专业广告设计师进行了用户研究,展示了我们的方法在指导现实世界约束下的创意设计的潜在好处。
纹理网格质量评估(TMQA)对于各种3D网格应用至关重要。 然而,现有的TMQA方法往往难以提供准确和稳健的评估。 受字段在表示3D几何和颜色信息方面的有效性的激励,我们提出了一种新的基于点的TMQA方法,称为字段网格质量度量(FMQM)。 FMQM利用签名的距离字段和新提出的名为最近曲面点颜色字段的色场来实现有效的网格特征描述。 与视觉感知相关的四个特征是从几何和色场中提取的:几何相似性、几何梯度相似性、空间色分布相似性以及空间色梯度相似性。 三个基准数据集的实验结果表明,FMQM优于最先进的(SOTA)TMQA指标。 此外,FMQM具有低计算复杂性,使其成为3D图形和可视化中实际应用的实用和高效的解决方案。 我们的代码可公开查阅:https://github.com/yyyykf/FMQM。
我们的大脑有一个内部全球定位系统,使我们能够实时感知和导航3D空间。 移动机器人能否在动态环境中复制这样的生物壮举? 我们介绍了第一个用于实时表面重建和导航的空间推理框架,该框架专为地面移动机器人捕获的户外激光雷达扫描数据而设计,能够处理行人等移动物体。 我们基于重建的方法与边界向量细胞(BVC)在内侧内皮层(MEC)所有层上执行的关键细胞功能很好地对齐,用于表面传感和跟踪。 为了应对由于物体运动导致的稀疏单帧激光雷达点和过时数据造成的模糊边界所带来的挑战,我们通过可视推理集成了实时单帧网格重建,并通过实时3D自由空间测定与机器人导航辅助。 这可以实现跨多个帧的场景和自由空间的连续和增量更新。 我们的方法的关键是利用LiDAR的视线(LoS)向量,可以实现实时表面正常估计,以及稳健和瞬时无氧空间更新。 我们展示了两个实际应用:实时3D场景重建和在现实条件下的自主户外机器人导航。 合成和真实场景的综合实验突出了我们的方法在速度和质量上优于现有的实时激光雷达处理方法。
我们提出了一种神经方法,用于估计空间变化的采光选择分布,以改进蒙特卡洛渲染中的重要性采样,尤其是在具有许多光源的复杂场景中。我们的方法使用神经网络来预测每个着色点的采光选择分布,基于局部信息进行训练,通过最小化学习分布与目标分布之间的KL散度,以在线方式进行。为了有效地管理数百或数千个光源,我们将我们的神经方法与光层次技术相结合,其中网络预测集群级别的分布,而现有方法则在集群内采样光源。此外,我们引入了一种残差学习策略,利用现有技术的初始分布,加速训练过程中的收敛。我们的方法在各种具有挑战性的场景中实现了卓越的性能。
在技术和人工智能领域,数字模型在我们的生活中发挥着重要作用,是现实世界对象数字孪生的重要组成部分。 它们可以由设计师,艺术家或游戏开发人员使用样条曲线和表面,网格和体素创建,但制作这样的模型太耗时了。 随着人工智能工具的增长,人们对3D模型的自动化生成产生了兴趣,例如生成式设计方法,这可以节省创作者宝贵的时间。 本文回顾了几个在线3D模型生成器,并批判性地分析了结果,希望从不同的提示中看到更高质量的结果。
高保真手势生成代表了以人为中心的生成任务中的重大挑战。 现有方法通常在提高手势生成质量之前采用单视图3D MANO网格渲染图像。 然而,手部动作的复杂性和单视图渲染的固有限制使得很难捕获完整的3D手信息,特别是当手指被遮挡时。 根本的矛盾在于通过2D投影失去3D拓扑关系,以及单视图表示固有的不完整的空间覆盖。 与单视图先前方法不同,我们提出了一个多视图的先验框架,名为基于多模式的基于特征解码器(MUFEN),以指导学习综合3D手信息的扩散模型。 具体来说,我们将传统的前视渲染扩展到包括后,左,右,顶部和底部视角,选择最丰富的视图组合作为解决遮挡完成之前的训练。 这种带有专用双流编码器的多视图先验,可显著提高模型对完整手部功能的理解。 此外,我们设计了一个边界框功能融合模块,可以将手势定位功能和手势多模态功能融合在一起,以提高MUMEN功能与手势相关功能的位置意识。 实验表明,我们的方法在定量指标和定性评估方面都取得了最先进的性能。
我们提出了一种控制模拟人形的方法,以抓住一个物体并将其移动到一个物体的轨迹。 由于用灵巧的手控制人形的挑战,以前的方法通常使用脱体的手,只考虑垂直升降机或短轨迹。 这种有限的范围阻碍了它们适用于动画和模拟所需的对象操作。 为了缩小这个差距,我们学习了一个控制器,它可以拾取大量(>1200)的对象,并携带它们跟随随机生成的轨迹。 我们的关键见解是利用人形运动表示,提供类人的运动技能,并显着加快训练。 我们的方法仅使用简单的奖励、状态和对象表示,在不同的对象和轨迹上显示出有利的可扩展性。 对于训练,我们不需要配对全身运动和物体轨迹的数据集。 在测试时,我们只需要对象网格和所需的轨迹来抓取和运输。 为了展示我们方法的能力,我们在遵循对象轨迹和向看不见的对象进行概括方面展示了最先进的成功率。 代码和模型将发布。
我们展示了一个新颖且实际重要的问题 - 地理 - 背景声景景观(GeoS2L)一代 - 旨在从环境声景中综合地理上逼真的景观图像。 以前的音频到图像生成方法通常依赖于通用数据集,而忽略了地理和环境环境,导致不切实际的图像与现实世界的环境环境环境错位。 为了解决这一限制,我们引入了一种新的地理-上下文计算框架,该框架明确地将地理知识集成到多模态生成建模中。 我们构建了两个大型地理环境多模态数据集,SoundingSVI和SonicUrban,将多样化的声景与现实世界的景观图像配对。 我们提出了SounaDiT,一种基于Diffusion Transformer(DiT)的新型模型,该模型结合了地理环境场景调节,以合成地理上一致的景观图像。 此外,我们提出了一个实际知情的地理环境评估框架,即Place Similarity Score(PSS),跨越元素,场景和人类感知水平,以测量输入声景和生成的景观图像之间的一致性。 广泛的实验表明,SourDiT在视觉保真度和地理设置方面都优于现有的基线。 我们的工作不仅为GeoS2L生成建立了基础基准,而且还强调了将地理领域知识纳入推进多模态生成模型的重要性,在生成式AI,地理,城市规划和环境科学的交叉点开辟新的方向。
下一步坐标预测范式已经成为当前自动回归网格生成方法的事实标准。 尽管它们的有效性,但没有有效的测量各种标记器将网格序列化为序列。 在本文中,我们引入了一个新的指标Per-Token-Mesh-Entropy(PTME),以便在没有任何训练的情况下从理论上评估现有的网格标记。 在PTME的基础上,我们提出了一种称为坐标合并的即插即用令牌化技术。 它通过重新排列和合并最常见的坐标模式,进一步提高了现有标记器的压缩比。 通过各种标记化方法(如MeshXL,MeshAnything V2和Edgerunner)的实验,我们进一步验证了方法的性能。 我们希望拟议的PTME和协调合并可以增强现有的网格标记器,并指导本地网状生成进一步发展。
虽然大型视觉语言模型可以从文本提示生成运动图形动画,但它们通常无法包括提示中描述的所有时空属性。 我们引入了MoVer,这是一种基于一阶逻辑的运动验证DSL,可以检查运动图形动画的时空属性。 我们确定了一组一般这样的属性,人们通常用来描述动画(例如,运动的方向和时间,物体的相对定位等)。 我们在 MoVer 中将这些属性作为谓词实现,并提供了一个执行引擎,可以将 MoVer 程序应用于任何基于 SVG 的运动图形动画。 然后,我们演示了MoVer如何在基于LLM的合成和验证管道中使用,以迭代地改进运动图形动画。 给定文本提示,我们的管道合成了运动图形动画和相应的MoVer程序。 在动画上执行验证程序会产生失败的谓词的报告,并且报告可以自动反馈给LLM以迭代更正动画。 为了评估我们的管道,我们构建了一个5600个文本提示的合成数据集,并配合了地面真相MoVer验证程序。 我们发现,虽然我们的基于LLM的管道能够自动生成正确的运动图形动画,为58.893.6 https://mover-dsl.github.io。
最近利用深度强化学习的数据驱动方法一直是开发控制器的有效范例,使物理模拟字符能够产生自然的类人行为。 然而,这些数据驱动的方法往往难以适应新的环境,并连贯地组合不同的技能来执行更复杂的任务。 为了应对这些挑战,我们提出了一个混合模仿学习(HIL)框架,该框架结合了运动跟踪,用于精确的技能复制,与对抗性的模仿学习,以提高适应性和技能组成。 这个混合学习框架是通过并行多任务环境和统一的观察空间来实现的,具有以代理为中心的场景表示,以促进从混合并行环境中有效地学习。 我们的框架对来自互联网视频的跑酷数据进行了统一的控制器训练,使模拟角色能够使用多样化和逼真的跑酷技能穿越新环境。 跨具有挑战性的跑酷环境的评估表明,与以前的基于学习的方法相比,我们的方法提高了运动质量,增加了技能多样性,并实现了具有竞争力的任务完成。
复杂场景中的人类运动合成带来了一个基本挑战,超越了传统的文本到运动任务,需要整合多种模式,如静态环境,可移动物体,自然语言提示和空间路点。 现有的语言条件运动模型经常与场景感知运动产生作斗争,这是由于运动标记化的限制,导致信息丢失,并且无法捕捉3D人类运动的连续,与上下文相关的性质。 为了解决这些问题,我们提出了UniHM,这是一种统一的运动语言模型,利用基于扩散的生成来合成场景感知人类运动。 UniHM是第一个在复杂的3D场景中支持文本到运动和文本到人机交互(HOI)的框架。 我们的方法引入了三个关键贡献:(1)混合运动表示,将连续6DoF运动与离散的局部运动令牌融合在一起,以改善运动现实主义;(2)一种新颖的无查找量化VAE(LFQ-VAE),在重建精度和生成性能方面超越了传统的VQ-VAE;(3)Lingo数据集的丰富版本增强了HumanML3D注释,为特定场景提供了更强的监督。 实验结果表明,UniHM在OMOMO基准上实现了文本到HOI合成的比较性能,并在HumanML3D上产生了用于一般文本条件运动生成的竞争结果。
本文介绍了SANA-Sprint,这是一种用于超快速文本到图像(T2I)生成的高效扩散模型。 SANA-Sprint建立在预先训练的基础模型上,并通过混合蒸馏增强,将推理步骤从20个减少到1-4。 我们引入了三个关键创新:(1)我们提出了一种无培训的方法,将预先训练的流量匹配模型转变为连续时间一致性蒸馏(sCM),从头开始消除昂贵的培训并实现高培训效率。 我们的混合蒸馏策略将 sCM 与潜在对抗性蒸馏 (LADD) 相结合: sCM 确保与教师模型保持一致,而 LADD 增强了单步生成保真度。 (2)SANA-Sprint是一个统一的步态适应模型,在1-4步中实现高质量生成,消除步法特定的训练并提高效率。 (3)我们将ControlNet与SANA-Sprint集成在一起,实现实时交互式图像生成,实现用户交互的即时视觉反馈。 SANA-Sprint在速度质量权衡方面建立了新的帕累托前沿,仅以1步实现了7.59 FID和0.74 GenEval的先进性能 - 优于FLUX-schnell(7.94 FID / 0.71 GenEval),而速度快10倍(H100为0.1s vs 1.1s)。 它还实现了H100上1024 x 1024图像的0.1s(T2I)和0.25s(ControlNet)延迟,RTX 4090上实现了0.31s(T2I),展示了其在AI驱动的消费者应用程序(AIPC)方面的卓越效率和潜力。 代码和预先训练的模型将开源。
纹理网格质量评估(TMQA)对于各种3D网格应用至关重要。 然而,现有的TMQA方法往往难以提供准确和稳健的评估。 受字段在表示3D几何和颜色信息方面的有效性的激励,我们提出了一种新的基于点的TMQA方法,称为字段网格质量度量(FMQM)。 FMQM利用签名的距离字段和新提出的名为最近曲面点颜色字段的色场来实现有效的网格特征描述。 与视觉感知相关的四个特征是从几何和色场中提取的:几何相似性、几何梯度相似性、空间色分布相似性以及空间色梯度相似性。 三个基准数据集的实验结果表明,FMQM优于最先进的(SOTA)TMQA指标。 此外,FMQM具有低计算复杂性,使其成为3D图形和可视化中实际应用的实用和高效的解决方案。 我们的代码可公开查阅:https://github.com/yyyykf/FMQM。
我们引入了一种新的方法来模拟流体和薄弹性固体之间的相互作用,而无需任何渗透。 我们的方法集中在一个带有屏障的优化系统上,该系统旨在找到一种确保不渗透的配置,同时强制流体的不可压缩性并最大限度地减少固体的弹性潜力。 与以前主要关注流体固体接口的速度一致性的方法不同,我们展示了明确解决位置约束的有效性和灵活性,包括固体位置的显式表示和流体水平设置接口的隐式表示。 为了保持流体的体积,我们提出了一个简单而有效的方法来调整相关的水平设置值。 此外,我们开发了一个距离度量,能够测量隐式表示的表面和任意编码的拉格朗日物体之间的分离。 通过将惯性,固体弹性电位,阻尼,阻隔电位和流体不可压缩性集成到一个统一的系统中,我们能够稳健地模拟涉及流体与低维物体(如贝壳和棒)相互作用的广泛过程。 这些过程包括拓扑变化,弹跳,飞溅,滑动,滚动,浮动等。
热交换器是各种工程应用中的关键组件,从能源系统到化学处理,其中高效的热管理至关重要。 换热器的设计目标包括最大限度地提高热交换率,同时尽量减少压降,既需要较大的接口面积,也需要平滑的内部结构。 最先进的设计,如三周期性最小表面(TPMS),已被证明在优化热交换效率方面是有效的。 然而,TPMS设计受到预定义数学方程的限制,限制了它们对自由形边界形状的适应性。 此外,TPMS结构本身并不控制流量方向,这可能导致流量停滞和不良压力下降。 本文介绍了DualMS,这是一种新颖的计算框架,用于优化双通道最小表面,专门用于自由形状的热交换器设计。 据我们所知,这是首次尝试直接优化双流体热交换器的最小表面,而不是依赖TPMS。 我们的方法将热交换最大化问题作为图形上的受限连接最大切割问题,流量限制指导优化过程。 为了解决不良压力下降问题,我们将最小表面建模为分离两种流体的分类边界,并包含一个额外的区域最小化正则化术语。 我们使用了一个神经网络,将空间点映射到二进制流类型,使其能够对流骨架进行分类并自动确定表面边界。 与TPMS相比,DualMS在表面拓扑方面表现出更大的灵活性,并实现了卓越的热性能,在相同的材料成本下保持类似的热交换率,具有更低的压力下降。
生成大规模的多角色交互是角色动画中一项具有挑战性且重要的任务。 多字符交互不仅涉及自然交互动作,还涉及相互协调进行过渡的字符。 例如,舞蹈场景涉及角色与合作伙伴跳舞,以及根据空间和时间观察与新合作伙伴协调的角色。 我们将这种过渡称为协调相互作用,并将其分解为交互合成和过渡规划。 以前的单字符动画方法不考虑对多个字符至关重要的交互。 基于深度学习的交互合成通常侧重于两个字符,不考虑过渡规划。 基于优化的交互合成依赖于手动设计可能不能很好地概括的目标函数。 虽然人群模拟涉及更多的角色,但它们的相互作用是稀疏和被动的。 我们确定了多字符交互合成的两个挑战,包括缺乏数据和密切和密集相互作用之间的过渡规划。 现有数据集要么没有多个字符,要么没有密切和密集的交互。 多字符密切和密集相互作用的过渡规划需要空间和时间方面的考虑。 我们提出了一个条件生成管道,包括一个可协调的多字符交互空间,用于交互合成和过渡规划网络进行协调。 我们的实验证明了我们提出的多字符交互合成管道的有效性,我们的方法促进的应用程序显示了可扩展性和可转移性。
在本文中,我们介绍了TexPro,这是一种用于高保真材料生成的新方法,用于给定文本提示的输入3D网格。 与通常使用烘焙照明生成RGB纹理的现有文本条件纹理生成方法不同,TexPro能够通过程序材料建模生成不同的纹理图,从而实现基于物理的渲染,重新点亮以及程序材料固有的额外好处。 具体来说,我们首先通过采用最新的文本到图像模型生成多视图参考图像,给定输入文本提示。 然后,我们通过基于渲染的优化与最近的可微分程序材料得出纹理图。 为此,我们设计了几种技术来处理生成的多视图图像和3D网格之间的错位,并引入了一种新颖的材料代理,通过探索部分级别的理解和对象感知材料推理来增强材料分类和匹配。 实验证明了拟议方法相对于现有SOTA的优越性及其重新照明的能力。
我们介绍了Perm,人类3D头发的学习参数表示,旨在促进各种与头发相关的应用。 与以前联合模拟全球头发结构和局部卷发模式的工作不同,我们建议使用基于PCA的链表示在频域中将它们分开,从而允许更精确的编辑和输出控制。 具体来说,我们利用我们的链表示来拟合和分解头发几何纹理成低到高频的头发结构,分别称为引导纹理和残余纹理。 这些分解的纹理后来用不同的生成模型参数化,模拟头发梳理过程中的常见阶段。 我们进行广泛的实验来验证Perm的架构设计,并最终在解决任务无关问题之前将经过训练的模型作为通用部署,进一步展示其在单视图头发重建,发型编辑和头发条件图像生成等任务中的灵活性和优越性。 更多细节可以在我们的项目页面找到:https://cs.yale.edu/homes/che/projects/perm/。
脊椎在负重条件下从双平面X射线图像进行三维重建,对于脊柱疾病的临床评估具有重要意义。 然而,目前的全自动重建方法只能达到毫米级精度,难以达到临床标准。 这项研究开发并验证了一种全自动方法,用于从双平面X射线图像中重建腰椎的高精度3D。 该方法涉及腰部分解和原始X射线图像的地标检测,然后是可变形模型和地标加权2D-3D注册方法。 通过通过注册CT分段椎体模型与双平面X射线图像获得的金标准验证了重建精度。 拟议的方法实现了0.80mm的3D重建精度,与主流方法相比有了显着的改进。 这项研究将有助于在负重位置的腰部的临床诊断。
基于CVT(Centroidal Voronoi Tessellation)的remeshing通过利用Voranoi-Delaunay框架优化顶点分布并产生具有常规三角形的均匀分布顶点,优化网格质量。 目前基于CVT的方法可以分为两类:(1)确保高质量但需要大量计算的确切方法(例如,Geodesic CVT, Restricted Voronoi Diagrams);(2)试图降低计算复杂性但导致公平质量的近似方法。 为了解决这种权衡,我们提出了一种基于CVT的表面重塑方法,通过具有曲率适应性原始表面面的3D Centroidal Voronoi细胞的多次剪切时间,实现质量和效率之间的平衡优化。 该方法的核心思想是,我们根据局部曲率自适应地调整剪切时间数,并使用相邻面的正常向量之间的角关系来表示局部曲率的大小。 实验结果证明了我们方法的有效性。
很少镜头的适应仍然是视觉语言模型(VLM)的核心挑战,特别是在有限的监管和嘈杂的支持样本下。 我们提出了PromptFuseNL,这是一个统一的框架,通过将预测提示调优与双分支正和负学习相结合,增强了很少的概括。 该方法通过任务条件残差、多阶段跨模态协调和语义硬负挖掘来完善类原型。 为了解决标签噪声,我们引入了一种无监督实例重重策略,可以降低不可靠的支持示例,而无需额外的标签或结构更改。 PromptFuseNL通过轻量级模块融合了视觉和文本线索,以实现高效和歧视性的预测。 在15个基准测试中,它始终如一地超越了所有拍摄设置中现有的基于提示和适配器的方法,同时保持高效,与完全快速调谐相比,实现了高达300倍的更快训练和1000倍的FLOP,实现了新的最先进的强大和可扩展的单镜头视觉语言适应。
我们的大脑有一个内部全球定位系统,使我们能够实时感知和导航3D空间。 移动机器人能否在动态环境中复制这样的生物壮举? 我们介绍了第一个用于实时表面重建和导航的空间推理框架,该框架专为地面移动机器人捕获的户外激光雷达扫描数据而设计,能够处理行人等移动物体。 我们基于重建的方法与边界向量细胞(BVC)在内侧内皮层(MEC)所有层上执行的关键细胞功能很好地对齐,用于表面传感和跟踪。 为了应对由于物体运动导致的稀疏单帧激光雷达点和过时数据造成的模糊边界所带来的挑战,我们通过可视推理集成了实时单帧网格重建,并通过实时3D自由空间测定与机器人导航辅助。 这可以实现跨多个帧的场景和自由空间的连续和增量更新。 我们的方法的关键是利用LiDAR的视线(LoS)向量,可以实现实时表面正常估计,以及稳健和瞬时无氧空间更新。 我们展示了两个实际应用:实时3D场景重建和在现实条件下的自主户外机器人导航。 合成和真实场景的综合实验突出了我们的方法在速度和质量上优于现有的实时激光雷达处理方法。