数据以连续流的形式到达我们的感官,从一个瞬间平滑地转换到下一个瞬间。这些平滑变换可以被视为我们所处环境的连续对称性,定义了随时间变化的刺激之间的等价关系。在机器学习中,尊重数据对称性的神经网络架构被称为等变网络,并在泛化能力和样本效率方面具有可证明的优势。然而迄今为止,等变性仅被考虑用于静态变换和前馈网络,限制了其在序列模型(如循环神经网络RNN)和相应的时间参数化序列变换中的适用性。在本工作中,我们将等变网络理论扩展到"流"的领域——捕获随时间自然变换的单参数李子群,如视觉运动。我们首先证明标准RNN通常不具备流等变性:它们的隐藏状态无法以几何结构化的方式对移动刺激进行变换。然后我们展示了如何引入流等变性,并证明这些模型在训练速度、长度泛化和速度泛化方面显著优于非等变模型,无论是下一步预测还是序列分类任务。我们将这项工作视为构建尊重时间参数化对称性的序列模型的第一步,这些对称性支配着我们周围的世界。
我们报告了在构建通用机器人策略方面的最新进展,即GR-3的开发。GR-3是一个大规模vision-language-action (VLA)模型。它在泛化到新物体、新环境和涉及抽象概念的指令方面展现出卓越能力。此外,它可以通过最少的人类轨迹数据进行高效微调,实现快速且经济高效的新场景适应。GR-3在长周期和灵巧任务处理方面也表现优异,包括需要双手操作和移动的任务,展现出稳健可靠的性能。这些能力通过多方面的训练方案实现,包括与网络规模视觉语言数据的协同训练、通过VR设备收集的人类轨迹数据进行高效微调,以及与机器人轨迹数据的有效模仿学习。此外,我们介绍了ByteMini,这是一款具有卓越灵活性和可靠性的多功能双手移动机器人,与GR-3集成后能够完成广泛的任务。通过大量真实世界实验,我们证明GR-3在各种具有挑战性的任务上超越了最先进的基准方法π_0。我们希望GR-3能够成为构建通用机器人、协助人类日常生活的一步。
我们提出了DINO-world,这是一个强大的通用视频世界模型,经过训练可以在DINOv2的潜在空间中预测未来帧。通过利用预训练图像编码器并在大规模未筛选视频数据集上训练未来预测器,DINO-world学习了从驾驶场景、室内场景到模拟环境等多种场景的时间动态。我们证明DINO-world在各种视频预测基准测试(如分割和深度预测)上优于先前模型,并展现出对直觉物理的深刻理解。此外,我们还展示了可以在观察-动作轨迹上微调预测器。由此产生的动作条件化世界模型可通过在潜在空间中模拟候选轨迹来用于规划。
自回归(AR)模型长期以来主导着大语言模型领域,推动了各类任务的进展。最近,基于扩散的语言模型作为一种有前景的替代方案出现,但其相对于AR模型的优势仍未得到充分探索。本文系统研究了数据受限场景下的掩码扩散模型——在有限数据上重复训练的情况——发现当计算资源充足但数据稀缺时,扩散模型显著优于AR模型。扩散模型能更有效地利用重复数据,获得更低的验证损失和更优的下游性能。我们将此优势解释为隐式数据增强:与AR模型固定的从左到右分解不同,掩码扩散使模型接触到多样化的标记顺序和预测任务分布。我们发现了扩散模型的新缩放定律,并推导出扩散模型开始优于AR模型的临界计算阈值闭式表达式。这些结果表明,当数据(而非计算)成为瓶颈时,扩散模型为标准AR范式提供了一个极具吸引力的替代方案。代码发布于:https://diffusion-scaling.github.io。
空间智能正在成为人工智能领域具有变革性的前沿方向,然而其发展仍受限于大规模3D数据集的稀缺性。与丰富的2D图像不同,获取3D数据通常需要专用传感器和繁琐的标注工作。本研究提出了一种可扩展的流程,通过集成深度估计、相机标定和尺度标定,将单视图图像转换为全面且具有真实尺度和外观的3D表示——包括点云、相机位姿、深度图和伪RGBD。我们的方法弥合了海量图像资源与日益增长的空间场景理解需求之间的鸿沟。通过从图像自动生成真实、尺度感知的3D数据,我们显著降低了数据收集成本,并为推进空间智能开辟了新途径。我们发布了两个生成的空间数据集COCO-3D和Objects365-v2-3D,并通过大量实验证明生成的数据可受益于从基础感知到基于MLLM的推理等各种3D任务。这些结果验证了我们的流程作为开发能够感知、理解并与物理环境交互的AI系统的有效解决方案。
3D高斯电镀(3DGS)已成为3D表示的核心技术。 其有效性在很大程度上取决于精确的相机姿势和精确的点云初始化,这些初始化通常来自预训练的多视图立体声(MVS)模型。 然而,在数百个户外图像的无置重建任务中,现有的MVS模型可能会遇到内存限制,并且随着输入图像数量的增长而失去准确性。 为了解决这一限制,我们提出了一个新的无姿势的3DGS重建框架,将预训练的MVS先验与概率Procrustes映射策略集成在一起。 该方法将图像输入子集,将子映射到全局空间中,并共同优化几何形状并与3DGS的姿势。 从技术上讲,我们将数千万点云的映射作为概率Procrustes问题并解决闭态对齐。 通过采用概率耦合以及软垃圾箱机制来拒绝不确定的对应关系,我们的方法在全球范围内对齐点云,并在数分钟内对齐数百个图像。 此外,我们提出了3DGS和相机姿势的联合优化框架。 它从具有置信的锚点构建高斯人,并将3DGS可微分渲染与分析的Jacobian集成,以共同完善场景和姿势,从而实现准确的重建和姿势估计。 Waymo和KITPI数据集的实验表明,我们的方法实现了未置图像序列的精确重建,为未置的3DGS重建设定了新的技术状态。
野生动物观测在生物多样性保护中发挥着重要作用,需要强有力的方法来监测野生动物种群和物种间相互作用。 计算机视觉的最新进展大大促进了野生动物观察任务的自动化,如动物检测和物种识别。 然而,从足迹和粪便等间接证据中准确识别物种仍然相对缺乏探索,尽管它在为野生动物监测做出贡献方面具有重要意义。 为了弥补这一差距,我们引入了AnimalClue,这是第一个从间接证据的图像中识别物种的大型数据集。 我们的数据集由159,605个边界框组成,包括五类间接线索:脚印,粪便,鸡蛋,骨头和羽毛。 它涵盖了968个物种,200个家庭和65个订单。 每幅图像都附有物种级标签、边界框或分割面具,以及细粒度的性状信息,包括活动模式和栖息地偏好。 与主要关注直接视觉特征(例如动物外观)的现有数据集不同,AnimalClue在分类,检测和实例分割任务方面提出了独特的挑战,因为需要识别更详细和微妙的视觉特征。 在我们的实验中,我们广泛评估具有代表性的视觉模型,并从它们的痕迹中识别动物识别中的关键挑战。 我们的数据集和代码可在https://dahlian00.github.io/AnimalCluePage/上找到。
基于点表示在几何数据结构中一直起着至关重要的作用。 大多数点云学习和处理方法通常利用无序和无约束的性质来表示3D形状的底层几何形状。 然而,如何从非结构化点云分布中提取有意义的结构信息并将其转化为语义上有意义的点分布仍然是一个未被探索的问题。 我们介绍了PDT,一个带有扩散模型的点分布转换的新框架。 给定一组输入点,PDT学习将点设置从其原始几何分布转换为语义有意义的目标分布。 我们的方法利用具有新颖的架构和学习策略的扩散模型,通过去噪过程有效地将来源和目标分布相关联。 通过广泛的实验,我们表明我们的方法成功地将输入点云转化为各种形式的结构化输出 - 从表面对齐的关键点和内部稀疏接头到连续的特征线。 这些结果展示了我们的框架捕获几何和语义特征的能力,为需要结构化点分布的各种3D几何处理任务提供了强大的工具。 代码将在以下链接提供:https://github.com/shanemankiw/PDT。
3D高斯拼接(3DGS)通过其灵活的表示有效地合成了新颖的视图,但未能准确重建场景几何。 虽然像PGSR这样的现代变体引入了额外的损失,以确保通过高斯融合获得适当的深度和正常的地图,但它们仍然忽略了单独的放置优化。 这导致分布不均的高斯人偏离了潜在的表面,使重建精致和场景编辑复杂化。 在Point Set Surfaces的开创性工作激励下,我们提出了高斯套装表面重建(GSSR),该方法旨在沿着潜在表面均匀分布高斯,同时将其主导正常值与表面正常对齐。 GSSR通过像素级和高斯级单视图正态一致性和多视图光度一致性的组合来强制细粒度几何对齐,优化本地和全球视角。 为了进一步完善表示,我们引入了不透明度的正则化损失,以消除冗余的高斯人,并将周期性深度和正常引导的高斯再初始化应用于更清洁,更均匀的空间分布。 我们的重建结果表明,高斯放置的几何精度显著提高,可实现直观的场景编辑和高效生成基于高斯的3D环境。 广泛的实验验证了GSSR的有效性,展示了增强的几何精度,同时保持了高质量的渲染性能。
稳健和资源效率是现代机器学习模型的两个非常理想的属性。 然而,共同实现它们仍然是一个挑战。 在本文中,我们将高学习率定位为同时实现虚假相关性和网络可压缩的稳健性。 我们证明,大学习率也会产生理想的表示属性,如不变的特征利用率、类分离和激活间距。 重要的是,我们的研究结果表明,与其他超参数和正则化方法相比,大学习率与它们一致地满足这些属性。 除了在各种虚假相关数据集,模型和优化器中证明大学习率的积极影响外,我们还提出了强有力的证据,证明以前记录的标准分类任务中大学习率的成功可能是因为它对解决训练数据集中隐藏/罕见的虚假相关性的影响。
我们介绍了Cinema船长,这是短片一代的一代框架。 给定电影故事情节的详细文字描述,我们的方法首先生成一系列关键帧,概述整个叙事,这确保了故事情节和视觉外观(例如场景和人物)的远程连贯性。 我们把这一步称为自上而下的关键帧规划。 然后,这些关键帧作为视频合成模型的调节信号,该模型支持长上下文学习,以产生它们之间的时空动力学。 这个步骤被称为自下而上的视频合成。 为了支持稳定高效地生成多场景长叙事电影作品,我们推出了多模态扩散变压器(MM-DiT)的交错培训策略,专门用于长串视频数据。 我们的模型是在由交错数据对组成的特殊策划的电影数据集上进行训练的。 我们的实验表明,Captain Cinema在以高质量和效率自动创作视觉连贯和叙事一致的短片方面表现有利。 项目页面:https://thecinema.ai
多视图场景重建的最新进展是显著的,但现有方法在处理输入图像流时面临局限性。 这些方法要么依赖于耗时的离线优化,要么仅限于较短的序列,阻碍了它们在现实生活中的适用性。 在这项工作中,我们提出了LONG3R(LONG序列流3D重建),这是一个专为在较长序列中流式传输多视图3D场景重建而设计的新模型。 我们的模型通过循环操作实现实时处理,通过每次新的观察来维护和更新内存。 我们首先使用记忆闸门机制来过滤相关的内存,该记忆与新的观察一起被输入到用于粗细相互作用的双源精炼解码器中。 为了有效地捕获长序列内存,我们提出了一个3D时空记忆,可以动态修剪冗余的空间信息,同时根据适应性地调整场景中的分辨率。 为了提高模型在长序列上的表现,同时保持培训效率,我们采用两阶段课程培训策略,每个阶段针对特定能力。 实验证明,LONG3R优于最先进的流式传输方法,特别是更长的序列,同时保持实时推理速度。 项目页面:https://zgchen33.github.io/LONG3R/。
在“scale-is-everything”范式的推动下,现代机器学习越来越需要越来越大的数据集和模型,产生了令人望而却步的计算和存储需求。 数据集蒸馏通过将原始数据集压缩到一组小合成样本中来减轻这种情况,同时保留其全部效用。 然而,现有方法要么在固定存储预算下最大化性能,要么寻求适当的合成数据表示,用于冗余删除,而不共同优化这两个目标。 在这项工作中,我们提出了用于数据集蒸馏的联合速率-效用优化方法。 我们将合成样品参数化为可优化的潜在代码,由极其轻量级的网络解码。 我们估计量化的熵熵作为速率测量值,并将任何现有的蒸馏损失作为公用事业测量,通过拉格朗日乘数进行交易。 为了实现公平、跨方法的比较,我们引入了每个类(bpc)的比特,这是一个精确的存储度量,可以解释样本、标签和解码器参数成本。 在 CIFAR-10、CIFAR-100 和 ImageNet-128 上,我们的方法在相当精度下实现了比标准蒸馏更大的压缩高达 170 倍的压缩。 在多样化的 bpc 预算、蒸馏损失和骨干架构中,我们的方法始终如一地建立了更好的利率-效用权衡。
本文介绍了DINO-SLAM,这是一种DINO-informed设计策略,通过更全面的场景表示来增强SLAM系统中的神经隐性(神经辐射场 - NeRF)和显式表示(3D高斯溅射 - 3DGS)。 有意地,我们依靠场景结构编码器(SSE),将DINO功能丰富到增强型DINO功能(EDINO)中,以捕获分层场景元素及其结构关系。 基于它,我们提出了两个集成EDINO功能的NeRF和3DGS SLAM系统的基本范式。 与最先进的方法相比,我们的 DINO 管道在 Replica、ScanNet 和 TUM 上实现了卓越的性能。
稀疏体素表示的最新进展显着提高了3D内容生成的质量,使高分辨率建模与细粒度几何。 然而,由于两阶段扩散管道中注意力机制的二次复杂性,现有框架存在严重的计算效率低下。 在这项工作中,我们提出了Ultra3D,这是一种高效的3D生成框架,可以显著加速稀疏的体素建模,而不会影响质量。 我们的方法利用紧凑的 VecSet 表示,在第一阶段有效地生成粗体对象布局,减少令牌计数并加速 voxel 坐标预测。 为了在第二阶段完善每个体式的潜在特征,我们引入了Part Attention,这是一种具有几何意识的局部注意力机制,在语义一致的部分区域中限制注意力计算。 这种设计保留了结构连续性,同时避免了不必要的全球关注,在潜在一代中实现了高达6.7倍的加速。 为了支持这种机制,我们构建了一个可扩展的零件注释管道,将原始网格转换为部分标记的稀疏体。 广泛的实验表明,Ultra3D支持1024分辨率的高分辨率3D生成,并在视觉保真度和用户偏好方面实现了最先进的性能。
在多模态大语言模型(MLLMs)中实现类人感知和推理仍然是人工智能的核心挑战。 虽然最近的研究主要集中在增强MLLM的推理能力,但一个基本问题仍然存在:多模态大语言模型能否像人类一样真正感知世界? 本文将重点从推理转移到感知。 我们不是专门为推理构建基准,而是引入了图灵眼测试(TET),这是一个具有挑战性的感知导向基准,包括四个诊断任务,评估MLLM在人类直观处理的合成图像上的性能。 我们的研究结果表明,最先进的MLLM在我们的感知任务上表现出灾难性的失败,对人类来说微不足道。 无论是对以前的基准有效语言语言主干的上下文学习和训练,都未能提高我们任务的性能,同时微调视觉塔能够快速适应,这表明我们的基准对视觉塔的概括提出了挑战,而不是语言骨干的知识和推理能力 - 这是当前MLLM和人类感知的关键差距。 我们在这个版本中发布了具有代表性的TET任务子集,并将引入更多样化的任务和方法,以增强未来工作中的可视化推广。
零拍摄域适应是一种在不利用目标域图像数据的情况下将模型适应目标域的方法。 为了在没有目标图像的情况下实现适应,现有的研究利用CLIP的嵌入空间和文本描述来模拟目标样式特征。 尽管之前在零射域适应方面取得了成就,但我们观察到,这些文本驱动的方法难以捕捉复杂的现实世界变化,并由于其对齐过程而显着增加适应时间。 我们不是依靠文本描述,而是探索利用图像数据的解决方案,它提供了多样化和更细粒度的风格线索。 在这项工作中,我们提出了SIDA,一种利用合成图像的新型高效零拍摄域适应方法。 为了生成合成图像,我们首先创建详细的、源类的图像,并应用图像翻译以反映目标域的风格。 然后,我们利用这些合成图像的样式特征作为目标域的代理。 基于这些功能,我们引入了Domain Mix和Patch Style Transfer模块,这些模块能够对现实世界的变化进行有效的建模。 特别是,Domain Mix 混合了多种样式来扩展域内表示,Patch Style Transfer 为单个 Patch 分配不同的样式。 我们通过在各种零镜头适应场景中展示最先进的性能来展示我们方法的有效性,特别是在具有挑战性的领域。 此外,我们的方法通过显著缩短整体适应时间来实现高效率。
我们引入了SafeWork-R1,这是一种尖端的多模态推理模型,展示了能力和安全性的共同进化。 它由我们提议的SafeLadder框架开发,该框架包括大规模,渐进,安全导向的强化学习后培训,由一系列多原则验证器提供支持。 与以前的对齐方法(如RLHF)简单地学习人类偏好不同,SafeDader使SafeWork-R1能够发展内在的安全推理和自我反省能力,从而产生安全“啊哈”时刻。 值得注意的是,SafeWork-R1在安全相关基准测试方面比其基本型号Qwen2.5-VL-72B实现了46.54%的平均改进,与GPT-4.1和Claude Opus 4等领先的专有型号相比,提供了最先进的安全性能。 为了进一步提高其可靠性,我们实施了两种不同的推理时间干预方法和审议性搜索机制,执行阶梯级验证。 最后,我们进一步开发SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B。 所有生成的模型都表明,安全性和能力可以协同发展,突出了我们框架在构建强大、可靠和值得信赖的通用人工智能方面的可推广性。
大型语言模型的最新进展催化了多模态LLM(MLLM)的开发,将文本,语音和视觉集成在统一框架中。 随着MLLM从狭义、单语、特定任务的系统演变为通用指令跟踪模型,一个关键的前沿在于评估其在长和短环境中的多语种和多模态能力。 然而,现有的基准在共同评估这些维度方面却不够:它们通常仅限于英语,通常一次侧重于单一模式,依赖于短形式上下文,或缺乏人类注释 - 阻碍了跨语言,模式和任务复杂性对模型性能的全面评估。 为了解决这些差距,我们引入了MCIF(Multimodal Crosslingual Instruction Following),这是第一个基于科学讲座的多语种人类注释基准,旨在评估跨语言,多模态设置中的指令遵循,而不是短形式和长形式的输入。 MCIF涵盖三种核心模式 - 语音,视觉和文本 - 以及四种不同语言(英语,德语,意大利语和中文),能够全面评估MLLM跨语言解释指令的能力,并将其与多模态上下文信息相结合。 MCIF在CC-BY 4.0许可下发布,以鼓励MLLMs开发的开放研究和进展。
图形用户界面(UI)软件经历了从传统的二维(2D)桌面/网络/移动界面到空间三维(3D)环境的根本转变。 虽然现有工作在自动化2D软件生成(如HTML/CSS和移动应用程序界面代码合成)方面取得了显着成功,但3D软件的生成仍然没有得到探索。 目前用于3D软件生成的方法通常生成整个3D环境,不能修改或控制软件中的特定元素。 此外,这些方法难以处理现实世界中固有的复杂的空间和语义限制。 为了应对挑战,我们介绍了Scenthesis,这是一种新颖的要求敏感的3D软件合成方法,在用户规格和生成的3D软件之间保持正式的可追溯性。 Scenethesis建立在ScenethesisLang上,ScenethesisLang是一种特定领域语言,作为粒度约束感知中间表示(IR),以弥合自然语言要求和可执行的3D软件。 它既是一种全面的场景描述语言,既可以进行3D软件元素的细粒度修改,也可以作为能够表达复杂空间约束的正式约束表达规范语言。 通过将3D软件合成分解为在ScenethesisLang上运行的阶段,Senethesis可以实现独立的验证,有针对性的修改和系统的约束满意度。 我们的评估表明,场景分析可以准确捕获超过80个
零拍摄图像字幕(ZIC)越来越多地利用文本到图像(T2I)模型生成的合成数据集来减轻对昂贵的手动注释的需求。 然而,这些T2I模型经常产生与其相应的输入标题(例如,缺失的对象,不正确的属性)表现出语义错位的图像,导致嘈杂的合成图像捕获对,可能会阻碍模型训练。 现有的数据集修剪技术主要用于删除Web抓取数据中的嘈杂文本。 然而,这些方法不适合合成数据的独特挑战,其中字幕通常形成良好,但图像可能是不准确的表示。 为了解决这一差距,我们引入了SynC,这是一个专门用于完善ZIC合成图像捕获数据集的新框架。 SynC不是传统的过滤或再生,而是专注于将字幕重新分配给合成图像池中已经存在的最语义一致的图像。 我们的方法采用一对多的映射策略,最初为每个标题检索多个相关的候选图像。 然后,我们应用一个循环一致性激励的对齐评分器,通过验证其通过图像到文本检索原始标题的能力来选择最佳图像。 广泛的评估表明,SynC在标准基准(MS-COCO,Flickr30k,NoCaps)上持续并显着提高了各种ZIC模型的性能,在几个场景中实现了最先进的结果。 SynC为改进合成数据提供了有效的策略,以增强ZIC。
图像字幕是计算机视觉和自然语言处理交汇处的一项任务,需要对视觉场景和语言结构进行复杂的理解。 虽然现代方法以大规模变压器架构为主,但本文记录了基础图像字幕模型的系统,迭代开发,从简单的CNN-LSTM编码器解码器发展到基于注意力的竞争系统。 我们展示了一系列五种型号,从Genesis开始,以Nexus结束,Nexus是一个具有EfficientNetV2B3骨干和动态注意力机制的高级模型。 我们的实验绘制了架构增强的影响,并展示了经典CNN-LSTM范式中的一个关键发现:仅仅在没有相应注意机制的情况下升级视觉主干,就可以降低性能,因为单向瓶颈无法传输更丰富的视觉细节。 这种洞察力验证了建筑向注意力的转变。 在MS COCO 2017数据集上训练,我们的最终模型Nexus实现了31.4的BLEU-4分数,超过了几个基本基准,并验证了我们的迭代设计过程。 这项工作为理解支撑现代视觉语言任务的核心架构原则提供了清晰、可复制的蓝图。
文本到图像模型的一个常见且有争议的用途是通过明确命名艺术家来生成图片,例如“以Greg Rutkowski的风格”。 我们引入了提示艺术家识别的基准:仅从图像的提示中就调用了哪些艺术家名称。 该数据集包含1.95亿张图片,涵盖110位艺术家,跨越四个通用设置:坚持的艺术家,不断增加的提示复杂性,多艺术家提示和不同的文本到图像模型。 我们评估特征相似性基线、对比风格描述符、数据归因方法、监督分类器和很少拍摄的典型网络。 广义模式各不相同:监督和很少拍摄的模型在视觉艺术家和复杂的提示上表现出色,而当艺术家的风格发音时,风格描述符会更好地传递;多艺术家提示仍然是最具挑战性的。 我们的基准揭示了大量的空间,并提供了一个公共测试平台,以推进文本到图像模型的负责任节制。 我们发布数据集和基准,以促进进一步研究:https : / /graceduansu.github.io/IdentingPromptedArtists/
我们介绍了Iwin Transformer,一种新颖的无位置嵌入式分层视觉变压器,可以通过创新的交错窗口注意和深度可分离卷积的协作,直接从低分辨率进行微调。 这种方法使用注意力来连接远处的令牌,并将卷积应用于连接相邻令牌,使单个模块内实现全局信息交换,克服了Swin Transformer要求两个连续块来近似全局关注的限制。 视觉基准的广泛实验表明,Iwin Transformer在图像分类(ImageNet-1K上的87.4个前1精度),语义分割和视频动作识别等任务中表现出强大的竞争力。 我们还验证了Iwin中核心组件作为独立模块的有效性,该模块可以在类条件图像生成中无缝替换自注意力模块。 Iwin Transformer引入的概念和方法有可能激发未来的研究,如Iwin 3D在视频生成中的应用。 代码和模型可在https://github.com/cominder/Iwin-Transformer上找到。
将逆渲染与多视图光刻板(MVPS)集成,比依赖固定环境照明的逆渲染方法产生更精确的3D重建。 然而,使用MVPS的高效反向渲染仍然具有挑战性。 为了填补这一空白,我们引入了高斯多视图光度立体声(PS-GS),它高效并共同估计了由不同方向灯(多光)照明的物体的几何形状,材料和照明。 我们的方法首先将标准的2D高斯溅射模型重建为初始几何形状。 基于初始化模型,它然后通过包含照明计算多层感知器的完整渲染方程进行递延反向渲染。 在整个优化过程中,我们通过未校准的光度立体声估计正常值来规范渲染正常地图。 我们还提出了用于单向光的2D高斯射线追踪,以完善事件照明。 多视图和多光图像的正则化和使用减轻了逆渲染的不良问题。 经过优化后,重建的对象可用于新颖的视图合成,重新点亮以及材料和形状编辑。 合成和真实数据集的实验表明,我们的方法在重建精度和计算效率方面优于先前的工作。