计算机科学
Computer Science
人工智能
Artificial Intelligence
计算与语言
Computation and Language
计算复杂性
Computational Complexity
3D GAN反转将单个图像投射到预训练的3D GAN的潜在空间中,以实现单镜头新颖的视图合成,这需要具有高保真度和具有逼真性和多视图一致性的闭合区域的可见区域。 然而,现有方法侧重于可见区域的重建,而遮挡区域的产生仅依赖于3D GAN之前的生成。 因此,由于低比特率潜伏代码导致的信息丢失,生成的遮挡区域往往表现出较差的质量。 为了解决这个问题,我们引入了翘曲和绘画策略,将图像内窥视纳入3D GAN反转,并提出一种新的3D GAN反转方法WarpGAN。 具体来说,我们首先使用3D GAN反转编码器将单视图图像投影到作为3D GAN输入的潜伏代码中。 然后,我们使用3D GAN生成的深度图对新视图进行翘曲。 最后,我们开发了一种新颖的SVINet,它利用对称前和多视图图像对应w.r.t.相同的潜在代码来执行翘曲图像中阻塞区域的涂漆。 定量和定性实验表明,我们的方法一贯优于几种最先进的方法。
视觉语言预训练模型(VLP)表现出很强的多模态理解和零镜头概括,但仍然容易受到对抗性例子的影响,这引起了人们对其可靠性的担忧。 最近的工作,测试时间反击(TTC),通过产生扰动来提高鲁棒性,最大限度地利用PGD对对抗输入的嵌入偏差,将它们推离对抗性表示。 然而,由于对抗性攻击和反击之间的优化目标存在根本差异,仅根据对抗性输入的梯度生成反击将搜索限制在狭窄的空间。 因此,反击可能过度适应有限的对抗模式,缺乏多样性,无法完全抵消广泛的扰动。 在这项工作中,我们认为,加强反击的多样性和覆盖范围对于提高测试时间防御的对抗性稳健性至关重要。 因此,我们提出了定向正交反击(DOC),它通过结合正交梯度方向和基于动量的更新来增强反击优化。 这种设计扩大了对反击空间的探索,增加了扰动的多样性,这有利于发现更可推广的反击,并最终提高了中和对抗扰动的能力。 同时,我们基于平均后因应相似性提出了方向敏感性评分,通过改善示例歧视和自适应调节反击强度来提高DOC。 对16个数据集进行的广泛实验表明,DOC在各种攻击下提高了对抗性稳健性,同时保持了具有竞争力的清洁精度。 代码可在https://github.com/bookman233/DOC。
3D高斯电镀提供了强大的速度质量权衡,但难以重建半透明表面,因为大多数方法假设每个像素的单个深度,当多个表面可见时就会失败。 我们提出了TSPE-GS(用于高斯飞溅的透明表面概率提取),它均匀地采样透射率,以模拟像素的不透明度和深度的多模态分布,取代先前的单峰假设并解决跨表面深度模糊。 通过逐步融合截断的签名距离功能,TSPE-GS在统一框架内单独重建外部和内部表面。 该方法将其扩展到其他基于高斯的重建管道,而无需额外的训练开销。 对公共和自收集的半透明且不透明数据集进行的广泛实验表明,TSPE-GS显著改善了半透明几何重建,同时保持不透明场景的性能。
3D医学图像的多器官分割是各种临床自动化管道中有意义的应用的基础。 虽然深度学习已经实现了卓越的性能,但使用神经网络将整个3D体积体素分割的时间和内存消耗可能很大。 在某些兴趣点的情况下,分类器已被开发为替代方案,但速度和准确性之间的权衡仍然是一个问题。 因此,我们提出了一种新的快速多器官分割框架,使用分层稀疏采样和残余变压器。 与全量分析相比,分层稀疏采样策略可以成功地减少计算时间,同时使用多个分辨率水平保留有意义的分层上下文。 剩余变压器分割网络的架构可以在稀疏描述符中从不同级别的信息中提取和组合信息,同时保持较低的计算成本。 在包含10253张CT图像和公共数据集TotalSegmentator的内部数据集中,与当前的快速器官分类器相比,所提出的方法成功地提高了定性和定量分割性能,在CPU硬件上以2.24秒的水平快速速度。 提出了实现实时精细器官分割的潜力。
基于图形卷积网络(GCN)的方法通过利用人类骨骼的自然图形结构,在3D人类姿势估计中显示出强劲的性能。 然而,它们的局部接受场限制了他们捕获处理遮挡和深度模糊所必需的远程依赖的能力。 他们还表现出光谱偏差,它优先考虑低频组件,同时努力对高频细节进行建模。 在本文中,我们介绍了PoseKAN,一个自适应图Kolmogorov-Arnold网络(KAN),该框架将KAN扩展到基于图形的学习,用于2D到3D的从单个图像中提升。 与使用固定激活函数的GCN不同,KAN在图形边缘使用可学习函数,允许数据驱动的自适应特征转换。 这增强了模型的适应性和表现力,使其在学习复杂的姿势变化时更具表现力。 我们的模型采用多跳功能聚合,确保身体关节能够利用来自本地和远处邻居的信息,从而提高空间意识。 它还集成了剩余的PoseKAN块,以实现更深入的功能改进,以及改进特征选择性和对比度的全局响应规范化。 基准数据集上的大量实验证明了我们的模型与最先进的方法的竞争表现。
最近,基于国家空间模型(SSM)的Mamba架构因其线性复杂性和强大的全球建模能力而获得了3D人类姿势估计的关注。 然而,现有的基于SSM的方法通常应用手动设计的扫描操作,将检测到的2D姿势序列扁平成纯时间序列,无论是本地还是全球。 这种方法破坏了人类姿势的固有空间结构,并纠缠了时空特征,使得难以捕捉复杂的姿势依赖关系。 为了解决这些限制,我们提出了骷髅结构感知步幅SSM(SAS-SSM),它首先采用结构感知时空卷积来动态捕获关节之间的基本局部相互作用,然后应用基于步幅的扫描策略来构建多尺度的全球结构表示。 这可以实现本地和全局构图信息的灵活建模,同时保持线性计算复杂性。 基于SAS-SSM,我们的模型SasMamba实现了具有竞争力的3D姿势估计性能,与现有混合模型相比,参数要少得多。 源代码可在https://hucui2022.github.io/sasmamba_proj/上查阅。
无监督泛光分割旨在将图像分割成语义上有意义的区域和不同的对象实例,而无需对手动注释数据进行训练。 与先前关于无监督泛光场景理解的工作相反,我们消除了对以对象为中心的训练数据的需求,从而实现对复杂场景的无监督理解。 为此,我们提出了第一个无监督的泛光学方法,直接训练以场景为中心的图像。 特别是,我们提出了一种方法,在复杂的以场景为中心的数据上获得高分辨率的泛光学伪标签,结合视觉表示,深度和运动线索。 利用伪标签训练和泛光学自我训练策略,可以采用一种新颖的方法,可以准确预测复杂场景的泛光分割,而无需任何人类注释。 我们的方法显着提高了泛光质量,例如,在PQ中,城市景观的无监督全景分割的最新技术水平超过了9.4%。
密集的视频字幕在未修剪的视频中共同定位和字幕突出事件。 最近的方法主要侧重于利用额外的先验知识和先进的多任务架构来实现有竞争力的性能。 然而,这些管道依赖于使用帧级或碎片化视频特征的隐式建模,未能在视觉上下文中捕获事件序列和综合语义的时间一致性。 为了解决这个问题,我们提出了一个明确的时间语义建模框架,称为上下文-感知跨模式交互(CACMI),它利用了视频和文本语料库中的语言语义中的潜在时间特征。 具体来说,我们的模型由两个核心组件组成:跨模态帧聚合聚合相关帧,通过跨模态检索提取时间一致,事件对齐的文本特征;上下文感知功能增强利用查询引导的注意力将视觉动力学与伪事件语义集成。 ActivityNet Captions 和 YouCook2 数据集上的大量实验表明, CACMI 在密集的视频字幕任务上实现了最先进的性能。
嵌入式视觉导航仍然是一项具有挑战性的任务,因为代理商必须探索知识有限的未知环境。 现有的零镜头研究表明,结合记忆机制来支持目标导向的行为可以提高长视点规划性能。 然而,他们忽略了视觉边界边界,这些边界从根本上决定了未来的轨迹和观察,并且无法推断部分视觉观测与导航目标之间的关系。 在本文中,我们提出了基于潜力的语义认知探索(SCOPE),这是一个零拍摄框架,明确利用前沿信息来推动基于潜力的探索,从而实现更知情和与目标相关的决策。 SCOPE使用视觉语言模型估计勘探潜力,并将其组织成时空电位图,捕获边界动力学以支持长视距规划。 此外,SCOPE还采用了自我重新考虑机制,重新审视和完善了先前的决策,增强了可靠性,减少了过度自信的错误。 两项不同具体导航任务的实验结果表明,SCOPE在准确性上优于最先进的基线4.6%。 进一步的分析表明,其核心组件可改进校准、更强的概括和更高的决策质量。
扩散模型难以扩展,超出了其训练分辨率,因为直接的高分辨率采样是缓慢且昂贵的,而后高分辨率(ISR)通过解码后操作引入工件和额外的延迟。 我们展示了Latent Upscaler Adapter(LUA),这是一个轻量级模块,在最终VAE解码步骤之前直接在生成器的潜在代码上执行超分辨率。 LUA作为滴入组件集成,无需对基本模型或额外的扩散阶段进行修改,并通过在潜在空间中的单个前馈传递实现高分辨率合成。 具有刻度特定像素洗牌头的共享Swin式主干板支持2x和4x因子,并与图像空间SR基线保持兼容,在近3倍的下层解码和升级时间下达到可比感知质量(从512 px到1024 px仅增加+0.42 s,而使用相同SwinIR架构的像素空间SR为1.87秒)。 此外,LUA在不同的VAE的潜在空间中表现出强烈的概括,使得无需从头开始重新训练即可轻松部署每个新的解码器。 广泛的实验表明,LUA与原生高分辨率生成的保真度紧密匹配,同时为现代扩散管道中的可扩展,高保真图像合成提供了实用而高效的路径。
汽车摄像头的土壤检测是高级驾驶辅助系统的重要组成部分,使其在天气、灰尘等外部条件下更加坚固。 在本文中,我们将土化检测视为语义分割问题。 我们提供流行的分割方法的全面比较,并显示他们在性能上的优势,同时将它们与瓷砖级分类方法进行比较。 此外,我们对Woodscape数据集进行了广泛的分析,表明原始数据集包含数据泄漏和不准确的注释。 为了解决这些问题,我们创建了一个新的数据子集,尽管规模小得多,但为分割方法提供了足够的信息,以便在更短的时间内达到可比结果。 我们所有的代码和数据集拆分都可以在https://github.com/filipberanek/woodscape_revision上找到。
视频单眼深度估计对于自动驾驶、AR/VR和机器人等应用至关重要。 最近的基于变压器的单图像单眼深度估计模型在单个图像上表现良好,但在跨视频帧的深度一致性方面挣扎。 传统方法旨在使用多帧时间模块或光学流和相机参数等先验信息来提高时间一致性。 然而,这些方法面临一些问题,如高内存使用,动态或不规则运动的性能降低以及运动理解受限。 我们提出了STATIC,一种独立学习静态和动态区域的时间一致性的新模型,无需附加信息。 与表面规范的差异掩码通过测量方向方差来识别静态和动态区域。 对于静态区域,蒙面静态(MS)模块通过关注稳定区域来增强时间一致性。 对于动态区域,表面正态相似性(SNS)模块通过测量帧之间的特征相似性来对齐区域并提高时间一致性。 最终的改进集成了独立学习的静态和动态区域,使STATIC能够在整个序列中实现时间一致性。 我们的方法无需更多信息即可在 KITTI 和 NYUv2 数据集上实现最先进的视频深度估计。
尽管生成质量有所进步,但目前的文本到图像(T2I)模型通常缺乏多样性,从而产生均匀的输出。 这项工作引入了一个框架,以解决T2I模型中对稳健多样性评估的需求。 我们的框架通过评估单个概念及其相关的变异因素来系统地评估多样性。 主要贡献包括:(1)用于细致入微多样性评估的新型人类评估模板;(2)一个策划的提示集,涵盖不同的概念及其确定的变异因素(例如提示:苹果的图像,变化因子:颜色);(3)通过二项式测试比较人类注释模型的方法。 此外,我们严格比较各种图像嵌入,用于多样性测量。 值得注意的是,我们的原则性方法允许按多样性对T2I模型进行排名,确定它们特别挣扎的类别。 这项研究提供了强大的方法和见解,为改进T2I模型多样性和度量开发铺平了道路。
我们引入了一个有限差框架,用于神经符号距离场(SDF)学习中的曲率正则化。 现有方法使用通过二阶自动分化获得的完整Hessian信息强制执行曲率先验,这是准确的,但计算成本很高。 其他人通过避免明确的黑森组装来减少这种开销,但仍需要更高阶的差异化。 相比之下,我们的方法用轻量级的有限差分模板取代了这些操作,这些模板使用众所周知的Taylor扩展近似第二个导数,截断误差为O(h^2),可以作为高斯曲率和排名缺陷损失的下拉替换。 实验表明,我们的有限差值变体实现了与自动区分同类相媲美的重建保真度,同时将GPU内存使用和训练时间减少了高达2倍。 对稀疏、不完整和非CAD数据进行的额外测试证实,拟议的配方是稳健和通用的,为弧度感知SDF学习提供了一种高效且可扩展的替代方案。
车道检测是未来移动解决方案中的一个重要话题。 背景杂乱,不同的照明和遮挡等现实世界的环境挑战对有效车道检测构成了重大障碍,特别是当依靠数据驱动的方法时,需要大量精力和数据收集和注释的成本。 为了解决这些问题,车道检测方法必须利用来自周围车道和物体的上下文和全球信息。 在本文中,我们提出了一个空间注意力相互信息规范化,其预训练模型为Oracle,称为SAMIRO。 SAMIRO通过从预训练模型传输知识,同时保留与域无关的空间信息,从而增强车道检测性能。 利用SAMIRO的即插即用特性,我们将它集成到各种最先进的车道检测方法中,并在CULane,Tusimple和LLAMAS等主要基准上进行广泛的实验。 结果表明,SAMIRO持续提高不同模型和数据集的性能。 该代码将在发布时提供。
基于激光雷达的3D物体检测广泛应用于安全关键型系统。 然而,这些系统仍然容易受到后门攻击,这些攻击在训练期间嵌入了隐藏的恶意行为。 现有后门攻击的一个关键限制是它们缺乏物理可实现性,主要是由于数字到物理域的差距。 数字触发器在现实世界中经常失败,因为它们忽略了依赖材料的激光雷达反射属性。 另一方面,物理构造的触发器通常不优化,导致低效或易于检测。 本文介绍了面向材料的后门攻击(MOBA),这是一个新颖的框架,通过明确建模现实世界触发器的材料特性来弥合数字物理差距。 MOBA解决了物理后门设计中的两个关键挑战:1)触发材料在不同环境条件下的坚固性,2)物理触发器的行为与其数字模拟之间的对齐。 首先,我们提出了选择稳健触发材料的系统方法,确定二氧化钛(TiO_2)具有高漫射反射率和环境弹性。 其次,为了确保数字触发器准确地模仿基于材料的触发器的物理行为,我们开发了一种新颖的模拟管道,具有以下特征:(1)与Oren-Nayar BRDF模型的角度无关近似,以产生逼真的LiDAR强度,(2)具有距离感知的缩放机制,以保持不同深度的空间一致性。 我们对最先进的基于激光雷达和Camera-LiDAR的融合模型进行了广泛的实验,表明MOBA实现了93.50%的攻击成功率,优于先前的方法超过41%。 我们的工作揭示了一类新的物理可实现的威胁,并强调了对防御的迫切需要,这些防御在现实环境中考虑到物质级属性。
深度神经网络通常学习空间纠缠的表示,将判别的前景特征与虚假的背景相关性混为一谈,从而破坏了模型的可解释性和鲁棒性。 我们提出了一个从信息理论角度对梯度归因的新理解框架。 我们证明,在温和的条件下,在反向传播期间计算的矢量-雅各子产品(VJP)对类标签的输入特征的最小足够统计。 在这一发现的激励下,我们提出了一个编码解码视角:前向传播将输入编码到类空间,而反向传播中的VJP将这种编码解码回特征空间。 因此,我们提出空间信息瓶颈(S-IB)来空间分离信息流。 通过最大化前景VJP和输入之间的相互信息,同时最小化背景区域中的相互信息,S-IB鼓励网络仅在与类相关的空间区域对信息进行编码。 由于后临时解释方法从根本上来源于VJP计算,因此在训练过程中直接优化VJP的空间结构可以提高不同解释范式的可视化质量。 对五个基准的实验在六种解释方法中展示了普遍改进,在没有方法特定调优的情况下实现了更好的前景集中和背景抑制,以及一致的分类精度增益。
多模态大语言模型(MLLM)的可验证奖励强化学习(RLVR)高度依赖于高质量的标记数据,这些数据通常很少,在现实世界中容易产生大量的注释噪声。 现有的无监督RLVR方法,包括纯熵最小化,可以过度适应不正确的标签,并限制组相关策略优化(GRPO)的关键奖励排名信号。 为了应对这些挑战并提高噪声耐受性,我们提出了一种新的 RLVR 两级令牌级熵优化方法。 这种方法在训练过程中动态地指导模型从探索到开发。 在初始探索阶段,令牌级熵最大化促进了多样化和随机输出的生成,作为一个强大的正则器,可以防止过早收敛到嘈杂的标签,并确保足够的组内变化,从而在GRPO中实现更可靠的奖励梯度估计。 随着训练的进展,该方法过渡到开发阶段,代币级熵最小化鼓励模型产生自信和确定性的输出,从而巩固所获得的知识和改进预测的准确性。 经验上,跨越三个MLLM骨干 - Qwen2-VL-2B,Qwen2-VL-7B和Qwen2.5-VL-3B - 跨越不同的噪声设置和多项任务,我们的分阶段策略通过统一和增强基于外部,内部和熵的方法,始终优于先前的方法,提供强大和卓越的性能。
基于强化学习(RL)的微调已经成为将扩散模型与黑箱目标对齐的有力方法。 接近策略优化(PPO)是策略优化方法的最流行的选择。 虽然在性能方面有效,但PPO对超参数高度敏感,并且涉及大量的计算开销。 另一方面,REINFORCE减轻了一些计算复杂性,如高内存开销和敏感的超参数调优,但由于高变量和样本效率低下,具有次优性能。 虽然可以通过每个输入提示的多个操作和使用基线校正术语来减少REINFORCE的方差,但它仍然受到样本效率低下的影响。 为了应对这些挑战,我们系统地分析了REINFORCE和PPO之间的效率有效性权衡,并提出了一次性PPO(LOOP),这是一种用于扩散微调的新方法RL。 LOOP结合了REINFORCE的减差技术,例如每个输入提示的多个操作和基线校正项,以及通过剪切和重要性采样PPO的稳健性和样品效率。 我们的结果表明,LOOP有效地改进了各种黑箱目标的扩散模型,并在计算效率和性能之间实现了更好的平衡。
生成对抗网络(GAN)和传播模型的快速发展使高度逼真的deepfake内容得以创建,对视听领域的数字信任构成了重大威胁。 虽然单模态检测方法在识别合成介质方面取得了进展,但它们无法利用跨模态相关性并精确定位伪造的片段,限制了其实用性,而不是复杂的、细粒度的操纵。 为了解决这个问题,我们引入了基于特征金字塔-变形金刚(FPN-Transformer)的多模态深度伪造检测和本地化框架,解决了跨模态泛化和时间边界回归的关键差距。 拟议的方法利用预先训练的自我监督模型(音频的WavLM,视频的CLIP)来提取分层时间特征。 多尺度特征金字塔通过具有局部注意力机制的R-TLM块构建,能够共同分析跨上下文的时间依赖关系。 双分支预测头同时预测伪造概率并改进操纵段的时间偏移,实现帧级定位精度。 我们在 IJCAI'25 DDL-AV 基准测试集上评估我们的方法,在具有挑战性的环境中,在跨模态深度伪造检测和定位方面表现出良好的性能,最终得分为 0.7535。 实验结果证实了我们方法的有效性,并为广义的deepfake检测提供了一种新的方法。 我们的代码可在https://github.com/Zig-HS/MM-DDL。
继续滚动加载更多