视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
状态空间模型(SSM)已被证明是用于在顺序数据中模拟远程依赖的强大工具。 虽然最近被称为HiPPO的方法已经显示出强劲的性能,并构成了机器学习模型S4和Mamba的基础,但它仍然受到一些特定,表现良好的基础的封闭式解决方案的限制。 SaFARi框架概括了这种方法,使SSM能够从任意帧(包括非正交和冗余框架)构建SSM,从而允许SSM家族中可能存在的“物种”的无限多样性。 在本文中,我们介绍了WaLRUS(使用SSM的远程表示的Wavelets),这是由Daucheies小波构建的SaFARi的新实现。
高效调整大型基础模型至关重要,特别是在计算和内存预算紧张的情况下。 参数效率微调(PEFT)方法,如LoRA,在低参数方案中提供有限的粒度和有效性。 我们提出了Wavelet Fine-Tuning(WaveFT),这是一种新颖的PEFT方法,可以在残余矩阵的小波域中学习高度稀疏的更新。 WaveFT允许精确控制可训练参数,提供细粒度的容量调整,并以极低的参数计数表现出色,可能远低于LoRA的最小值 - 非常适合极端参数效率的场景。 为了证明小波变换的效果,我们将WaveFT与一个名为SHiRA的特殊情况进行了比较,该特殊情况需要直接在权重域中应用稀疏更新。 WaveFT使用稳定扩散XL作为基线对图像的个性化文本到图像生成进行评估,显著优于LoRA和其他PEFT方法,特别是在低参数计数下;实现卓越的主体保真度,快速对齐和图像多样性。
生成式人工智能的最新进展引入了突破性的方法来创新下一代语义通信,该方法优先考虑传达信息的含义,而不仅仅是传输原始数据。 语义通信的一个基本挑战在于准确识别和提取最关键的语义信息,同时适应下游任务而不会降低性能,特别是当接收者的目标可能随着时间的推移而演变时。 为了灵活地适应接收方的多个任务,这项工作引入了一种新的语义通信框架,它能够共同捕获特定任务的信息,以提高下游任务性能和上下文信息。 通过对流行的图像数据集和计算机视觉任务的严格实验,我们的框架与现有工作相比显示出有希望的改进,包括下游任务的卓越性能,更好的可推广性,超高带宽效率和低重建延迟。
以数据为中心的深度生成模型的最新进展导致在解决逆成像问题方面取得了重大进展。 然而,这些模型(例如,扩散模型(DM))通常需要大量完全采样(清洁)的训练数据,这在医学和科学环境中(如动态成像)通常不切实际。 另一方面,像Deep Image Prior(DIP)这样的无训练数据方法不需要干净的地面真实图像,但会受到噪声过拟合的影响,并且由于需要针对每个测量集进行网络参数的优化,因此计算成本很高。 此外,基于DIP的方法通常忽略了在训练过程中使用少量子采样测量(或退化图像)学习先前的可能性。 在本文中,我们提出了UGoDIT,一种通过可转移权重进行无监督组DIP,专为低数据化制度而设计,在训练期间只有极少数的子采样测量向量。 我们的方法通过优化共享编码器和 M 解纠缠解码器来学习一组可转移的权重。 在测试时,我们使用DIP网络重建看不见的退化图像,其中部分参数固定在学习的权重上,而其余参数则经过优化以强制测量一致性。 我们评估UGoDIT在各种设置下的医学(多线圈MRI)和自然(超分辨率和非线性解调)图像恢复任务。 与最近的独立DIP方法相比,UGoDIT提供了加速收敛和显着的重建质量改进。 此外,我们的方法与基于 SOTA DM 和监督的方法相比,实现了性能竞争力,尽管不需要大量的清洁训练数据。
视觉表示是机器人操纵策略学习和概括能力的核心。 虽然现有方法依赖于全局或致密的特征,但这种表示通常会纠缠于任务相关且不相关的场景信息,从而限制了分布变化下的鲁棒性。 在这项工作中,我们研究以对象为中心的表示(OCR)作为结构化替代方案,将视觉输入分割成一组完成的实体,引入与操作任务更自然地对齐的归纳偏差。 我们通过一系列模拟和现实世界的操纵任务对一系列视觉编码器(以对象为中心,全局和密集方法)进行基准测试,并从简单到复杂,并评估他们在各种视觉条件下的概括,包括照明,纹理和分心者的存在。 我们的研究结果表明,基于OCR的政策在概括环境中的表现优于密集和全球代表性,即使没有特定任务的预训练。 这些见解表明,OCR是设计视觉系统的一个有前途的方向,可以在动态的现实世界的机器人环境中有效地推广。
状态空间模型(SSM)已被证明是用于在顺序数据中模拟远程依赖的强大工具。 虽然最近被称为HiPPO的方法已经显示出强劲的性能,并构成了机器学习模型S4和Mamba的基础,但它仍然受到一些特定,表现良好的基础的封闭式解决方案的限制。 SaFARi框架概括了这种方法,使SSM能够从任意帧(包括非正交和冗余框架)构建SSM,从而允许SSM家族中可能存在的“物种”的无限多样性。 在本文中,我们介绍了WaLRUS(使用SSM的远程表示的Wavelets),这是由Daucheies小波构建的SaFARi的新实现。
高效调整大型基础模型至关重要,特别是在计算和内存预算紧张的情况下。 参数效率微调(PEFT)方法,如LoRA,在低参数方案中提供有限的粒度和有效性。 我们提出了Wavelet Fine-Tuning(WaveFT),这是一种新颖的PEFT方法,可以在残余矩阵的小波域中学习高度稀疏的更新。 WaveFT允许精确控制可训练参数,提供细粒度的容量调整,并以极低的参数计数表现出色,可能远低于LoRA的最小值 - 非常适合极端参数效率的场景。 为了证明小波变换的效果,我们将WaveFT与一个名为SHiRA的特殊情况进行了比较,该特殊情况需要直接在权重域中应用稀疏更新。 WaveFT使用稳定扩散XL作为基线对图像的个性化文本到图像生成进行评估,显著优于LoRA和其他PEFT方法,特别是在低参数计数下;实现卓越的主体保真度,快速对齐和图像多样性。
本文回顾了NTIRE 2025高效爆发HDR和修复挑战,旨在推进高效的多帧高动态范围(HDR)和恢复技术。 挑战基于一个新的RAW多帧融合数据集,包括九个嘈杂和错位的RAW帧,每个场景都有不同的曝光水平。 参与者的任务是开发能够有效地融合这些框架的解决方案,同时坚持严格的效率限制:不到3000万个模型参数和4.0万亿FLOP下的计算预算。 共有217名参与者注册,6个团队最终提交了有效的解决方案。 表现最好的方法实现了43.22 dB的PSNR,展示了该领域新方法的潜力。 本文全面概述了挑战,比较了拟议的解决方案,并作为研究人员和从业者在高效爆发HDR和恢复方面的宝贵参考。
在这项研究中,我们提出了一种使用卷积神经网络在COVID-19 CT扫描中自动分割受感染肺区域的稳健方法。 该方法基于经过修改的U-Net架构,增强了注意力机制,数据增强和后处理技术。 它实现了0.8658的骷髅系数,平均值IoU为0.8316,优于其他方法。 该数据集来自公共存储库,并为多样性进行了增强。 成果表现出卓越的分割性能。 未来的工作包括扩展数据集,探索3D分割,并为临床部署准备模型。
单高光谱图像超分辨率(SHSR)旨在从低分辨率高光谱图像中恢复高分辨率图像。 最近,Visual Mamba模型在性能和计算效率之间实现了令人印象深刻的平衡。 然而,由于其1D扫描范式,该模型在图像生成过程中可能会受到潜在工件的影响。 为了解决这个问题,我们建议HSRMamba。 在保持Visual Mamba的计算效率的同时,我们引入了基于条带的扫描方案,以有效减少来自全球单向扫描的工件。 此外,HSRMamba使用小波分解来缓解高频空间特征和低频光谱特征之间的模态冲突,进一步提高了超分辨率性能。 广泛的实验表明,HSRMamba不仅在降低计算负载和模型尺寸方面表现出色,而且优于现有方法,实现了最先进的结果。
评估视频游戏图形的视觉质量提出了独特的挑战,由于缺乏参考图像和不同类型的失真,如别名,纹理模糊和细节的几何水平(LOD)问题,这些问题不同于自然图像或用户生成的内容。 现有的无参考图像和视频质量评估(NR-IQA/VQA)方法无法推广到游戏环境,因为它们主要用于压缩工件等失真。 这项研究引入了一种语义感知的NR-IQA模型,该模型为游戏量身定制。 该模型使用知识蒸馏游戏失真功能提取器(GDFE)来检测和量化特定于游戏的失真,同时通过CLIP嵌入将语义闸获取集成到基于场景内容的动态权重特征重要性。 跨图形质量预设记录的游戏数据训练使模型能够产生与人类感知一致的高质量分数。 我们的结果表明,通过二进制分类器的知识蒸馏训练的GDFE有效地推广到训练过程中看不见的中间失真水平。 语义闸门进一步提高了上下文相关性,减少了预测方差。 在缺乏域内NR-IQA基线的情况下,我们的模型优于域外方法,并在同一类型中展示了看不见的游戏的稳健,单调的质量趋势。 这项工作为游戏中的自动化图形质量评估奠定了基础,并在这一领域推进了NR-IQA方法。
在广泛的数据集上预训练的基础模型,通过提供适用于各个领域(包括医学成像诊断)的强大和可转移的嵌入,具有显着的先进机器学习。 本研究评估了从通用和医疗领域特定基础模型中衍生的嵌入的效用,用于在多类放射学分类中训练轻量级适配器模型,特别关注管放置评估。 包含8842个放射线图分为七个不同类别的数据集,用于使用六个基础模型提取嵌入:DenseNet121,BiomedCLIP,Med-Flamingo,MedImageInsight,Rad-DINO和CXR-Foundation。 随后使用经典的机器学习算法训练适配器模型。 在这些组合中,MedImageInsight与支持矢量机适配器配对的嵌入在Rad-DINO的93.8(91.1 DenseNet121)下产生了曲线下的最高平均面积(mAUC),分别为83.0的mAUC分数,而Med-Flamingo在75.1下提供最低性能,值得注意的是,大多数适配器模型都证明了计算效率,在一分钟内实现训练并在几秒钟内对CPU进行推理,强调了其实用性。 此外,对在MedImageInsight衍生的嵌入上训练的适配器的公平性分析表明差异很小,不同年龄组之间在2个偏差内的性别差异不超过3个基础模型嵌入 - 特别是来自MedImageInsight促进准确,计算高效和公平的诊断分类使用轻量级适配器进行放射图像分析。
放射治疗往往涉及较长的治疗期。 在此期间,患者可能会因呼吸和其他生理因素而出现器官运动。 在治疗前预测和模拟此运动对于确保精确的辐射传递至关重要。 然而,现有的治疗前器官运动预测方法主要依赖于使用主成分分析(PCA)的变形分析,该分析高度依赖于注册质量,并难以捕获用于运动建模的周期性时间动力学。 在本文中,我们观察到器官运动预测与自回归过程非常相似,这是一种广泛用于自然语言处理(NLP)的技术。 自动回归模型根据以前的输入预测下一个令牌,自然符合我们预测未来器官运动阶段的目标。 基于这种洞察力,我们将器官运动预测重新制定为自动回归过程,以更好地捕捉患者特定的运动模式。 具体来说,我们在治疗前为每个患者获得4D CT扫描,每个序列包括多个3D CT阶段。 这些阶段被输入到自回归模型中,以根据先前的阶段运动模式预测未来的阶段。 我们评估我们的方法,在真实世界的一组4D CT扫描中,来自50名在我们机构接受放疗的患者,以及包含20名患者4D CT扫描的公共数据集(有些是多次扫描),总计超过1300个3D CT阶段。 预测肺和心脏运动的性能超过了现有的基准,证明了它在从CT图像中捕获运动动力学的有效性。 这些结果突出了我们改善放射治疗前治疗计划的方法的潜力,从而实现更精确和适应性的辐射传递。
本文提出了无人机的低架、基于视觉的3D场景重建框架,名为ExploreGS。 通过使用RGB图像,ExploreGS用视觉模型取代了传统的基于激光雷达的点云采集过程,以更低的成本实现了高质量的重建。 该框架集成了场景探索和模型重建,并利用一个词袋(BoW)模型来实现实时处理功能,因此,3D高斯电镀(3DGS)训练可以在船上执行。 模拟和现实环境中的综合实验证明了ExploreGS框架在资源受限设备上的效率和适用性,同时保持与最先进的方法相媲美的重建质量。
医疗图像分割在很大程度上依赖于卷积神经网络(CNN)和基于变形金刚的模型。 然而,CNN受到有限的可接受字段的限制,而Transformers由于其二次计算复杂性而遭受可扩展性挑战。 为了解决这些限制,最近的进展探索了替代架构。 状态空间模型Mamba在捕获远程依赖的同时提供近线性复杂性,Kolmogorov-Arnold网络(KAN)通过用可学习的函数替换固定激活函数来增强非线性表现力。 基于这些优势,我们提出了MedVKAN,这是一种集成Mamba和KAN的高效特征提取模型。 具体来说,我们引入了EFC-KAN模块,该模块通过卷积运算增强KAN,以改善本地像素交互。 我们进一步设计了VKAN模块,将Mamba与EFC-KAN集成为Transformer模块的替代品,显着改善了功能提取。 对五个公共医学图像分割数据集的广泛实验表明,MedVKAN在四个数据集上实现了最先进的性能,并在其余数据集上排名第二。 这些结果验证了Mamba和KAN在医疗图像分割方面的潜力,同时引入了创新和计算高效的特征提取框架。 代码可在:https://github.com/beginner-cjh/MedVKAN。
生成建模已成为计算病理学的一个有前途的方向,提供数据高效学习,合成数据增强和跨不同诊断任务的多模态表示等功能。 本综述全面综合了该领域的最新进展,分为四个关键领域:图像生成、文本生成、多模态图像文本生成以及其他生成应用,包括空间模拟和分子推理。 通过分析超过150项具有代表性的研究,我们追溯了生成式架构从早期生成对抗网络到具有生成能力的扩散模型和基础模型的最新进展。 我们进一步研究了该领域常用的数据集和评估协议,并强调了持续的限制,包括生成高保真全幻灯片图像的挑战,临床可解释性以及与合成数据的道德和法律影响相关的问题。 审查结束时讨论了开放挑战和前瞻性研究方向,重点是开发统一,多模式和临床可部署的生成系统。 这项工作旨在为开发和应用计算病理学中的生成模型的研究人员和从业者提供基础参考。
高光谱图像处理和分析在遥感、农业和环境监测方面具有重要的应用价值,但其高维性、数据冗余和噪声干扰等给分析带来了巨大挑战。 传统模型在处理这些复杂数据时有局限性,很难满足日益增长的分析需求。 近年来,扩散模型作为一种新兴的生成模型,在高光谱图像处理方面显示出独特的优势。 通过及时模拟数据的扩散过程,扩散模型可以有效地处理高维数据,生成高质量的样本,并在去噪和数据增强方面表现良好。 在本文中,我们回顾了高光谱图像处理和分析的扩散建模的最新研究进展,并讨论了其在高维数据处理,噪声消除,分类和异常检测等任务中的应用。 比较了基于扩散的模型在图像处理上的性能,并总结了挑战。 结果表明,扩散模型可以显著提高高光谱图像分析的准确性和效率,为未来的研究提供新的方向。
低剂量CT(LDCT)图像通常伴有显着的噪声,这对图像质量和随后的诊断准确性产生负面影响。 为了应对LDCT去噪中多尺度特征融合和多种噪声分布模式的挑战,本文介绍了一种创新模型CTLformer,它将卷积结构与变压器结构相结合。 提出了两项关键创新:多尺度注意力机制和动态注意力控制机制。 通过Token2Token机制和自注意力交互模块实施的多尺度注意力机制,可有效捕捉不同尺度的精细细节和全球结构,增强相关功能并抑制噪声。 动态注意力控制机制根据输入图像的噪声特性调整注意力分布,聚焦高噪声区域,同时在低噪声区域保持细节,从而增强鲁棒性,提高去噪性能。 此外,CTLformer集成了卷积层,以实现高效的特征提取,并使用重叠的推理来减轻边界工件,进一步加强其去噪能力。 2016年国立卫生研究院AAPM Mayo Clinic LDCT Challenge数据集的实验结果表明,CTLformer在降低性能和模型效率方面明显优于现有方法,大大提高了LDCT图像的质量。 拟议的CTLformer不仅为LDCT去噪提供了有效的解决方案,而且还在医学图像分析中显示出广泛的潜力,特别是对于处理复杂噪声模式的临床应用。
扩散模型广泛应用于从图像生成到反向问题的应用。 然而,训练扩散模型通常需要干净的地面真实图像,这些图像在许多应用中不可用。 我们介绍了基于测量分数的扩散模型(MSM),这是一个使用仅使用嘈杂和子采样测量来学习部分测量分数的新框架。 MSM将完整测量的分布建模为随机子采样诱导的部分分数的预期。 为了提高MSM表示的计算效率,我们还开发了一种随机采样算法,通过使用随机选择的部分分数子集来生成完整的图像。 我们还提出了一种新的后采样方法,用于解决使用这些部分分数重建图像的逆问题。 我们提供了一个理论分析,将Kumlback-Leibler在完全和随机抽样诱导的分布之间的差值,从而确定了拟议算法的准确性。 我们展示了MSM在自然图像和多线圈MRI上的有效性,表明它可以生成高质量的图像并解决逆问题 - 所有这些都无法获得干净的训练数据。 代码可在https://github.com/wustl-cig/MSM查阅。
视网膜基础模型通过利用自我监督学习来显着推进视网膜图像分析,以减少对标记数据的依赖,同时实现强大的概括。 最近的许多方法使用报告监督增强了视网膜图像的理解,但获得临床报告往往是昂贵和具有挑战性的。 相比之下,元数据(例如年龄,性别)是广泛使用的,并作为分析疾病进展的宝贵资源。 为了有效地整合患者特定的信息,我们提出了PRETI,这是一种视网膜基础模型,将元数据感知学习与强大的自我监督表示学习相结合。 我们引入了 Learnable Metadata Embedding (LME),它动态地改进元数据表示。 此外,我们构建患者级数据对,将来自同一个体的图像关联在一起,以提高对非临床变异的鲁棒性。 为了进一步优化视网膜图像表示,我们提出了Retina-Aware自适应掩码(RAAM),这是一种在视网膜区域内选择性应用遮蔽的策略,并在训练期间动态调整遮蔽比。 PRETI捕获全局结构和细粒度病理细节,从而获得卓越的诊断性能。 广泛的实验表明,PRETI使用内部和公共数据在不同的疾病和生物标志物预测中实现最先进的结果,表明元数据引导的基础模型在视网膜疾病分析中的重要性。 我们的代码和预训练模型可在https://github.com/MICV-yonsei/PRETI上找到。
工业4.0的开始正通过云计算、机器学习(ML)、人工智能(AI)和通用网络连接的融合,迅速改变制造业世界,从而实现性能优化并提高生产力。 数字孪生(DT)就是这样一种变革技术,它利用软件系统复制物理过程行为,在数字环境中代表物理过程。 本文旨在探索使用摄影测量(这是使用照片将物理对象重建为虚拟3D模型的过程)和3D扫描技术,以创建“物理过程”的准确视觉表示,与基于ML / AI的行为模型进行交互。 为了实现这一目标,我们使用了一个现成的消费设备,即具有立体视觉功能的iPhone 15 Pro,以捕捉工业4.0系统的深度。 通过使用3D扫描工具处理这些图像,我们创建了一个用于3D建模和渲染软件的原始3D模型,用于创建DT模型。 本文通过测量地面真实性(使用卷尺手动测量)和使用这种方法创建的最终3D模型之间的错误率,强调了这种方法的可靠性。 总体平均误差为4.97%,总体标准差误差为地面真实度测量与摄影测量对应物之间的5.54%。 这项工作的结果表明,使用消费级设备的摄影测量可以为智能制造创建DTs是一种高效且具有成本效益的方法,而方法的灵活性允许随着时间的推移对模型进行迭代改进。
心血管磁共振成像正在成为检查心脏形态和功能的关键工具。 这项工作的关键是源自CMR图像的解剖学3D表面和体积网格,这有助于计算解剖学研究,生物标志物发现和硅内模拟。 传统方法通常遵循复杂的多步骤管道,首先对图像进行分割,然后重建网格,使其耗时且容易出现错误传播。 作为回应,我们引入了HybridVNet,这是一种用于直接图像到网格提取的新型架构,将标准卷积神经网络与图形卷积无缝集成,我们证明可以通过将它们编码为图形结构来有效地处理表面和体积网格。 为了进一步提高准确性,我们提出了一个多视图的HybridVNet架构,该架构处理长轴和短轴CMR,表明它可以增加心脏MR网状生成的性能。 我们的模型将传统的卷积网络与变异图生成模型、深度监督和网格特异性正则化相结合。 英国生物银行(UK Biobank)综合数据集的实验证实了HybridVNet通过从CMR图像中有效地生成高保真网格来显着推进心脏成像和计算心脏病学的潜力。 多视图HybridVNet优于最先进的,实现了平均轮廓距离(LV Myocardium从1.86毫米到1.35毫米)的改善,在Hausdorff距离(从4.74毫米到3.89毫米,LV Endocardium)的改善率高达∼8%,镰度系数的精度从0.78到0.88。
获取低于树冠的体积植被数据对于理解生态系统动态至关重要。 我们解决了遥感深入密密麻麻的树冠层的长期限制。 激光雷达和雷达目前被认为是测量3D植被结构的主要选择,而相机只能提取顶层的反射率和深度。 使用传统的高分辨率空中图像,我们的方法允许深入感知自闭的植被体积,如森林。 它在精神上类似于广域显微镜的成像过程,但可以处理更大的尺度和强遮挡。 我们通过无人机的合成光圈成像扫描焦堆,并使用预训练的3D卷积神经网络减少失焦信号贡献,平均平方误差(MSE)作为损失函数。 由此产生的体积反射率堆叠包含植被体积的低频表示。 结合来自各种光谱通道的多个反射率堆栈,可以深入了解整个植被体积的植物健康,生长和环境条件。 与模拟地面真理相比,我们的校正导致200棵树/公顷的森林密度的平均改善(min:x2,max:x12)为200棵树/公顷 - 1680棵树/公顷。 在我们的野外实验中,在与使用经典多光谱航空成像测量的顶级植被层进行比较时,我们实现了0.05的MSE。
本文探讨了图像质量评估(IQA)任务如何从学生大小的角度影响人们的认知过程,并研究学生大小与图像质量之间的关系。 具体来说,我们首先邀请受试者参加一个主观实验,其中包括两个任务:自由观察和IQA。 在自由观察任务中,受试者不需要执行任何动作,他们只需要像通常用相册那样观察图像。 在IQA任务中,受试者需要根据他们对图像质量的总体印象对图像进行评分。 然后,通过分析两个任务之间的瞳孔大小差异,我们发现人们在评估图像质量时可能会激活视觉注意力机制。 同时,我们还发现瞳孔大小的变化与IQA任务中的图像质量密切相关。 对于未来对IQA的研究,本研究不仅可以为客观的IQA方法提供理论基础,促进更有效的客观IQA方法的发展,还可以为收集真实的主观IQA印象图像质量提供一种新的主观IQA方法。