模仿学习进行操纵有一个众所周知的数据稀缺问题。 与自然语言和2D计算机视觉不同,没有互联网规模的数据库用于灵巧操作。 一个吸引人的选择是以自我为中心的人类视频,一个被动的可扩展数据源。 然而,现有的大规模数据集,如Ego4D,没有原生手姿势注释,也没有专注于对象操作。 为此,我们使用Apple Vision Pro来收集EgoDex:迄今为止最大和最多样化的灵巧的人操纵数据集。 EgoDex拥有829小时的以自我为中心的视频,在录制时收集了配对的3D手和手指跟踪数据,其中可以使用多个校准相机和设备上的SLAM来精确跟踪每个手的每个关节的姿势。 该数据集涵盖了194个不同的桌面任务中的日常家庭物品的各种不同操作行为,从系鞋带到折叠洗衣。 此外,我们培训和系统地评估数据集上手轨迹预测的模仿学习政策,引入衡量这个日益重要领域的进展的指标和基准。 通过发布这个大规模的数据集,我们希望推动机器人技术、计算机视觉和基础模型的前沿。
现代人工智能的大部分兴奋是由扩大现有系统导致更好的性能的观察所推动的。 但是,更好的表现是否必然意味着更好的内部表示? 虽然表示乐观主义者认为必须这样做,但本立场文件挑战了这一观点。 我们将通过开放式搜索过程进化的神经网络与通过传统随机梯度下降(SGD)训练的网络进行比较,这些网络可以生成单个图像的简单任务。 这种最小的设置提供了一个独特的优势:每个隐藏神经元的全部功能行为可以很容易地可视化为图像,从而揭示网络的输出行为如何由神经元内部构建神经元。 结果是惊人的:虽然两个网络都产生相同的输出行为,但其内部表示差异很大。 SGD训练的网络表现出一种混乱的形式,我们将其称为断裂纠缠表示(FER)。 有趣的是,进化的网络基本上缺乏FER,甚至接近统一因子表示(UFR)。 在大型模型中,FER可能会降低广义、创造力和(持续)学习等核心模型能力。 因此,理解和减轻FER可能对代表性学习的未来至关重要。
扩散模型是最先进的生成模型,关于数据模式,如图像,音频,蛋白质和材料。 这些模式在傅里叶域中共享指数衰减方差和幅度的属性。 在加法白噪声的标准去噪扩散概率模型(DDPM)向前过程下,该属性导致高频组件在其信噪比(SNR)上比低频组件更快,更早地损坏。 然后反向过程在高频细节之前生成低频信息。 在这项工作中,我们研究了傅里叶空间扩散模型向前过程的电感偏差。 我们理论上分析和经验证明,DDPM中高频组件的噪声加快导致反向过程中违反正常假设。 我们的实验表明,这导致高频组件的生成质量下降。 然后,我们研究了傅里叶空间中的另一个前进过程,该过程以相同的速率腐蚀所有频率,在生成过程中消除典型的频率层次结构,并在高频为主要数据集上展示显着的性能改进,同时在标准成像基准上与DDPM相当。
大型语言模型(LLM)及其多模态扩展(MLLM)的最新进展大大增强了不同任务的机器推理。 然而,这些模型主要依靠纯文本作为表达和结构推理的媒介,即使存在视觉信息。 在这项工作中,我们认为语言可能并不总是最自然或最有效的推理方式,特别是在涉及空间和几何信息的任务中。 以此为动力,我们提出了一种新的范式,视觉规划,它通过纯粹的视觉表示来实现规划,独立于文本。 在这个范式中,规划是通过在视觉领域编码逐步推断的图像序列来执行的,类似于人类如何绘制或可视化未来的行动。 我们引入了一个新的强化学习框架,视觉规划通过强化学习(VPRL),由GRPO授权用于训练后大型视觉模型,导致在选择具有代表性的视觉导航任务,FrozenLake,Maze和MiniBehavior的规划方面有了实质性的改进。 我们的视觉规划范式优于所有其他在文本空间中进行推理的规划变体。 我们的结果将视觉规划确立为基于语言的推理的可行和有希望的替代方案,为受益于直观,基于图像的推理的任务开辟了新的途径。
重建和联合嵌入已成为自我监督学习(SSL)中的两个主要范式。 重建方法侧重于从输入空间的不同视图中恢复原始样本。 另一方面,联合嵌入方法对齐了潜在空间中不同视图的表示。 这两种方法都提供了令人信服的优势,但从业者缺乏明确的选择指南。 在这项工作中,我们揭示了区分每个范式的核心机制。 通过利用两种方法的封闭形式解决方案,我们精确地描述了视图生成过程(例如数据增强)如何影响学习的表示。 然后,我们证明,与监督学习不同,SSL范式都需要在增强和无关特征之间最小对齐,以实现渐近最优,增加样本量。 我们的研究结果表明,在这些不相关的特征具有很大量级的情况下,联合嵌入方法更可取,因为它们与基于重建的方法相比,强加了严格较弱的对齐条件。 这些结果不仅澄清了两种范式之间的权衡,也证实了在现实世界具有挑战性的数据集上联合嵌入方法的经验成功。
现代人工智能的大部分兴奋是由扩大现有系统导致更好的性能的观察所推动的。 但是,更好的表现是否必然意味着更好的内部表示? 虽然表示乐观主义者认为必须这样做,但本立场文件挑战了这一观点。 我们将通过开放式搜索过程进化的神经网络与通过传统随机梯度下降(SGD)训练的网络进行比较,这些网络可以生成单个图像的简单任务。 这种最小的设置提供了一个独特的优势:每个隐藏神经元的全部功能行为可以很容易地可视化为图像,从而揭示网络的输出行为如何由神经元内部构建神经元。 结果是惊人的:虽然两个网络都产生相同的输出行为,但其内部表示差异很大。 SGD训练的网络表现出一种混乱的形式,我们将其称为断裂纠缠表示(FER)。 有趣的是,进化的网络基本上缺乏FER,甚至接近统一因子表示(UFR)。 在大型模型中,FER可能会降低广义、创造力和(持续)学习等核心模型能力。 因此,理解和减轻FER可能对代表性学习的未来至关重要。
最近,虚拟/增强现实(VR/AR)的进步推动了对动态点云(DPC)的需求。 与静态点云不同,DPC能够捕获物体或场景中的时间变化,从而更准确地模拟现实世界。 虽然静态点云的质量评估研究取得了重大进展,但对动态点云质量评估(DPCQA)的研究很少,这阻碍了面向质量的应用程序的开发,例如实际场景中的帧间压缩和传输。 在本文中,我们介绍了一个名为DPCD的大型DPCQA数据库,其中包括来自7种有损压缩和噪声失真类型的15个参考DPC和525个失真DPC。 通过将这些样本渲染到处理式视频序列(PVS),进行了全面的主观实验,以获得21位观众的平均意见分数(MOS)进行分析。 介绍了内容的特性、各种失真的影响和MOS的准确性,以验证拟议数据库的异质性和可靠性。 此外,我们评估DPCD上几个客观指标的性能。 实验结果表明,DPCQA比静态点云更具挑战性。 DPCD是DPCQA新研究工作的催化剂,可公开查阅https://huggingface.co/datasets/Olivialyt/DPCD。
模拟内存计算是一种下一代计算范式,承诺快速,并行和节能的深度学习训练和迁移学习(TL)。 然而,由于缺乏合适的训练算法,实现这一承诺仍然难以实现。 模拟存储器设备除了设备到设备的变化外,还表现出不对称和非线性切换行为,这意味着大多数(如果不是全部)目前的现成训练算法无法取得良好的训练结果。 此外,最近推出的算法受到的关注有限,因为它们需要不切实际的高对称性和精度的双向切换设备,并且高度敏感。 引入了一种新的算法切碎TTv2(c-TTv2),该算法利用切碎技术解决上述许多挑战。 在本文中,我们使用CIFAR100数据集子集上的Swin-ViT模型评估模拟TL的c-TTv2算法的性能。 我们还研究我们算法在某些设备规格变化方面的稳健性,包括重量传递噪声、对称点偏斜和对称点可变性
想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
高效调整大型基础模型至关重要,特别是在计算和内存预算紧张的情况下。 参数效率微调(PEFT)方法,如LoRA,在低参数方案中提供有限的粒度和有效性。 我们提出了Wavelet Fine-Tuning(WaveFT),这是一种新颖的PEFT方法,可以在残余矩阵的小波域中学习高度稀疏的更新。 WaveFT允许精确控制可训练参数,提供细粒度的容量调整,并以极低的参数计数表现出色,可能远低于LoRA的最小值 - 非常适合极端参数效率的场景。 为了证明小波变换的效果,我们将WaveFT与一个名为SHiRA的特殊情况进行了比较,该特殊情况需要直接在权重域中应用稀疏更新。 WaveFT使用稳定扩散XL作为基线对图像的个性化文本到图像生成进行评估,显著优于LoRA和其他PEFT方法,特别是在低参数计数下;实现卓越的主体保真度,快速对齐和图像多样性。
神经网络通常是黑匣子,反映了理解其内部运作的重大挑战。 我们提出了一个挑战流行观点的不同观点:神经网络在原始种群活动中表现出反映训练数据规律性的模式,而不是不可捉摸的。 我们将其称为反射假说,并在简单的循环神经网络(RNN)和复杂的大型语言模型(LLM)中为这种现象提供证据。 基于这种洞察力,我们建议利用认知启发的分块方法,将高维神经人口动态分割成反映潜在概念的可解释单位。 我们提出了三种方法来提取这些新兴实体,根据标签可用性和尺寸性相互补充。 离散序列块(DSC)创建实体字典;人口平均(PA)提取对应于已知标签的重复实体;当标签不存在时可以使用无监督块发现(UCD)。 我们展示了这些方法在不同模型尺寸中提取实体的有效性,从诱导RNN中的组成性到发现具有不同架构的大型模型中的重复神经群状态,并说明它们相对于其他方法的优势。 在整个过程中,我们观察到提取的实体与具体或抽象概念之间的强烈对应关系。 人工诱导神经人群中的提取实体有效地改变了网络生成相关概念。 我们的工作指出了可解释性的新方向,它利用认知原理和自然学数据的结构来揭示复杂学习系统的隐藏计算,逐渐将它们从黑匣子转变为我们可以开始理解的系统。
在机器人应用中,很少镜头的分割至关重要,因为它允许机器人以最少的训练数据执行复杂的任务,从而促进它们适应多样化的现实世界环境。 然而,即使是少量的图像的像素级注释也是非常耗时和昂贵的。 在本文中,我们提出了一种基于边界框注释而不是像素级标签的新型少镜头二进制分割方法。 我们引入了ProMi,一种高效的基于原型混合的方法,将背景类视为分布的混合物。 我们的方法简单,无训练,有效,轻松适应粗糙的注释。 与现有的基线相比,ProMi在不同的数据集上取得了最佳效果,并取得了显着的收益,证明了其有效性。 此外,我们还提出了针对现实世界移动机器人任务的定性实验,展示了我们的方法在此类场景中的适用性。 我们的代码:https://github.com/TalesGroup/promi。
近年来,视频内容的创建和消费显著增加。 制作引人入胜的内容需要精心策划视觉和音频元素。 虽然视觉提示策展,通过优化视角选择或后期编辑等技术,一直是媒体制作的核心,但其自然对应,音频,并没有经历同等的进步。 这通常会导致视觉和声学显著性之间的脱节。 为了弥补这一差距,我们引入了一项新任务:视觉引导的声学突出显示,旨在改变音频,以提供由随附视频引导的适当突出效果,最终创造更和谐的视听体验。 我们提出了一个灵活的、基于变压器的多模态框架来解决这项任务。 为了训练我们的模型,我们还引入了一个新的数据集 - 泥泞的混合数据集,利用电影中的细致音频和视频制作,这提供了一种自由监督的形式。 我们开发了一个伪数据生成过程来模拟混合不良的音频,通过三步过程来模拟现实世界的场景 - 分离,调整和重新混合。 我们的方法在定量和主观评估方面一直优于几个基线。 我们还系统地研究不同类型的上下文指导和数据集的难度水平的影响。 我们的项目页面在这里:https://wikichao.github.io/VisAH/。
视觉和语言导航(VLN)是一项核心任务,其中体现的代理利用其空间移动性在3D环境中导航到基于自然语言指令的指定目的地。 最近,具有强大概括能力和丰富常识性知识的视频语言大模型(Video-VLMs)在应用于VLN任务时表现出显着的性能。 然而,当应用于现实世界的3D导航时,这些模型仍然会遇到以下挑战:1)对3D几何和空间语义的理解不足;2)大规模探索和长期环境记忆的能力有限;3)对动态和不断变化的环境的适应性差。为了解决这些限制,我们提出了Dynam3D,一个动态分层的3D表示模型,利用语言对齐,可推广和分层的3D表示作为视觉输入。 鉴于RGB-D图像,我们的Dynam3D将2D CLIP功能投射到3D空间中,并通过动态和层向更新策略构建用于3D几何和语义理解的多级3D补丁-实例区域表示。 我们的Dynam3D能够在线编码和3D实例的本地化,并在不断变化的环境中动态更新它们,为导航提供大规模的探索和长期记忆功能。 通过利用大规模的3D语言预训练和任务特异性适应,我们的Dynam3D在单眼设置下为包括R2R-CE,REVERIE-CE和NavRAG-CE在内的VLN基准测试设定了新的最新性能。 此外,探索前、终身记忆和现实世界机器人的实验验证了实际部署的有效性。
TikTok和YouTube等平台上的视频内容迅速崛起,改变了信息传播,但也促进了有害内容的传播,尤其是仇恨视频。 尽管在打击仇恨言论方面做出了重大努力,但检测这些视频仍然具有挑战性,因为它们往往是隐含的。 目前的检测方法主要依靠单模态方法,这些方法不足以反映不同模式的互补特征。 虽然多模态技术提供了更广泛的视角,但许多技术未能有效地整合时间动态和模式-明智的互动,这对于识别细微的仇恨内容至关重要。 在本文中,我们介绍了CMFusion,这是一种增强的多模态仇恨视频检测模型,使用新颖的通道-明智和模式-明智的融合机制。 CMFusion首先使用预先训练的模型从文本,音频和视频模式中提取功能,然后结合时间交叉注意力机制来捕获视频和音频流之间的依赖关系。 然后,学习的功能由通道和模式智能融合模块处理,以获得视频的信息表示。 我们对真实世界数据集的广泛实验表明,CMFusion在精度、精度、召回和F1得分方面明显优于五个广泛使用的基线。 全面的消融研究和参数分析进一步验证了我们的设计选择,突出了模型在检测仇恨视频方面的有效性。 源代码将在https://github.com/EvelynZ10/cmfusion上公布。
现有的视觉位置识别(VPR)数据集主要依赖于车载图像,缺乏多模态多样性,并且代表密集,混合使用的街道级空间不足,特别是在非西方城市环境中。 为了解决这些差距,我们引入了MMS-VPR,这是一个大规模的多模态数据集,用于在复杂的行人环境中进行街道级位置识别。 该数据集包括78,575张注释图像和2,512个视频剪辑,在中国成都70,800 m^2个露天商业区的207个地点拍摄。 每张图像都标有精确的GPS坐标、时间戳和文本元数据,并涵盖不同的照明条件、视点和时间框架。 MMS-VPR遵循系统和可复制的数据收集协议,设备要求最低,降低了可扩展数据集创建的障碍。 重要的是,数据集形成了一个固有的空间图,有125个边缘,81个节点和1个子图,使结构感知位置识别。 我们进一步定义了两个特定于应用程序的子集——Dataset_Edges和Dataset_Points——以支持细粒度和基于图的评估任务。 使用传统VPR模型,图形神经网络和多模态基线的广泛基准在利用多模态和结构线索时显示出实质性的改进。 MMS-VPR促进计算机视觉,地理空间理解和多模态推理交叉点的未来研究。 该数据集可在https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR上公开查阅。
本文回顾了NTIRE 2025高效爆发HDR和修复挑战,旨在推进高效的多帧高动态范围(HDR)和恢复技术。 挑战基于一个新的RAW多帧融合数据集,包括九个嘈杂和错位的RAW帧,每个场景都有不同的曝光水平。 参与者的任务是开发能够有效地融合这些框架的解决方案,同时坚持严格的效率限制:不到3000万个模型参数和4.0万亿FLOP下的计算预算。 共有217名参与者注册,6个团队最终提交了有效的解决方案。 表现最好的方法实现了43.22 dB的PSNR,展示了该领域新方法的潜力。 本文全面概述了挑战,比较了拟议的解决方案,并作为研究人员和从业者在高效爆发HDR和恢复方面的宝贵参考。
在这项研究中,我们提出了一种使用卷积神经网络在COVID-19 CT扫描中自动分割受感染肺区域的稳健方法。 该方法基于经过修改的U-Net架构,增强了注意力机制,数据增强和后处理技术。 它实现了0.8658的骷髅系数,平均值IoU为0.8316,优于其他方法。 该数据集来自公共存储库,并为多样性进行了增强。 成果表现出卓越的分割性能。 未来的工作包括扩展数据集,探索3D分割,并为临床部署准备模型。
使用向下置摄像头的地面纹理定位提供了一种低成本、高精度的本地化解决方案,该解决方案对动态环境具有稳健性,无需环境修改。 我们为地面纹理定位提供了显著改进的手写袋(BoW)图像检索系统,实现了更高的全球本地化精度,并在SLAM中实现了更高的循环闭包检测和召回精度。 我们的方法利用近似的 k 均值 (AKM) 词汇和软赋,并利用接地纹理本地化固有的一致方向和恒定尺度约束。 确定SLAM的全局定位与闭环检测的不同需求,我们提出了我们的算法的高精度和高速版本。 我们通过消融研究测试我们提出的每个改进的效果,并展示了我们的方法在全球定位和闭环检测方面的有效性。 由于已经使用BoW的众多地面纹理定位系统,我们的方法可以很容易地取代其管道中的其他通用BoW系统,并立即改善其结果。
这项研究侧重于行走过程中各种身体部位的速度模式,并提出了一种评估步态对称性的方法。 传统的运动分析研究根据心肌电图(EMG)信号或左右两侧加速度的差异评估了步态对称性。 相反,本文使用LTI系统对分段协调进行了建模,并提出了一个不同度量来评估对称性。 该方法在五个对称和不对称步态的受试者身上进行了测试。
单高光谱图像超分辨率(SHSR)旨在从低分辨率高光谱图像中恢复高分辨率图像。 最近,Visual Mamba模型在性能和计算效率之间实现了令人印象深刻的平衡。 然而,由于其1D扫描范式,该模型在图像生成过程中可能会受到潜在工件的影响。 为了解决这个问题,我们建议HSRMamba。 在保持Visual Mamba的计算效率的同时,我们引入了基于条带的扫描方案,以有效减少来自全球单向扫描的工件。 此外,HSRMamba使用小波分解来缓解高频空间特征和低频光谱特征之间的模态冲突,进一步提高了超分辨率性能。 广泛的实验表明,HSRMamba不仅在降低计算负载和模型尺寸方面表现出色,而且优于现有方法,实现了最先进的结果。
如今,验证人工智能生成图像的真实性在社交媒体平台上提出了越来越大的挑战。 虽然像CLIP这样的视觉语言模型(VLM)在多模态表示方面超过了它,但由于在训练前过程中没有这样的标签,因此其AI生成的图像分类能力未被探索。 这项工作调查了CLIP嵌入是否本质上包含表明AI生成的信息。 拟议的管道使用冻结的CLIP模型提取视觉嵌入,将其嵌入到轻量级网络,并且仅微调最终分类器。 在公共CIFAKE基准测试中的实验表明,性能达到95个自定义,20个基线(双子座-2.0)具有最佳的零拍摄精度,但在特定款式上失败。 值得注意的是,一些特定的图像类型,如广角照片和油画,对分类提出了重大挑战。 这些结果表明,在分类某些类型的人工智能生成图像方面以前未探索的困难,揭示了该领域新的、更具体的问题,值得进一步调查。
最先进的T2I模型能够生成高质量的图像,并提供文本提示。 然而,他们仍然难以准确地描绘指定多个对象、属性和空间关系的构图场景。 我们介绍了CompAlign,这是一个具有挑战性的基准,重点是评估3D空间关系的描述,用于评估和改进构图图像生成的模型。 CompAlign由900个复杂的多主题图像生成提示组成,将数值和3D空间关系与不同的属性绑定相结合。 我们的基准非常具有挑战性,将生成任务与具有复杂3D空间关系的3+一代主题相结合。 此外,我们提出了CompQuest,一个可解释和准确的评估框架,将复杂的提示分解为原子子问题,然后利用MLLM对模型生成图像中生成元素的每个方面的正确性提供细粒度的二进制反馈。 这可以实现生成图像和构图提示之间的对齐的精确量化。 此外,我们提出了一个对齐框架,该框架使用CompQuest的反馈作为偏好信号,以提高扩散模型的构图生成能力。 使用可调整的每张图像首选项,我们的方法易于扩展,并且针对不同的任务灵活。 对9个T2I模型的评估表明:(1)模型与更复杂的3D空间配置的组合任务相比,显着的挣扎更多,(2)开源可访问模型和闭源商业模型之间存在明显的性能差距。 关于使用CompAlign进行模型对齐的进一步实证研究产生了有希望的结果:后对齐扩散模型在组合精度方面实现了显着的改进,特别是在复杂的生成任务上,优于以前的方法。
评估视频游戏图形的视觉质量提出了独特的挑战,由于缺乏参考图像和不同类型的失真,如别名,纹理模糊和细节的几何水平(LOD)问题,这些问题不同于自然图像或用户生成的内容。 现有的无参考图像和视频质量评估(NR-IQA/VQA)方法无法推广到游戏环境,因为它们主要用于压缩工件等失真。 这项研究引入了一种语义感知的NR-IQA模型,该模型为游戏量身定制。 该模型使用知识蒸馏游戏失真功能提取器(GDFE)来检测和量化特定于游戏的失真,同时通过CLIP嵌入将语义闸获取集成到基于场景内容的动态权重特征重要性。 跨图形质量预设记录的游戏数据训练使模型能够产生与人类感知一致的高质量分数。 我们的结果表明,通过二进制分类器的知识蒸馏训练的GDFE有效地推广到训练过程中看不见的中间失真水平。 语义闸门进一步提高了上下文相关性,减少了预测方差。 在缺乏域内NR-IQA基线的情况下,我们的模型优于域外方法,并在同一类型中展示了看不见的游戏的稳健,单调的质量趋势。 这项工作为游戏中的自动化图形质量评估奠定了基础,并在这一领域推进了NR-IQA方法。
在广泛的数据集上预训练的基础模型,通过提供适用于各个领域(包括医学成像诊断)的强大和可转移的嵌入,具有显着的先进机器学习。 本研究评估了从通用和医疗领域特定基础模型中衍生的嵌入的效用,用于在多类放射学分类中训练轻量级适配器模型,特别关注管放置评估。 包含8842个放射线图分为七个不同类别的数据集,用于使用六个基础模型提取嵌入:DenseNet121,BiomedCLIP,Med-Flamingo,MedImageInsight,Rad-DINO和CXR-Foundation。 随后使用经典的机器学习算法训练适配器模型。 在这些组合中,MedImageInsight与支持矢量机适配器配对的嵌入在Rad-DINO的93.8(91.1 DenseNet121)下产生了曲线下的最高平均面积(mAUC),分别为83.0的mAUC分数,而Med-Flamingo在75.1下提供最低性能,值得注意的是,大多数适配器模型都证明了计算效率,在一分钟内实现训练并在几秒钟内对CPU进行推理,强调了其实用性。 此外,对在MedImageInsight衍生的嵌入上训练的适配器的公平性分析表明差异很小,不同年龄组之间在2个偏差内的性别差异不超过3个基础模型嵌入 - 特别是来自MedImageInsight促进准确,计算高效和公平的诊断分类使用轻量级适配器进行放射图像分析。