电气工程与系统科学
Electrical Engineering and Systems Science
音频与语音处理
Audio and Speech Processing
图像与视频处理
Image and Video Processing
信号处理
Signal Processing
本文包括使用先进的深度学习方法对早产儿视网膜病变(ROP)诊断的深入检查。 我们的重点是改进和评估基于CNN的方法,以实现精确和高效的ROP检测。 我们驾驭数据集策划、预处理策略和模型架构的复杂性,与包括模型有效性、计算成本分析和时间复杂度评估在内的研究目标保持一致。 结果强调了量身定制的CNN模型相对于预先训练的同行的至高无上地位,这体现在更高的准确性和F1分数上。 实施投票制度进一步提高了业绩。 此外,我们的研究揭示了拟议的定制CNN模型在减轻与深度神经网络相关的计算负担方面的潜力。 此外,我们展示了在专用软件和硬件配置中部署这些模型的可行性,突出了其在临床环境中作为有价值的诊断辅助工具的实用性。 总之,我们的话语对ROP诊断做出了重大贡献,揭示了深度学习模型在提高诊断精度和效率方面的功效。
在遥感领域广泛使用来自一般计算机视觉任务的预训练模型,大大降低了培训成本,提高了性能。 然而,这种做法也引入了下游任务的漏洞,其中公开可用的预训练模型可以用作代理来妥协下游模型。 本文介绍了一种新的对抗神经元操纵方法,该方法通过在预训练模型中选择性地操纵单个或多个神经元来产生可转移的扰动。 与现有的攻击不同,这种方法消除了对特定领域信息的需求,使其更广泛地适用和高效。 通过靶向多个脆弱的神经元,扰动实现了卓越的攻击性能,揭示了深度学习模型中的关键漏洞。 对各种模型和遥感数据集进行的实验验证了拟议方法的有效性。 这种低访问对抗神经元操作技术突出了转移学习模型中的重大安全风险,强调在解决安全关键遥感任务时,迫切需要在设计中提供更强大的防御。
基于兴趣区域(ROI)的图像压缩已经迅速发展,因为它能够在重要区域保持高保真度,同时减少数据冗余。 然而,现有的压缩方法主要应用口罩在量化之前抑制背景信息。 这种使用硬门的显式位分配策略会显著影响熵模型的统计分布,从而限制了压缩模型的编码性能。 作为回应,这项工作提出了一个有效的基于ROI的深度图像压缩模型,具有隐式位分配。 为了更好地利用ROI面罩进行隐式位分配,本文提出了一个新的掩码引导功能增强(MGFE)模块,包括区域自适应注意力(RAA)块和频率空间协作注意力(FSCA)块。 该模块允许在不同区域灵活分配位,同时通过频率空间域协作增强全局和本地功能。 此外,我们使用双解码器来单独重建前景和背景图像,使编码网络能够以数据驱动的方式最佳平衡前台增强和背景质量保存。 据我们所知,这是第一个利用隐式位分配进行高质量区域适应编码的工作。 COCO2017数据集的实验表明,我们基于隐式的图像压缩方法在速率扭曲性能方面明显优于显式位分配方法,在重建的背景区域保持令人满意的视觉质量的同时,实现最佳结果。
风险器官(OAR)的精确分割对于安全和精确的放疗和手术至关重要。 大多数现有研究仅细分一组有限的器官或区域,缺乏对OARs分割的系统处理。 我们展示了一个多尺度的级联融合网络(MCFNet),它聚合了跨多个尺度和分辨率的功能。 MCFNet由用于下采样路径的Sharp Extraction Backbone和用于跳过连接融合的灵活连接骨干组成,在两个阶段加强表示学习。 这种设计改善了边界定位,并保留了精细的结构,同时保持计算效率,即使在低分辨率输入上也能实现可靠的性能。 在NVIDIA A6000 GPU上使用来自10个数据集的671名患者的36,131个图像掩模对进行实验,显示出一致的稳健性和强大的跨数据集泛化。 自适应损失汇总策略进一步稳定优化,并在准确性和培训效率方面产生额外收益。 通过广泛的验证,MCFNet优于现有方法,擅长器官分割,并为计算机辅助诊断提供可靠的图像引导支持。 我们的解决方案旨在提高放射治疗和手术的精度和安全性,同时支持个性化治疗,推进现代医疗技术。 该代码已在GitHub上提供:https://github.com/Henry991115/MCFNet。
无示例持续学习(EFCL)限制了先前任务数据的存储,并且极易发生灾难性遗忘。 虽然预训练模型(PTM)越来越多地用于EFCL,但现有方法往往忽略了现实世界数据分布的固不平衡。 我们发现,现实世界的数据流通常表现出双重水平不平衡,数据集级分布与单个任务中的极端或反向斜向相结合,从而产生任务内和任务间差异,阻碍了有效的学习和泛化。 为了应对这些挑战,我们提出了PANDA,这是一个Patch-and-Distribution-Aware Augmentation框架,可与现有的基于PTM的EFCL方法无缝集成。 PANDA通过使用CLIP编码器来识别代表性区域并将它们移植到每个任务中的频繁类样本中来放大低频类。 此外,PANDA还采用了自适应平衡策略,利用先前的任务分配来平滑任务间不平衡,减少跨任务的平均样本之间的总体差距,并通过冷冻PTM实现更公平的学习。 广泛的实验和消融研究证明了PANDA能够使用现有的基于PTM的CL方法,提高准确性并减少灾难性遗忘。
多无人机监控系统为行人跟踪提供了更高的覆盖范围和稳健性,但现有方法与动态摄像头位置和复杂的遮挡性作斗争。 本文介绍了MATRIX(Multi-Aerial TRack In pleX环境),一个全面的数据集,其中包含来自8架具有不断变化位置的无人机的同步镜头,以及用于多视图检测和跟踪的新型深度学习框架。 与依赖静态摄像头或有限无人机覆盖的现有数据集不同,MATRIX提供了一个具有挑战性的场景,有40个行人,在城市环境中存在重大的建筑障碍。 我们的框架通过实时相机校准、基于特征的图像注册和鸟瞰(BEV)表示中的多视图特征融合,解决基于动态无人机监视的独特挑战。 实验结果表明,虽然静态相机方法在简化的MATRIX环境中保持超过90%的检测和跟踪精度和精度指标,但没有障碍物,10个行人和更小的观察区域,但在复杂的环境中,它们的性能显着下降。 我们提出的方法保持稳健的性能,检测和跟踪精度为∼90%,并在具有挑战性的条件下成功跟踪∼80%的轨迹。 迁移学习实验揭示了强大的概括能力,与从头开始训练模型相比,预训练模型实现了更高的检测和跟踪精度性能。 此外,系统相机辍学实验揭示了优雅的性能下降,展示了可能发生相机故障的现实部署的实际稳健性。 MATRIX数据集和框架为推进动态多视图监控系统提供了基本基准。
内窥镜图像经常受到多种和共同发生的退化,如低照明,烟雾和出血,这掩盖了关键的临床细节。 现有的恢复方法通常是特定于任务的,通常需要事先了解降解类型,限制了它们在现实世界中临床使用的稳健性。 我们建议使用 EndoIR,一个基于降解的、与降解无关的扩散框架,使用单一模型恢复多种降解类型。 EndoIR引入了一种双域提示器,可以提取联合空间频率特征,再加上一个自适应嵌入,将共享和特定任务的线索编码为去噪的条件。 为了减轻传统连接条件中的功能混淆,我们设计了一个双流扩散架构,分别处理清洁和退化的输入,一个正文的融合块以结构化的降解感知方式集成它们。 此外,噪声感知路由块通过在去噪过程中仅动态选择与噪声相关的功能来提高效率。 SegSTRONG-C和CEC数据集的实验表明,EndoIR在多个降解场景中实现了最先进的性能,同时使用比强基线更少的参数,下游分割实验证实了其临床效用。
尽管大型多模态模型(LMM)在高级视觉任务中的表现令人印象深刻,但它们的图像质量评估(IQA)的能力仍然有限。 其中一个主要原因是LMM主要是为高级任务(例如,图像字幕)训练的,强调不同质量下的统一图像语义提取。 这种语义意识但质量不敏感的感知偏差不可避免地导致当这些LMM被迫获得质量评级时,严重依赖图像语义。 在本文中,我们提出了一个无训练的偏差框架,而不是重新训练或调整LMM成本,其中通过减轻图像语义引起的偏差来纠正图像质量预测。 具体来说,我们首先探索了几种语义保存的失真,这些失真可以在保持可识别语义的同时显著降低图像质量。 通过将这些特定的失真应用于查询或测试图像,我们确保退化的图像被识别为劣质,而它们的语义主要存在。 在质量推断过程中,查询图像及其相应的退化版本都输入到LMM,同时提示表示在退化图像质量被认为质量差的条件下应推断查询图像质量。 此先前条件有效地调整了LMM的质量感知,因为所有退化的图像始终被评为劣质,无论其语义差异如何。 最后,使用条件概率模型汇总了在不同先前条件下(降级版本)推断的查询图像的质量分数。 各种IQA数据集的广泛实验表明,我们的去偏差框架可以持续增强LMM性能。
人工智能(AI)模型在黑色素瘤检测方面表现出专家级表现,但其临床采用受到性别,种族和年龄等人口分组的性能差异的阻碍。 以前对人工智能模型的性能进行基准测试的努力主要集中在使用依赖于接收器操作特征曲线(AUROC)下的区域的团体公平指标来评估模型性能,该指标没有提供模型提供准确估计能力的见解。 根据临床评估,本文通过将校准作为基于AUROC的公平性指标的补充基准指标来解决这一差距。 校准评估预测概率和观察到的事件速率之间的对齐,为亚组偏差提供了更深入的见解。 我们评估了ISIC 2020 Challenge和PROVE-AI数据集上领先的ISIC 2020 Challenge皮肤癌检测算法的性能,并将其与第二和第三位模型进行比较,重点关注按性别,种族(Fitzpatrick Skin Tone)和年龄定义的子组。 我们的研究结果表明,虽然现有模型提高了判别的准确性,但它们在应用于新数据集时通常会过度诊断风险并表现出校准问题。 这项研究强调了全面模型审计策略和广泛的元数据收集以实现公平的人工智能驱动的医疗保健解决方案的必要性。 所有代码均可在https://github.com/bdominique/testing_strong_calibration上公开。
超低场(ULF)MRI承诺更广泛的可访问性,但具有低信噪比(SNR),空间分辨率降低以及偏离高场标准的对比度。 图像到图像的翻译可以映射ULF图像到高场外观,但功效受到稀缺的配对训练数据的限制。 在ULF-EnC挑战约束(50个配对3D卷;没有外部数据)中工作,我们研究任务适应数据增强如何影响ULF图像增强的标准深度模型。 我们展示了强大、多样化的增强功能,包括高场数据的辅助任务,大大提高了保真度。 我们的提交在公共验证排行榜上由脑蒙面的SSIM排名第三,在最终测试排行榜上排名第三,在最终测试排行榜上排名第三。 代码可在https://github.com/fzimmermann89/low-field-enhancement查阅。
虽然Vision Transformers(ViT)在各种任务中表现出显着的性能,但他们的计算需求很大,与处理令牌的数量按二次缩放。 紧凑的注意力表示,反映令牌交互分布,可以在注意力计算之前指导早期检测和减少不太突出的令牌。 以此为动机,我们通过令牌相关性(SPOT)呈现了带有正文动态的SParsification,这是一个在ViTs中早期检测冗余令牌的框架,它利用令牌嵌入,交互和跨层的注意力动态来推断令牌的重要性,从而产生更具上下文感知和可解释的相关性检测过程。 SPOT为代币的散射提供信息,并促进消除此类代币,在不牺牲性能的情况下提高计算效率。 SPOT采用计算轻量级预测器,可以插入各种ViT架构,并学会跨层导出有效的输入特定令牌优先级。 其多功能设计支持一系列性能水平,可适应不同的资源限制。 与标准ViT相比,经验评估显示出高达40%的显着效率提升,同时保持甚至提高准确性。 代码和模型可在https://github.com/odedsc/SPOT 查阅。
训练后量化为部署超分辨率模型提供了一条有效的途径,但现有方法独立处理重量和激活量化,错过了它们的关键相互作用。 通过SwinIR的对照实验,我们发现了一种惊人的不对称性:重量量化主要降低结构相似性,而激活量化不成比例地影响像素级精度。 这源于它们独特的角色 - 权重编码纹理和边缘的已学习恢复先验,而激活则携带输入特定的强度信息。 基于这一见解,我们提出了HarmoQ,这是一个统一的框架,通过三个协同步骤来协调跨组件的量化:结构残余校准主动调整权重以补偿激活诱导的细节损失,通过封闭式解决方案分析平衡量化难度的统一尺度优化,以及在优化过程中自适应边界细化迭代保持这种平衡。 实验表明,HarmoQ在积极的压缩下取得了可观的收益,在2位的Set5上超过了0.46 dB,同时在A100 GPU上提供了3.2倍的加速和4倍的内存减少。 这项工作首次对超分辨率量化中的重量激活耦合进行了系统分析,并为高效的高质量图像恢复建立了原则性解决方案。
超分辨率(SR)旨在提高低分辨率图像的质量,并广泛应用于医学成像。 我们发现大多数现有方法的设计原则受到基于现实世界图像的SR任务的影响,并且不考虑病理图像中多级结构的重要性,即使它们能够实现值得尊敬的客观度量评估。 在这项工作中,我们深入研究了两个超分辨率的工作范式,并提出了一个名为CWT-Net的新网络,该网络利用跨尺度的图像小波变换和变形器架构。 我们的网络由两个分支组成:一个致力于学习超分辨率,另一个致力于高频小波特性。 为了生成高分辨率组织病理学图像,Transformer模块在不同阶段共享和融合了这两个分支的特征。 值得注意的是,我们设计了一个专门的小波重建模块,以有效增强小波域功能,并使网络能够以不同的模式运行,从而从跨尺度图像中引入额外的相关信息。 我们的实验结果表明,我们的模型在性能和可视化评估方面都显著优于最先进的方法,可以大大提高图像诊断网络的准确性。
现在,针对阿尔茨海默病的疾病修饰疗法已经获得监管机构的批准,基于可能的最低成本测量模式对AD的早期,客观和准确的临床诊断已成为一项日益迫切的需求。 在这项研究中,我们提出了一种新的特征提取方法,使用持久性同源来分析大脑的结构MRI。 这种方法通过Betti函数将拓扑特征转换为强大的特征向量。 通过将这些特征向量与像XGBoost这样的简单机器学习模型集成,我们实现了计算高效的机器学习模型。 我们的模型在ADNI 3D MRI疾病诊断的二进制和三类分类任务中优于最先进的深度学习模型。 使用10倍交叉验证,我们的模型实现了平均准确率为97.43%,二进制分类的灵敏度为90.09%。 对于三级分类,它的平均精度为95.47%,灵敏度为94.98%。 与许多深度学习模型不同,我们的方法不需要数据增强或广泛的预处理,因此特别适用于较小的数据集。 拓扑特征与通常使用卷积过滤器和其他深度学习机制提取的拓扑特征有很大不同。 因为它提供了与机器学习模型完全不同的信息类型,因此它有可能在以后将拓扑特征与其他模型相结合。
COVID-19大流行引发了迫切需要为对抗人类人口的巨大威胁做出贡献。 计算机视觉作为人工智能的一个子领域,最近在解决医疗保健方面的各种复杂问题取得了成功,并有可能为控制COVID-19的斗争做出贡献。 为了响应这一呼吁,计算机视觉研究人员正在将他们的知识库投入工作,以设计应对COVID-19挑战并服务全球社会的有效方法。 每天都有新的贡献。 它激励我们回顾最近的工作,收集有关现有研究资源的信息,并指示未来的研究方向。 我们希望将其提供给计算机视觉研究人员,以节省宝贵的时间。 本调查文件旨在对现有的关于抗击COVID-19大流行的计算机视觉努力的文献进行初步审查。
图形超分辨率,从低分辨率(LR)对应物推断高分辨率(HR)图的任务,是一个探索不足但至关重要的研究方向,规避了昂贵的数据采集需求。 这使得它特别适合资源有限的领域,如医疗领域。 虽然最近基于GNN的方法显示出了希望,但它们受到两个关键限制:(1)基于矩阵的节点超分辨率,它无视图形结构,缺乏排列不变性;(2)依靠节点表示来推断边缘权重,这限制了可扩展性和表达性。 在这项工作中,我们提出了两个与GNN无关的框架来解决这些问题。 首先,Bi-SR引入了连接LR和HR节点的双部分图,以实现结构感知节点超分辨率,从而保留拓扑和排列不变性。 其次,DEFEND通过将HR边缘映射到双图的节点来学习边缘表示,允许通过基于标准节点的GNN进行边缘推理。 我们评估现实世界的大脑连接数据集上的这两个框架,在七个拓扑测量中,它们实现了最先进的性能。 为了支持泛化,我们引入了12个新模拟数据集,这些数据集可以捕获不同的拓扑和LR-HR关系。 这些可以实现图形超分辨率方法的全面基准测试。
准确的流速图预测在强度调节放射治疗(IMRT)中至关重要,以最大限度地提高肿瘤覆盖率,同时尽量减少对健康组织的剂量。 常规优化是耗时的,依赖于规划师的专业知识。 这项研究提出了一个深度学习框架,可以加速流速图生成,同时保持临床质量。 端到端的3D Swin-UNETR网络经过培训,使用99个前列腺IMRT病例(79个用于训练,20个用于测试)直接从体积CT图像和解剖学轮廓中预测九束流率图。 基于变压器的模型采用分层自我关注来捕获局部解剖结构和远程空间依赖。 预测的流率图被导入到Eclipse治疗规划系统中进行剂量重新计算,并使用光束-明智的流率相关性,空间伽马分析和剂量体积直方图(DVH)指标评估模型性能。 拟议的模型在测试集上实现了平均R^2的0.95 + / - 0.02,MAE为0.035 + / - 0.008,伽马通过率为85 + / - 10%(3% / 3毫米),在预测和临床计划之间的DVH参数中没有显着差异。 Swin-UNETR框架直接从解剖输入实现完全自动化、无反逆的流率图预测,增强空间一致性、准确性和效率,同时为自动化IMRT计划生成提供可扩展和一致的解决方案。
最近基于隐式神经表示(INR)的图像压缩方法通过过度拟合图像特定的潜在代码显示了竞争性能。 然而,由于没有表达性的潜在表示,它们仍然低于端到端(E2E)压缩方法。 另一方面,E2E方法依赖于传输潜在代码和需要复杂的熵模型,导致解码复杂性的增加。 受到E2E编解码器中的规范化策略的启发,其中潜伏物转化为高斯噪声以证明消除空间冗余,我们探索了逆向方向:直接从高斯噪声产生潜伏点。 在本文中,我们提出了一种新的图像压缩范式,该范式从多尺度高斯噪声张量中重建图像特异性潜伏,使用共享随机种子进行确定性生成。 高斯参数预测(GPP)模块估计分布参数,通过重参数化技巧实现单次潜在生成。 然后通过合成网络传递预测的潜伏物来重建图像。 我们的方法消除了传输潜在代码的需要,同时保留了基于潜在的好处,在柯达和CLIC数据集上实现了具有竞争力的失真性能。 据我们所知,这是探索高斯潜在一代学习图像压缩的第一批作品。
Learned Image Compression (LIC) 中普遍存在的量化技术通常在所有层中使用静态的、均匀的比特宽,无法适应 LIC 模型中固有的高度多样化的数据分布和灵敏度特性。 这导致性能和效率之间的次优权衡。 在本文中,我们介绍了DynaQuant,一种动态混合精度量化的新框架,在两个互补级别上运行。 首先,我们提出内容感知量化,其中可学习的缩放和偏移参数动态适应潜在特征的统计变化。 这种细粒度的适应是使用新颖的远程感知梯度调节器(DGM)端到端训练的,它提供了比标准直通估计器更丰富的学习信号。 其次,我们引入了一个数据驱动的动态比特宽选择器,该选择器学习为每个层分配最佳位精度,并根据输入数据动态重新配置网络的精度配置文件。 我们的完全动态方法在平衡速率失真(R-D)性能和计算成本方面提供了很大的灵活性。 实验证明,DynaQuant实现了与全精度模型相当的性能,同时显著降低了计算和存储需求,从而实现了高级LIC在不同硬件平台上的实际部署。
在计算病理学中,全幻灯片图像(WSI)的千兆像素尺度需要将其分成数千个较小的补丁。 分析这些高维补丁嵌入在计算上是昂贵的,并且有可能用许多不信息化的补丁稀释关键诊断信号。 现有的补丁选择方法通常依赖于随机抽样或简单的聚类方法,并且通常无法明确管理所选补丁数量与结果幻灯片表示的准确性之间的关键权衡。 为了解决这一差距,我们提出了EvoPS(Evolutionary Patch Selection),这是一个新颖的框架,将补丁选择作为多目标优化问题,并利用进化搜索来同时最小化选定的补丁嵌入数量并最大化下游相似性搜索任务的性能,生成最佳权衡解决方案的Pareto前置。 我们在癌症基因组图谱(TCGA)的四大癌症队列中验证了我们的框架,使用五个预训练的深度学习模型来生成补丁嵌入,包括监督CNN和大型自我监督基础模型。 结果表明,与使用通过标准提取管道选择的所有可用补丁嵌入的基线相比,EvoPS可以将所需的训练补丁嵌入数量减少90%以上,同时持续维护甚至改进最终分类F1分数。 EvoPS框架提供了一种稳健且有原则的方法,用于创建高效、准确和可解释的WSI表示,使用户能够在计算成本和诊断性能之间选择最佳平衡。
继续滚动加载更多