规范相关性分析(CCA)是一种在两个数据集之间寻找相关特征集的技术。 在本文中,我们提出了CCA对在线流数据设置的新扩展:滑动窗口信息规范相关性分析(SWICCA)。 我们的方法使用流主成分分析(PCA)算法作为后端,并将这些输出与样品的小滑动窗口相结合,实时估计CCA组件。 我们激励和描述我们的算法,提供数值模拟来表征其性能,并提供理论性能保证。 SWICCA方法适用于并可扩展到极高的尺寸,我们提供了一个真实的数据示例,展示了这种能力。
医学成像在现代医疗保健中起着关键作用,使临床医生能够准确诊断疾病并制定有效的治疗计划。 然而,通常由成像设备引入的噪声会降低图像质量,导致误解和临床结果受损。 现有的去噪方法通常依赖于噪声特性或图像的上下文信息。 此外,它们通常被开发和评估为单一的成像模式和噪声类型。 由Geng et.al CNCL激发,它集成了噪声和上下文,本研究引入了双通路学习(DPL)模型架构,通过利用信息来源并融合它们来生成最终输出,从而有效地消除医学图像。 DPL通过多种成像模式和各种类型的噪声进行评估,证明其稳健性和可推广性。 DPL将PSNR提高了3.35
生物医学基础模型(FMs)正在迅速改变人工智能的医疗保健研究并进入临床验证。 然而,他们对学习非生物学技术特征的易感性 - 包括手术/内窥镜技术,实验室程序和扫描仪硬件的变化 - 给临床部署带来了风险。 我们首次对病理学FM稳健性进行系统调查,以非生物特征。 我们的工作(i)引入了量化FM稳健性的措施,(ii)展示了有限稳健性的后果,(iii)提出了调频稳健化框架以减轻这些问题。 具体来说,我们开发了PathoROB,一个具有三个新指标的稳健性基准,包括稳健性指数,以及四个数据集,涵盖来自34个医疗中心的28个生物类。 我们的实验揭示了所有20个评估的FM的稳健性缺陷,以及它们之间的实质性鲁棒性差异。 我们发现,非强效FM表示会导致主要的诊断下游错误和临床失误,从而阻止安全临床采用。 使用更强大的调频和事后的稳健化大大降低(但尚未消除)此类错误的风险。 这项工作确定,鲁棒性评估对于在临床采用之前验证病理调频至关重要,并表明未来的调频开发必须将稳健性作为核心设计原则。 PathoROB为评估生物医学领域的稳健性提供了蓝图,指导FM改进工作,以实现更强大,更具代表性和临床可部署的人工智能系统,将生物信息优先于技术工件。
使用HSI进行自主导航是一个有前景的研究领域,旨在提高基于视觉传感器的检测、跟踪和场景理解系统的准确性和鲁棒性。将DNN等先进计算机算法与小型快照HSI相机相结合,增强了这些系统的可靠性。HSI克服了灰度和RGB成像在描述目标物理特性(特别是光谱反射率和同色异谱)方面的固有局限性。尽管基于HSI的视觉开发取得了有希望的成果,但像ADS这样的安全关键系统对延迟、资源消耗和安全性有严格要求,这促使将机器学习工作负载转移到边缘平台。这需要彻底的软硬件协同设计方案,以在计算平台的有限资源中高效分配和优化任务。就推理而言,DNN的过参数化特性给实时边缘部署带来了重大计算挑战。此外,HSI所需的大量数据预处理(经常被忽视)必须在内存安排和任务间通信方面仔细管理,以实现SoC上的高效集成流水线设计。本工作提出了一套优化技术,用于实际协同设计部署在面向ADS的FPGA SoC上的基于DNN的HSI分割处理器,包括关键优化如功能性软硬件任务分配、硬件感知预处理、ML模型压缩和完整的流水线部署。应用的压缩技术将设计的DNN复杂度显著降低至24.34
裂纹检测是计算机视觉中一项重要任务。 尽管数据集内性能令人印象深刻,但基于深度学习的方法仍然难以概括到看不见的领域。 裂缝的薄结构特性通常被以前的方法所忽视。 在这项工作中,我们介绍了CrackCue,这是一种基于粗细裂纹线索生成的坚固裂纹检测的新方法。 核心概念在于利用薄结构属性来产生强大的裂纹线索,引导裂纹检测。 具体来说,我们首先在裂纹图像上采用简单的最大池化和向上采样操作。 这导致粗无裂背景,基于该背景可以通过重建网络获得精细无裂纹背景。 原始图像和无裂缝背景之间的差异提供了一个精细的裂缝提示。 这个精细的提示嵌入了强大的裂缝前置信息,不受复杂背景,阴影和各种照明的影响。 作为即插即用方法,我们将提议的CrackCue纳入三个先进的裂纹检测网络。 广泛的实验结果表明,拟议的CrackCue显着提高了基线方法的概括能力和稳健性。 源代码将公开。
规范相关性分析(CCA)是一种在两个数据集之间寻找相关特征集的技术。 在本文中,我们提出了CCA对在线流数据设置的新扩展:滑动窗口信息规范相关性分析(SWICCA)。 我们的方法使用流主成分分析(PCA)算法作为后端,并将这些输出与样品的小滑动窗口相结合,实时估计CCA组件。 我们激励和描述我们的算法,提供数值模拟来表征其性能,并提供理论性能保证。 SWICCA方法适用于并可扩展到极高的尺寸,我们提供了一个真实的数据示例,展示了这种能力。
医学成像在现代医疗保健中起着关键作用,使临床医生能够准确诊断疾病并制定有效的治疗计划。 然而,通常由成像设备引入的噪声会降低图像质量,导致误解和临床结果受损。 现有的去噪方法通常依赖于噪声特性或图像的上下文信息。 此外,它们通常被开发和评估为单一的成像模式和噪声类型。 由Geng et.al CNCL激发,它集成了噪声和上下文,本研究引入了双通路学习(DPL)模型架构,通过利用信息来源并融合它们来生成最终输出,从而有效地消除医学图像。 DPL通过多种成像模式和各种类型的噪声进行评估,证明其稳健性和可推广性。 DPL将PSNR提高了3.35
生物医学基础模型(FMs)正在迅速改变人工智能的医疗保健研究并进入临床验证。 然而,他们对学习非生物学技术特征的易感性 - 包括手术/内窥镜技术,实验室程序和扫描仪硬件的变化 - 给临床部署带来了风险。 我们首次对病理学FM稳健性进行系统调查,以非生物特征。 我们的工作(i)引入了量化FM稳健性的措施,(ii)展示了有限稳健性的后果,(iii)提出了调频稳健化框架以减轻这些问题。 具体来说,我们开发了PathoROB,一个具有三个新指标的稳健性基准,包括稳健性指数,以及四个数据集,涵盖来自34个医疗中心的28个生物类。 我们的实验揭示了所有20个评估的FM的稳健性缺陷,以及它们之间的实质性鲁棒性差异。 我们发现,非强效FM表示会导致主要的诊断下游错误和临床失误,从而阻止安全临床采用。 使用更强大的调频和事后的稳健化大大降低(但尚未消除)此类错误的风险。 这项工作确定,鲁棒性评估对于在临床采用之前验证病理调频至关重要,并表明未来的调频开发必须将稳健性作为核心设计原则。 PathoROB为评估生物医学领域的稳健性提供了蓝图,指导FM改进工作,以实现更强大,更具代表性和临床可部署的人工智能系统,将生物信息优先于技术工件。
裂纹检测是计算机视觉中一项重要任务。 尽管数据集内性能令人印象深刻,但基于深度学习的方法仍然难以概括到看不见的领域。 裂缝的薄结构特性通常被以前的方法所忽视。 在这项工作中,我们介绍了CrackCue,这是一种基于粗细裂纹线索生成的坚固裂纹检测的新方法。 核心概念在于利用薄结构属性来产生强大的裂纹线索,引导裂纹检测。 具体来说,我们首先在裂纹图像上采用简单的最大池化和向上采样操作。 这导致粗无裂背景,基于该背景可以通过重建网络获得精细无裂纹背景。 原始图像和无裂缝背景之间的差异提供了一个精细的裂缝提示。 这个精细的提示嵌入了强大的裂缝前置信息,不受复杂背景,阴影和各种照明的影响。 作为即插即用方法,我们将提议的CrackCue纳入三个先进的裂纹检测网络。 广泛的实验结果表明,拟议的CrackCue显着提高了基线方法的概括能力和稳健性。 源代码将公开。
家禽业一直受到肉鸡生产的推动,并发展成为世界上最大的动物蛋白行业。 在加工线上自动检测鸡尸体对于屠宰场和家禽加工厂的质量控制、食品安全和操作效率至关重要。 然而,为这些快节奏的工业环境中的实例分割等任务开发强大的深度学习模型往往受到需要费力的获取和大规模真实世界图像数据集的注释的阻碍。 我们展示了第一个生成照片逼真的管道,自动标记鸡尸体的合成图像。 我们还引入了一个新的基准数据集,其中包含300个注释的真实图像,专门用于家禽分割研究。 使用这些数据集,本研究研究合成数据和自动数据注释的功效,以增强鸡尸体的实例分割,特别是当处理线的真实注释数据稀缺时。 在突出的实例分割模型中评估了具有不同比例合成图像的小型真实数据集。 结果表明,合成数据显着提高了所有车型鸡尸体的分割性能。 这项研究强调了合成数据增强作为减轻数据稀缺的可行有效策略的价值,减少了手动注释工作,并推动了家禽加工业中鸡尸体的强大AI驱动的自动化检测系统的开发。
由于传统临床模型的不理想准确性,结直肠肝转移(CRLM)患者的预后评估仍然具有挑战性。 这项研究开发并验证了用于预测术后复发风险的强大的机器学习模型。 初步集成模型实现了极高的性能(AUC > 0.98),但采用了术后功能,引入了数据泄露风险。 为了增强临床适用性,我们将输入变量限制在术前基线临床参数和对比增强CT成像的放射学特征上,专门针对术后3,6和12个月的复发预测。 3个月的复发预测模型在交叉验证中以0.723的AUC证明了最佳性能。 决策曲线分析显示,在0.55-0.95的阈值概率中,该模型始终提供比“治疗所有”或“治疗无”策略更大的净收益,支持其在术后监测和治疗决策中的效用。 这项研究成功地开发了一种强大的早期CRLM复发预测模型,并证实了临床效用。 重要的是,它突出了临床预后建模中数据泄露的关键风险,并提出了一个严格的框架来缓解这个问题,提高了模型的可靠性和在实际环境中的转化价值。
多切片电子分形(MEP)是一种逆成像技术,可计算从衍射模式中重建原子晶体结构的最高分辨率图像。 可用的算法通常迭代地解决这个反向问题,但由于其不良性质,既耗时又产生次优解决方案。 我们开发MEP-Diffusion,这是一种在大型晶体结构数据库中训练的扩散模型,专门用于MEP,以增强现有的迭代求解器。 MEP-Diffusion通过Diffusion后采样(DPS)作为生成物预先集成到现有的重建方法中。 我们发现这种混合方法大大提高了重建的3D卷的质量,实现了90.50。
多模态大模型在自动化病理学图像分析方面显示出巨大的潜力。 然而,目前胃肠道病理学的多模态模型受到数据质量和推理透明度的限制:公共数据集中普遍存在的噪声和不完整的注释在生成诊断文本时使视觉语言模型倾向于事实幻觉,而缺乏明确的中间推理链使输出难以审计,因此在临床实践中不太可信。 为了解决这些问题,我们构建了一个包含微观描述和诊断结论的大规模胃肠道病理学数据集,并提出了一个包含病变分类和解剖学站点信息的提示论证策略。 这种设计指导模型更好地捕获图像特定特征,并在生成时保持语义一致性。 此外,我们采用后培训管道,将监督微调与组相对策略优化(GRPO)相结合,以提高推理质量和输出结构。 真实世界病理学报告生成任务的实验结果表明,我们的方法在生成质量,结构完整性和临床相关性方面显着优于最先进的开源和专有基线。 我们的解决方案优于最先进的型号,达到 18.7
无监督异常检测(UAD)旨在检测没有标记数据的异常,这是许多机器学习应用中的必需品,其中异常样本很少或不可用。 大多数最先进的方法分为两类:基于重建的方法,它们通常很好地重建异常,以及用密度估计器解耦表示学习,这可能会受到次优特征空间的影响。 虽然最近的一些方法试图耦合学习和异常检测,但它们通常依赖于替代目标,限制内核选择,或引入限制其表现力和鲁棒性的近似值。 为了应对这一挑战,我们提出了一种新的方法,通过将潜在特征与OCSVM决策边界直接对齐的自定义损失公式,将表征学习与分析可解决的单类SVM(OCSVM)紧密结合。 该模型根据两个任务进行评估:基于MNIST-C的新基准,以及具有挑战性的脑MRI微妙病变检测任务。 与大多数在图像级别关注大,超强性病变的方法不同,我们的方法成功地针对小的,非高热的病变,同时我们评估体素明智的指标,解决更临床相关的场景。 这两项实验都评估了域移位的稳健性,包括MNIST-C中的腐败类型和MRI的扫描仪/年龄变化。 结果表明了我们建议模式的性能和稳健性,突出了其在一般UAD和现实世界医学成像应用中的潜力。 源代码可在https://github.com/Nicolas-Pinon/uad_ocsvm_guided_repr_learning上找到。
单像素成像已成为荧光显微镜的关键技术,其中快速获取和重建至关重要。 在这种情况下,图像是从线性压缩测量中重建的。 在实践中,总变异最小化仍然用于从正交采样模式向量和原始图像数据之间的内部产品的嘈杂测量中重建图像。 然而,可以利用数据来学习测量向量和重建过程,从而提高压缩,重建质量和速度。 我们通过自我监督训练自动编码器来学习编码器(或测量矩阵)和解码器。 然后,我们在物理获得的多光谱和强度数据上对其进行测试。 在采集过程中,学习编码器成为物理设备的一部分。 我们的方法可以通过将重建时间缩短两个数量级,实现卓越的图像质量,实现多光谱重建,从而增强荧光显微镜中的单像素成像。 最终,学习单像素荧光显微镜可以推进诊断和生物学研究,以一小部分成本提供多光谱成像。
多源CT扫描分类受到域移的影响,损害了跨源的概括。 虽然结合空间-切片特征学习(SSFL++)和基于内核的Slice Sampling(KDS)的预处理管道已经显示出经验上的成功,但它们领域稳健性背后的机制仍然未被探索。 本研究分析了这种输入空间标准化如何管理本地可判和跨源通用之间的权衡。 SSFL++和KDS管道执行空间和时间标准化,以减少源间方差,有效地将不同的输入映射到一致的目标空间中。 这种抢先对齐可减轻域移位,简化了网络优化的学习任务。 实验验证展示了跨架构的一致改进,证明了预处理本身的好处。 该方法的有效性通过在竞争挑战中获得第一名,支持输入空间标准化作为多机构医学成像的稳健和实用解决方案,得到了验证。
Federated Learning(FL)是一种协作学习方法,可以实现分散的模型训练,同时保留数据隐私。 尽管在医学成像方面有前景,但最近的FL方法通常对优化器和学习率等局部因素敏感,限制了在实际部署中的稳健性。 在这项工作中,我们重新审视了香草FL,以澄清边缘设备配置的影响,对最近的FL方法在结直肠病理学和血细胞分类任务上的基准。 我们用数字来表明,本地优化器和学习率的选择比特定的FL方法对性能的影响更大。 此外,我们发现增加本地训练纪元可以增强或损害收敛,这取决于FL方法。 这些发现表明,适当的边缘特定配置比算法复杂性对于实现有效的FL更重要。
点云深度学习的最新进展导致模型在大规模点云上实现了高每个部分标签精度,仅使用无序点集的原始几何形状。 同时,人类解析领域的重点是从图像中预测身体部位和服装/配件标签。 这项工作旨在通过实现大规模人类网格的垂直语义分割来弥合这两个领域。 为了实现这一目标,为Thuman2.1数据集开发了一个伪地面真理标签管道:网格首先与规范姿势对齐,从多个角度进行细分,然后将生成的点级标签重新投射到原始网格上,以产生每点伪地面真图注释。 随后,引入了一种新的,具有内存效率的采样策略,这是一种具有基于空间填充曲线序列化的窗口迭代最远点采样(FPS),以有效地对点云进行采样。 接下来是使用PointTransformer的纯几何分割,无需依赖纹理信息即可实现人类网格的语义解析。 实验结果证实了拟议方法的有效性和准确性。
乳腺癌(BC)仍然是女性癌症相关死亡的主要原因之一,尽管计算机辅助诊断(CAD)系统最近取得了进展。 多视图乳房X光检查的准确和高效解释对于早期检测至关重要,推动了对人工智能(AI)驱动的CAD模型的兴趣激增。 虽然最先进的多视图乳房X光检查分类模型主要基于Transformer架构,但其计算复杂性与图像补丁的数量按二次缩放,突出了对更高效替代品的需求。 为了应对这一挑战,我们提出了Mammo-Mamba,这是一个新颖的框架,将选择性状态空间模型(SSM)、基于变压器的注意力和专家驱动的功能细化集成到统一的架构中。 Mammo-Mamba通过其定制的SecMamba块引入专家顺序混合(SeqMoE)机制,扩展了MambaVision骨干。 SecMamba是一个经过修改的MambaVision块,通过实现内容自适应功能改进,增强了高分辨率乳房X光画图像中的表示学习。 这些块被集成到MambaVision的更深层次阶段,使模型能够通过动态专家闩门逐步调整功能重点,有效地减轻传统变形金刚模型的限制。 在CBIS-DDSM基准数据集上进行评估,Mammo-Mamba在所有关键指标上实现了卓越的分类性能,同时保持计算效率。
双能X射线计算断层扫描(DECT)是一种先进的技术,可以在临床图像中自动分解材料,而无需使用X射线线性衰减与能量的依赖进行手动分割。 然而,大多数方法在图像域中作为重建后的后处理步骤执行材料分解,但此过程没有考虑光束硬化效应,并产生次优结果。 在这项工作中,我们提出了一种名为双能量分解模型(DEcomp-MoD)的深度学习程序,用于定量材料分解,直接将DECT投影数据转换为材料图像。 该算法基于将光谱DECT模型的知识纳入深度学习训练损失,并结合在材料图像领域之前学到的基于分数的去噪扩散。 重要的是,推理优化损失直接作为输入,并通过基于模型的条件扩散模型转换为材料图像,该模型保证了结果的一致性。 我们通过定量和定性估计拟议的DEcomp-MoD方法从低剂量的AAPM数据集对合成DECT sinograms的性能进行评估。 最后,我们表明,DEcomp-MoD优于最先进的无监督基于分数的模型和监督深度学习网络,有可能用于临床诊断。
本文介绍了一种从蒙面输入图像中合成健康3D脑组织的新方法,特别侧重于“ASNR-MICCAI BraTS通过喷漆组织局部合成”的任务。 我们提出的方法采用了基于U-Net的架构,该架构旨在有效地重建大脑MRI扫描的缺失或损坏区域。 为了增强模型的概括能力和稳健性,我们实施了一个全面的数据增强策略,包括在训练过程中随机掩盖健康图像。 我们的模型在BraTS-Local-Inpainting数据集上进行了训练,并展示了在恢复健康脑组织方面的卓越表现。 所采用的评估指标,包括结构相似度指数(SSIM),峰值信号到噪声比率(PSNR)和均方误差(MSE),始终如一地产生令人印象深刻的结果。 在BraTS-Local-Inpainting验证集上,我们的模型实现了SSIM评分0.841,PSNR评分为23.257,MSE评分为0.007。 值得注意的是,这些评估指标表现出相对较低的标准差,即SSIM分数为0.103,PSNR评分为4.213,MSE评分为0.007,这表明我们的模型在各种输入场景中的可靠性和一致性。 我们的方法在挑战中也获得了第一名。
氮(N)是葡萄园中最重要的营养素之一,影响植物生长和随后的产品,如葡萄酒和果汁。 由于土壤N具有很高的时空变异性,因此最好准确地估计葡萄叶的N浓度,并在单个植物水平上管理施肥,以最佳地满足植物需求。 在这项研究中,我们使用场内高光谱图像,其波长范围从不同的葡萄园收集到的四种不同葡萄栽培品种的400至1000nm不等,并在两个生长季节的两个生长阶段开发预测N浓度的模型。 在图像处理后,使用两种特征选择方法来确定对叶N浓度有反应的最佳光谱带集。 选定的光谱波段用于训练和测试两种不同的机器学习(ML)模型,梯度提升和XGBoost,用于预测氮浓度。 对叶级和树冠级数据集的选定波段的比较表明,特征选择方法确定的大多数光谱区域都涉及两种方法和数据集类型(叶和树冠级数据集),特别是在关键区域,500-525nm,650-690nm,750-800nm和900-950nm。 这些发现表明了这些光谱区域用于预测氮含量的稳健性。 N预测的结果表明,尽管每个分析级别使用不同的一组选定的光谱带,但ML模型为树冠级数据的R平方为0.49,为叶级数据实现了R平方为0.57。 该研究展示了在集成特征选择和ML技术中使用场内高光谱成像和使用光谱数据来监测葡萄园N状态的潜力。
给定对象掩码,Semi-supervised Video Object Segmentation(SVOS)技术旨在跨视频帧跟踪和分割对象,作为计算机视觉的基本任务。 虽然最近基于内存的方法显示出潜力,但它们经常与涉及遮挡的场景作斗争,特别是在处理对象交互和高特征相似性方面。 为了解决这些问题并满足下游应用的实时处理要求,本文中,我们提出了一种新的bOundary Amendment视频对象分割方法与固有结构细化,特此命名OASIS。 具体来说,提出了一个轻量结构细化模块,以提高分割精度。 通过Canny过滤器和存储对象特征捕获的粗糙边缘先验的融合,该模块可以生成对象级结构图,并通过突出边界特征来改进表示。 引入了不确定性估计的证据学习,以进一步应对遮挡地区的挑战。 拟议的方法OASIS保持高效的设计,但与最先进的方法相比,对具有挑战性的基准进行了广泛的实验,证明了其卓越的性能和竞争推理速度,即实现91.6的F值(相对于。 89.7 DAVIS-17验证集)和G值86.6(相对于。 在 YouTubeVVO 2019 验证集上,在 DAVIS 上保持 48 FPS 的竞争速度。
传统中医(TCM)舌头诊断虽然具有临床价值,但由于主观解释和不一致的成像协议而面临标准化挑战,而缺乏用于AI开发的大规模注释数据集。 为了解决这一差距,我们提出了第一个人工智能驱动的中医舌头诊断的专门数据集,包括6,719张在标准化条件下捕获的高质量图像,并附加了20个病理症状类别(每张图像平均2.54个临床验证标签,所有这些都由许可的中医从业者验证)。 该数据集支持多种注释格式(COCO,TXT,XML)以实现广泛的可用性,并使用9种深度学习模型(YOLOv5/v7/v8变体,SSD和MobileNetV2)进行了基准测试,以展示其用于AI开发的实用性。 该资源为推进中医中可靠的计算工具,弥合阻碍该领域进展的数据短缺,并通过标准化的高质量诊断数据促进人工智能融入研究和临床实践的关键基础。
视觉变压器(ViTs)的出现彻底改变了计算机视觉,但与传统卷积神经网络(CNN)相比,它在医学成像方面的有效性仍然不足。 这项研究对CNN和ViT架构进行了全面的比较分析,分析了三个关键的医学成像任务:胸部X射线肺炎检测,脑肿瘤分类和皮肤癌黑色素瘤检测。 我们评估了四个最先进的模型 - ResNet-50,EfficientNet-B0,ViT-Base和DeiT-Small - 跨越总计8,469个医疗图像的数据集。 我们的成果证明了特定任务的模型优势:ResNet-50 实现了 98.37