发现有趣的现象是科学发现的核心,但它是一本手册,定义不清的概念。 我们提出了一个集成管道,用于在结构化生物医学数据中发现有趣的简单假设(具有效应方向的特征和目标关系和潜在潜在机制)。 该管道结合了机器学习、知识图谱、文献搜索和大型语言模型。 我们将“有趣性”正式化为新颖性,实用性和合理性的结合。 在英国生物银行的8种主要疾病中,我们的管道在文献中出现之前,一直在恢复风险因素。 40-53名候选人被验证为有趣,而基线为0-7。 总的来说,28管道解决了“有趣性”和任何目标的挑战。 我们发布数据和代码:https://github.com/LinialLab/InterFeat
尽管它们能够理解化学知识并准确生成顺序表示,但大型语言模型(LLM)在提出具有类似药物特性的新型分子的能力方面仍然有限。 此外,LLM提出的分子在实验室中制造往往具有挑战性。 为了更有效地发现功能性小分子,LLM需要学习分子语言。 然而,LLM目前受到来自原子的分子编码的限制。 在本文中,我们认为,就像将文本标记化为(子)词令牌而不是字符一样,分子应该在功能构建块的水平上进行分解和重新组装,即分子部分,这些分子部分带来了独特的功能,并作为现实世界自动化实验室合成的有效构建块。 这激励我们提出mCLM,一种模块化的化学语言模型,将分子标记到构建模块中,并学习函数和分子构建块的自然语言描述的双语语言模型。 通过对这些功能构建模块进行推理,mCLM保证由于最近基于块的化学进展而产生可合成的分子,同时还以原则性的方式改善分子的功能。 在430种FDA批准的药物的实验中,我们发现mCLM能够显着改善6个化学功能中的5个,这对于确定药物潜力至关重要。 更重要的是,mCLM可以在多个迭代中推理多个功能并改善FDA拒绝的药物(“堕落的天使”),以大大提高其缺点。
从高维系统的几个快照中恢复动力学是统计物理和机器学习中的一项具有挑战性的任务,在计算生物学中具有重要的应用。 已经开发了许多算法来解决这个问题,基于最佳传输和薛定谔桥等框架。 最近的一个值得注意的框架是正则不平衡最优传输(RUOT),它结合了随机动力学和非规范化分布。 然而,由于许多现有方法没有明确实施最优条件,它们的解决方案往往难以满足行动最少的原则,并迎接以稳定可靠的方式收敛的挑战。 为了解决这些问题,我们提出了变量RUOT(Var-RUOT),这是一个解决RUOT问题的新框架。 通过将RUOT问题的最佳必要条件纳入搜索空间的参数化和损失函数设计,Var-RUOT只需要学习一个标量字段来解决RUOT问题,就可以以较低的作用搜索解决方案。 我们还研究了在广泛使用的Wasserstein-Fisher-Rao指标中选择生长惩罚函数的挑战,并提出了一个与Var-RUOT中的生物先验更好地保持一致的解决方案。 我们验证了Var-RUOT在模拟数据和真实单细胞数据集上的有效性。 与现有算法相比,Var-RUOT可以找到具有较低作用的解决方案,同时表现出更快的收敛率和更高的训练稳定性。
从稀疏的时间解决的快照数据中模拟动态对于理解复杂的细胞过程和行为至关重要。 现有方法利用最优传输,薛定谔桥理论或其变体,同时从快照数据中推断出随机的,不平衡的动态。 然而,这些方法在解释细胞-细胞相互作用的能力方面仍然有限。 这种整合在现实世界中是必不可少的,因为细胞间通信是基本的生命过程,可以影响细胞状态过渡动力学。 为了应对这一挑战,我们制定了不平衡的均场薛定谔桥(UMFSB)框架,以从快照数据中模拟不平衡的随机交互动力学。 受此框架的启发,我们进一步提出了CytoBridge,这是一种深度学习算法,旨在近似UMFSB问题。 通过显式建模通过神经网络进行细胞过渡、增殖和相互作用,CytoBridge提供了直接从数据中学习这些过程的灵活性。 我们的方法的有效性已经使用合成基因调控数据和真实的scRNA-seq数据集进行了广泛的验证。 与现有方法相比,CytoBridge识别增长,过渡和交互模式,消除错误过渡,并以更高的精度重建发展格局。
深度学习模型在预测蛋白质功能和蛋白质层面的相互作用方面取得了重大进展。 虽然这些进步对于许多生物学应用(如酶工程和功能注释)非常宝贵,但对于理解蛋白质功能机制和评估模型捕获的生物知识,更详细的视角至关重要。 为了解决这一需求,我们引入了VenusX,这是第一个在残留、片段和域水平上进行细粒功能注释和基于功能的蛋白质配对的大规模基准测试。 VenusX包括六种类型的注释中的三个主要任务类别,包括残留级别二进制分类,片段级多类分类,以及用于识别关键活动位点,结合位点,保守站点,主题,域和表位的成双级功能相似性评分。 该基准测试了来自InterPro、BioLiP和SAbDab等主要开源数据库的878,000多个样本。 通过在三个序列身份阈值提供混合家族和跨家族分割,我们的基准能够全面评估分布内和分布外情景的模型性能。 对于基线评估,我们评估一组流行的和开源的模型,包括预训练的蛋白质语言模型,序列结构混合,基于结构的方法和基于对齐的技术。 他们的性能使用多个指标在所有基准数据集和评估设置中报告,为未来的研究提供了彻底的比较和坚实的基础。 代码和数据可公开查阅https://github.com/ai4protein/VenusX。
尽管它们能够理解化学知识并准确生成顺序表示,但大型语言模型(LLM)在提出具有类似药物特性的新型分子的能力方面仍然有限。 此外,LLM提出的分子在实验室中制造往往具有挑战性。 为了更有效地发现功能性小分子,LLM需要学习分子语言。 然而,LLM目前受到来自原子的分子编码的限制。 在本文中,我们认为,就像将文本标记化为(子)词令牌而不是字符一样,分子应该在功能构建块的水平上进行分解和重新组装,即分子部分,这些分子部分带来了独特的功能,并作为现实世界自动化实验室合成的有效构建块。 这激励我们提出mCLM,一种模块化的化学语言模型,将分子标记到构建模块中,并学习函数和分子构建块的自然语言描述的双语语言模型。 通过对这些功能构建模块进行推理,mCLM保证由于最近基于块的化学进展而产生可合成的分子,同时还以原则性的方式改善分子的功能。 在430种FDA批准的药物的实验中,我们发现mCLM能够显着改善6个化学功能中的5个,这对于确定药物潜力至关重要。 更重要的是,mCLM可以在多个迭代中推理多个功能并改善FDA拒绝的药物(“堕落的天使”),以大大提高其缺点。
在药物发现中,绘制细胞系统内基因之间的相互作用是至关重要的早期步骤。 这些地图不仅是了解疾病生物学基础的基础,也是制定关于新药潜在靶点的假设的关键。 认识到需要提升这些基因-基因相互作用网络的构建,特别是来自大规模、现实世界的扰动单细胞数据集,CaisalBench挑战赛开始了。 这一挑战旨在激励机器学习社区增强最先进的方法,强调更好地利用广泛的遗传扰动数据。 使用CaisalBench基准提供的框架,参与者的任务是改进当前方法或提出新的方法。 本报告对在挑战期间提交的方法进行了分析和总结,以对挑战时的艺术状况进行部分描述。 值得注意的是,与以前的基线相比,获胜的解决方案显着提高了性能,为生物学和医学中的这一关键任务建立了新的技术状态。
不良药物反应对癌症治疗的患者结果和医疗保健成本产生很大影响。 使用人工智能实时预测药物不良反应可能会彻底改变肿瘤治疗。 这项研究旨在评估人工智能模型在预测癌症患者药物不良反应方面的表现。 这是第一个系统回顾和荟萃分析。 Scopus,PubMed,IEEE Xplore和ACM Digital Library数据库从2018年1月1日至2023年8月20日搜索了英语,法语和阿拉伯语的研究。 纳入标准是:(1)同行评审的研究文章;(2)使用人工智能算法(机器学习,深度学习,知识图谱);(3)旨在预测药物不良反应的研究(心毒性,中性粒细胞减少症,肾毒性,肝毒性);(4)研究对象是癌症患者。 这些数据由三名评审员提取和评估,以获得研究质量。 在332篇筛选文章中,有17项研究(5项系统综述,其中10项研究综合了荟萃分析。 创建了一个随机效应模型,以汇集纳入研究的灵敏度,特异性和AUC。 汇总结果为ADR预测模型的0.82(分别为95(95和AUC)。 生物标志物证明了它在预测ADR方面的有效性,但它们只被一半的审查研究所采用。 人工智能在癌症治疗中的使用显示出巨大的潜力,模型在预测ADR时表现出高特异性和灵敏度。 然而,需要标准化的研究和多中心研究来提高证据的质量。 人工智能可以通过弥合数据驱动的见解和临床专业知识之间的差距来增强癌症患者的护理。
详尽的虚拟筛选信息量很大,但通常与现代药物发现所涉及的昂贵客观功能相抗衡。 这个问题在多向量膨胀等组合环境中加剧,其中分子空间可以迅速变得超大型。 在这里,我们介绍了通过同步采集(SALSA)进行可扩展主动学习(Synthon Acquisition):一种适用于多向量扩展的简单算法,该算法通过在同步或片段选择上因子建模和获取,将基于池的主动学习扩展到非可枚举空间。 通过基于配体和结构的目标的实验,我们强调了SALSA的样品效率,以及其扩展到数万亿个化合物空间的能力。 此外,我们展示了三个蛋白质靶标的多参数客观设计任务的应用 - 发现SALSA生成的分子具有与已知生物活性物相当的化学特性,并且在行业领先的生成方法上表现出更大的多样性和更高的分数。
时间解析的单细胞组学数据提供了细胞状态的高通量、全基因组测量,有助于逆向工程支撑细胞命运的过程。 这种技术本质上是破坏性的,只允许对底层随机动力学系统进行横截面测量。 此外,细胞除了改变分子状态外,还可能分裂或死亡。 总的来说,这些是推断现实生物物理模型的重大挑战。 我们提出了一种新的方法,不平衡的概率流推断,解决了生物过程的这个挑战,模拟为随机动力学与增长。 通过利用福克-普朗克方程的拉格朗日公式,我们的方法准确地将远离内在的噪音和增长。 我们通过评估一系列模拟和真实的单细胞RNA-seq数据集来展示我们方法的适用性。 与几种现有方法相比,我们发现我们的方法在享受简单的两步训练方案的同时,实现了更高的精度。
从高维系统的几个快照中恢复动力学是统计物理和机器学习中的一项具有挑战性的任务,在计算生物学中具有重要的应用。 已经开发了许多算法来解决这个问题,基于最佳传输和薛定谔桥等框架。 最近的一个值得注意的框架是正则不平衡最优传输(RUOT),它结合了随机动力学和非规范化分布。 然而,由于许多现有方法没有明确实施最优条件,它们的解决方案往往难以满足行动最少的原则,并迎接以稳定可靠的方式收敛的挑战。 为了解决这些问题,我们提出了变量RUOT(Var-RUOT),这是一个解决RUOT问题的新框架。 通过将RUOT问题的最佳必要条件纳入搜索空间的参数化和损失函数设计,Var-RUOT只需要学习一个标量字段来解决RUOT问题,就可以以较低的作用搜索解决方案。 我们还研究了在广泛使用的Wasserstein-Fisher-Rao指标中选择生长惩罚函数的挑战,并提出了一个与Var-RUOT中的生物先验更好地保持一致的解决方案。 我们验证了Var-RUOT在模拟数据和真实单细胞数据集上的有效性。 与现有算法相比,Var-RUOT可以找到具有较低作用的解决方案,同时表现出更快的收敛率和更高的训练稳定性。
生物多样性研究需要完整和详细的信息来研究不同尺度的生态系统动态。 使用数据驱动的方法,如机器学习,在生态学和更具体的生物多样性方面越来越受欢迎,提供了替代的建模途径。 为了提供准确结果,需要大型、精心策划和多模态数据集,提供细粒度的空间和时间分辨率。 在这项工作中,我们介绍了BioCube,一个用于生态和生物多样性研究的多模态,细粒度的全球数据集。 BioCube通过图像,录音和描述,环境DNA,植被指数,农业,森林,土地指标和高分辨率气候变量来整合物种观测。 从2000年到2020年,所有观测结果都在WGS84大地测量系统下进行地理空间对齐。 该数据集将在https://huggingface.co/datasets/BioDT/BioCube上提供,而获取和处理代码库https://github.com/BioDT/bfm-data。
临床试验在心脏药物开发中仍然至关重要,但由于疗效限制和安全风险,面临高故障率,因此产生大量成本。 硅内试验方法,特别是模拟药物诱导心电图(ECG)改变的生成模型,为缓解这些挑战提供了潜在的解决方案。 虽然现有模型显示出心电图合成的进展,但它们受限的保真度和无法表征个体特异性药理反应模式从根本上限制了临床可翻译性。 为了解决这些问题,我们提出了一种新的药物感知扩散模型(DADM)。 具体来说,我们构建一组普通微分方程,以提供现实的心电图形态的外部物理知识(EPK)。 EPK用于通过动态交叉注意力(DCA)机制自适应地限制生成心电图的形态。 此外,我们建议扩展ControlNet,以纳入人口统计和药物数据,模拟单个药物反应。 与其他八个最先进的(SOTA)心电图生成模型相比:1)定量和专家评估证明DADM生成具有优越保真度的ECG;2)涵盖8种药物方案的两个真实世界数据库的比较结果验证了DADM可以更准确地模拟药物诱导的ECGs,至少增加5.79,DADM生成的ECGs还可以增强模型性能。
药物发现从根本上说是一个推断治疗对患者影响的过程,因此可以从能够可靠地模拟患者反应的计算模型中受益匪浅,使研究人员能够在启动昂贵的临床试验之前安全有效地生成和测试大量治疗假说。 即使是更具体的模型,预测细胞对各种扰动的功能反应,对于发现成功转化为临床的安全有效的治疗方法也非常有价值。 长期以来,创建这种虚拟细胞一直是计算研究界的目标,不幸的是,鉴于细胞生物学的复杂性和规模,该社区仍未实现。 然而,人工智能、计算能力、实验室自动化和高通量蜂窝分析的最新进展为实现这一目标提供了新的机会。 从这个角度来看,我们提出了开发和评估虚拟细胞的愿景,这些虚拟细胞建立在我们在递归的经验之上。 我们认为,为了成为发现新生物学的有用工具,虚拟细胞必须准确预测细胞对扰动的功能反应,并解释预测的反应如何是修饰关键生物分子相互作用的结果。 然后,我们介绍了设计与治疗相关的虚拟细胞的关键原则,描述了一种与它们一起产生新见解的实验室方法,并倡导以生物学为基础的基准来指导虚拟细胞发育。 最后,我们提出,我们对虚拟细胞的方法为在更高层次的组织(包括虚拟患者)构建其他模型提供了有用的框架。 我们希望这些方向证明对研究界有用的开发虚拟模型,优化对药物发现结果产生积极影响。
深度学习模型在预测蛋白质功能和蛋白质层面的相互作用方面取得了重大进展。 虽然这些进步对于许多生物学应用(如酶工程和功能注释)非常宝贵,但对于理解蛋白质功能机制和评估模型捕获的生物知识,更详细的视角至关重要。 为了解决这一需求,我们引入了VenusX,这是第一个在残留、片段和域水平上进行细粒功能注释和基于功能的蛋白质配对的大规模基准测试。 VenusX包括六种类型的注释中的三个主要任务类别,包括残留级别二进制分类,片段级多类分类,以及用于识别关键活动位点,结合位点,保守站点,主题,域和表位的成双级功能相似性评分。 该基准测试了来自InterPro、BioLiP和SAbDab等主要开源数据库的878,000多个样本。 通过在三个序列身份阈值提供混合家族和跨家族分割,我们的基准能够全面评估分布内和分布外情景的模型性能。 对于基线评估,我们评估一组流行的和开源的模型,包括预训练的蛋白质语言模型,序列结构混合,基于结构的方法和基于对齐的技术。 他们的性能使用多个指标在所有基准数据集和评估设置中报告,为未来的研究提供了彻底的比较和坚实的基础。 代码和数据可公开查阅https://github.com/ai4protein/VenusX。
胶质母细胞瘤是一种高度侵袭性的脑癌,其特征是快速进展和预后不良。 尽管在治疗方面取得了进展,但推动这种侵略性的潜在遗传机制仍然知之甚少。 在这项研究中,我们采用了多模态深度学习方法来研究胶质母细胞瘤异质性,使用联合图像/RNA-seq分析。 我们的研究结果揭示了与胶质母细胞瘤相关的新基因。 通过利用全幻灯片图像和RNA-seq的组合,以及引入编码RNA-seq数据的新方法,我们确定了可能解释胶质母细胞瘤进展的不同模式的特定遗传谱。 这些发现为胶质母细胞瘤异质性的遗传机制提供了新的见解,并突出了治疗干预的潜在靶点。 代码和数据下载说明可查阅:https://github.com/ma3oun/gbheterogeneity。
科学发现是由背景研究、假设生成、实验和数据分析的迭代过程驱动的。 尽管最近在将人工智能应用于科学发现方面取得了进展,但还没有一个系统在单个工作流程中实现所有这些阶段的自动化。 在这里,我们介绍了Robin,这是第一个能够完全自动化科学过程关键知识步骤的多智能系统。 通过将文献搜索代理与数据分析代理集成,Robin可以生成假设,提出实验,解释实验结果,并生成更新的假设,实现科学发现的半自主方法。 通过应用这个系统,我们能够确定一种与干年龄相关的黄斑变性(dAMD)的新方法,这是发达国家失明的主要原因。 罗宾建议增强视网膜色素上皮吞噬细胞增多症作为一种治疗策略,并确定并验证了一种有希望的治疗候选药物,ripasudil。 Ripasudil是一种临床使用的rho激酶(ROCK)抑制剂,以前从未被提议用于治疗dAMD。 为了阐明唑吡啶诱导的咽梗塞上调机制,Robin随后提出并分析了后续的RNA-seq实验,该实验揭示了ABCA1的上调,ABCA1是一种关键的脂质流出泵和可能的新靶点。 本报告正文中的所有假设、实验计划、数据分析和数据数据都是由Robin制作的。 作为第一个在迭代实验室中自主发现和验证新型治疗候选者的人工智能系统,Robin为AI驱动的科学发现建立了新的范式。
发现有趣的现象是科学发现的核心,但它是一本手册,定义不清的概念。 我们提出了一个集成管道,用于在结构化生物医学数据中发现有趣的简单假设(具有效应方向的特征和目标关系和潜在潜在机制)。 该管道结合了机器学习、知识图谱、文献搜索和大型语言模型。 我们将“有趣性”正式化为新颖性,实用性和合理性的结合。 在英国生物银行的8种主要疾病中,我们的管道在文献中出现之前,一直在恢复风险因素。 40-53名候选人被验证为有趣,而基线为0-7。 总的来说,28管道解决了“有趣性”和任何目标的挑战。 我们发布数据和代码:https://github.com/LinialLab/InterFeat
从稀疏的时间解决的快照数据中模拟动态对于理解复杂的细胞过程和行为至关重要。 现有方法利用最优传输,薛定谔桥理论或其变体,同时从快照数据中推断出随机的,不平衡的动态。 然而,这些方法在解释细胞-细胞相互作用的能力方面仍然有限。 这种整合在现实世界中是必不可少的,因为细胞间通信是基本的生命过程,可以影响细胞状态过渡动力学。 为了应对这一挑战,我们制定了不平衡的均场薛定谔桥(UMFSB)框架,以从快照数据中模拟不平衡的随机交互动力学。 受此框架的启发,我们进一步提出了CytoBridge,这是一种深度学习算法,旨在近似UMFSB问题。 通过显式建模通过神经网络进行细胞过渡、增殖和相互作用,CytoBridge提供了直接从数据中学习这些过程的灵活性。 我们的方法的有效性已经使用合成基因调控数据和真实的scRNA-seq数据集进行了广泛的验证。 与现有方法相比,CytoBridge识别增长,过渡和交互模式,消除错误过渡,并以更高的精度重建发展格局。
空间转录组学(ST)是一种有前途的技术,表征组织环境中的空间基因谱模式。 全面的ST分析依赖于连续切片进行3D空间见解,而缺失的中间组织部分和高成本限制了生成多片ST的实际可行性。 在本文中,我们提出了C2-STi,这是首次尝试在相邻的ST切片之间的任意中间位置插入缺失的ST切片。 尽管直观,有效的ST插值带来了重大挑战,包括:1)跨异质组织部分的连续性有限,2)基因之间的复杂内在相关性,3)每个组织部分中复杂的细胞结构和生物语义。 为了减轻这些挑战,在C2-STi中,我们设计了一个具有距离感知的局部结构调制模块,以自适应地捕获交叉切片变形并增强ST切片之间的位置相关性,2)一个金字塔基因共同表达相关性模块,以捕获基因之间的多尺度生物关联,3)一个跨模态对齐模块,该模块集成了ST配对的六羟色素和eosin(H E)染色图像,以过滤和排列。 公共数据集的广泛实验证明了我们在单片和多切片ST插值方面优于最先进的方法。 代码可在https://github.com/XiaofeiWang2018/C2-STi上查阅。
聚类患者分组对于个性化护理和高效资源使用至关重要。 传统的聚类方法与高维、异构的医疗保健数据作斗争,缺乏上下文理解。 这项研究评估了大型语言模型(LLM)基于经典方法的聚类,使用来自低收入国家(LIC)的儿科败血症数据集,其中包含2,686条记录,28个数值和119个分类变量。 患者记录被序列化为文本,没有聚类目标。 使用量化的LLAMA 3.1 8B,具有低排位适应(LoRA)的DeepSeek-R1-Distill-Llama-8B和Stella-En-400M-V5模型生成嵌入。 K-means 聚类应用于这些嵌入。 经典的比较包括K-Moidids聚类在UMAP和FAMD减少的混合数据。 剪影分数和统计测试评估了集群质量和独特性。 Stella-En-400M-V5获得了最高的剪影得分(0.86)。 LLAMA 3.1 8B具有聚类目标,具有更高的集群数量,可识别具有独特营养,临床和社会经济特征的亚组。 基于LLM的方法通过捕获更丰富的上下文和优先考虑关键特征,优于经典技术。 这些结果突出了LLM在资源有限环境中进行上下文表型和知情决策的潜力。
机械,多细胞,基于代理的模型通常用于研究单细胞分辨率的组织,器官和生物体规模的生物学。 Cellular-Potts模型(CPM)是一个强大而流行的框架,用于开发和询问这些模型。 CPM在大型空间和时间尺度上变得计算昂贵,使得开发模型的应用和调查变得困难。 代孕模型可能允许加速评估复杂生物系统的CPM。 然而,这些模型的随机性意味着每组参数都可能导致不同的模型配置,使代理模型开发复杂化。 在这项工作中,我们利用去噪扩散概率模型来训练用于研究体外血管生成CPM的生成式AI替代物。 我们描述了使用图像分类器来学习定义二维参数空间独特区域的特征。 然后,我们将此分类器应用于辅助代理模型选择和验证。 我们的CPM模型代理在参考配置之前生成20000个时间步的模型配置,并且与本机代码执行相比,计算时间减少了大约22倍。 我们的工作是朝着实施DDPM发展随机生物系统的数字孪生迈出的一步。
通过化学空间搜索是一个极具挑战性的问题,因为可能分子的数量与原子的数量一起增长。 在化合物数据库中训练的大型自回归模型已经产生了强大的生成器,但我们仍然缺乏强大的策略来生成具有所需特性的分子。 这个分子搜索问题与大型语言模型的“对齐”问题非常相似,尽管对于许多化学任务,我们有一个特定且易于评估的奖励功能。 在这里,我们引入了一种称为能量等级对齐(ERA)的算法,该算法利用显式奖励函数来产生基于梯度的目标,我们用它来优化自动回归策略。 我们理论上表明,该算法与近端策略优化(PPO)和直接偏好优化(DPO)密切相关,但具有最小化器,可收敛到理想的Gibbs-Boltzmann分布,奖励发挥能量函数的作用。 此外,该算法具有高度可扩展性,不需要强化学习,并且当每次配对的偏好观察数量很少时,相对于DPO表现良好。 我们部署这种方法对齐分子变压器和蛋白质语言模型,分别生成分子和蛋白质序列,具有外部指定的属性,并发现它如此稳健,通过化学空间的不同部分进行搜索。
基于深度学习的宫颈癌分类可能会增加低资源地区的筛查机会。 然而,深度学习模型往往过于自信,无法可靠地反映诊断的不确定性。 此外,它们通常被优化以产生最大可能的预测,这无法传达结果的不确定性或模糊性。 这些挑战可以使用构象预测来解决,构象预测是一个与模型无关的框架,用于生成预测集,其中包含训练深度学习模型的可能类。 这些预测集的大小表示模型的不确定性,随着模型置信度的增加而收缩。 然而,现有的构象预测评估主要关注预测集是否包括或涵盖真实类,通常忽略无关类的存在。 我们认为,预测集应该对最终用户来说是真实和有价值的,确保列出的可能类符合人类的期望,而不是过于放松,包括误报或不太可能的类。 在这项研究中,我们使用从多个注释器收集的专家注释集全面验证构象预测集。 我们评估应用于三种用于宫颈非疙瘩分类训练的深度学习模型的构象预测方法。 我们的专家基于注释的分析表明,传统的基于覆盖的评估高估了性能,而当前的一致性预测方法通常产生与人类标签不一致的预测集。 此外,我们还探索构象预测方法在识别模糊和分布外数据方面的能力。
准确的血糖预测可以为1型糖尿病治疗提供新的干预措施,包括个性化的胰岛素和饮食调整。 尽管基于变压器的架构的最新进展已经证明了复杂多变量时间序列预测中注意力机制的力量,但它们的血糖(BG)预测潜力仍然未得到充分开发。 我们介绍了多倍数BG预测的变压器模型的比较分析,检查长达4小时的预测和长达1周的输入历史。 公开可用的 DCLP3 数据集(n=112)被拆分(80(n=12)作为外部测试集。 我们使用CGM,胰岛素和膳食数据,使用点智能,补丁,系列和混合嵌入来训练网络。 对于短期血糖预测,Crossformer,一个贴片的变压器架构,实现了RMSE的30分钟预测(OhioT1DM上的15.6 mg / dL)。 对于长期预测(1h,2h和4h),PatchTST,另一个路径明智的变压器,在OhioT1DM上以最低的RMSE(24.6 mg / dL,36.1 mg / dL和46.5 mg / dL)为准。 一般来说,通过补丁使用标记化的模型以更大的输入尺寸提高了准确性,获得了一周历史的最佳结果。 这些发现突出了基于变压器的架构对BG预测的承诺,通过捕获和利用多变量时间序列数据中的季节性模式来提高准确性。