Compendium Manager是一个用Python编写的命令行工具,用于自动配置,启动和评估生物信息学管道。 尽管Snakemake和Nextflow等工作流管理工具使用户能够在单个测序项目中自动处理样本,但批量集成许多数据集需要启动并监控数百或数千个管道。 我们介绍了 Compendium Manager,这是一种轻量级的命令行工具,可以大规模启动和监控分析管道。 该工具可以通过项目列表衡量进度,将结果加载到共享数据库中,并记录详细的处理指标,以便以后进行评估和可重复性。
本文调查了人工智能生物设计的基础模型,重点关注将大规模、自我监督模型应用于蛋白质工程、小分子设计和基因组序列设计等任务的最新发展。 虽然这个领域正在迅速发展,但这项调查提出并讨论了当前模型和方法的分类。 重点是在适应这些模型用于生物应用的挑战和解决方案,包括生物序列建模架构,生成中的可控性和多模态集成。 该调查结束时讨论了开放性问题和未来方向,为改善生物序列生成的质量提供了具体的下一步。
单细胞RNA测序(scRNA-seq)揭示了细胞异质性,细胞聚类在识别细胞类型和标记基因方面起着关键作用。 最近的进步,特别是基于图神经网络(GNN)的方法,显著提高了聚类性能。 然而,由于噪声、易散性和高维度,对 scRNA-seq 数据的分析仍然具有挑战性。 综合这些挑战,GNN经常遭受过度平滑,限制了他们捕获复杂生物信息的能力。 作为回应,我们提出了ssSiameseClu,一种新的暹罗聚类框架,用于解释单细胞RNA-seq数据,包括3个关键步骤:(1)双增强模块,将生物学上的信息扰动应用于基因表达矩阵和细胞图关系,以提高表示稳健性;(2)暹罗融合模块,结合交叉相关性细化和自适应信息融合,以捕获复杂的细胞关系,同时减少过度平滑;(3)保持平衡。 对七个真实世界数据集的综合评估表明,在单细胞聚类、细胞类型注释和细胞类型分类方面,优于最先进的方法,为s scRNA-seq数据解释提供了强大的工具。
本文调查了人工智能生物设计的基础模型,重点关注将大规模、自我监督模型应用于蛋白质工程、小分子设计和基因组序列设计等任务的最新发展。 虽然这个领域正在迅速发展,但这项调查提出并讨论了当前模型和方法的分类。 重点是在适应这些模型用于生物应用的挑战和解决方案,包括生物序列建模架构,生成中的可控性和多模态集成。 该调查结束时讨论了开放性问题和未来方向,为改善生物序列生成的质量提供了具体的下一步。
使用测序(scATAC-seq)的单细胞转酶酶可访问染色质单细胞测定的出现为破译监管机制提供了一个创新的观点,通过组装一个庞大的单细胞染色质可访问性数据存储库。 虽然基础模型在单细胞转录组学方面取得了重大成功,但目前尚无支持零射高质量细胞识别和同时进行综合多组学分析的scATAC-seq的基础模型。 主要的挑战在于scATAC-seq数据的高维度和稀疏性,以及缺乏代表开放染色质区域的标准化模式(OCR)。 在这里,我们介绍了ChromFound,一个为scATAC-seq量身定制的基础模型。 ChromFound利用混合架构和基因组感知标记化来有效地捕获来自动态染色质景观的全基因组长上下文和调节信号。 ChromFound对来自30个组织和6种疾病条件的197万个细胞进行了预训练,在6个不同任务中表现出广泛的适用性。 值得注意的是,它在生成通用细胞表征方面实现了稳健的零射力,并在细胞类型注释和交叉组学预测中表现出出色的可转移性。 通过发现现有计算方法未检测到的增强基因链接,ChromFound为理解非编码基因组中的疾病风险变体提供了一个有前途的框架。
机器学习模型对生物序列的日益采用加剧了对可解释预测的需求,Shapley值成为模型解释的理论基础标准。 虽然对单个输入序列的局部解释有效,但扩展基于Shapley的解释性以提取全球生物学见解需要评估数千个序列 - 每个查询产生指数计算成本。 我们引入了SHAP零,这是一种新颖的算法,用于在大规模生物数据集中摊销Shapley价值计算的成本。 在一次性模型草图步骤之后,SHAP zero通过发现Shapley值,高阶特征交互和模型的稀疏傀儒变换之间的未开发连接,为未来查询提供接近零的边际成本。 应用于指导RNA功效,DNA修复结果和蛋白质适应性的模型,SHAP零解释预测数量级比现有方法快,恢复以前无法大规模获得的丰富组合相互作用。 这项工作为生物学中的黑盒序列模型提供了原则性,高效和可扩展的可解释性的大门。
Compendium Manager是一个用Python编写的命令行工具,用于自动配置,启动和评估生物信息学管道。 尽管Snakemake和Nextflow等工作流管理工具使用户能够在单个测序项目中自动处理样本,但批量集成许多数据集需要启动并监控数百或数千个管道。 我们介绍了 Compendium Manager,这是一种轻量级的命令行工具,可以大规模启动和监控分析管道。 该工具可以通过项目列表衡量进度,将结果加载到共享数据库中,并记录详细的处理指标,以便以后进行评估和可重复性。
自生命起源以来,自然密码嵌入在DNA和RNA基因组中,具有通过基因组建模影响人类和生态系统的巨大潜力。 基因组基础模型(GFMs)已成为解码基因组的变革方法。 随着GFM的规模扩大并重塑人工智能驱动的基因组学格局,该领域面临着严格和可重复评估的迫切需要。 我们介绍了OmniGenBench,这是一个模块化基准测试平台,旨在统一GFM的数据,模型,基准和可解释层。 OmniGenBench在五个基准套件中实现对任何GFM的标准化,单次评估,并无缝集成超过31个开源模型。 通过自动化管道和社区可扩展功能,该平台解决了关键的可重复性挑战,包括数据透明度、模型互操作性、基准碎片化和黑箱可解释性。 OmniGenBench旨在作为可再现基因组AI研究的基础基础设施,在基因组规模建模时代加速值得信赖的发现和协作创新。
细胞类型注释是单细胞RNA测序分析中关键但费力的步骤。 我们提供了一个值得信赖的大型语言模型(LLM)-代理,CellTypeAgent,它将LLM与相关数据库的验证集成在一起。 CellTypeAgent比现有方法实现更高的精度,同时减轻幻觉。 我们评估了9个真实数据集中的CellTypeAgent,涉及来自36个组织的303个细胞类型。 这种组合方法有望实现更高效、更可靠的细胞类型注释。
端粒到端粒(T2T)基因组组件的出现为比较基因组学开辟了新的途径,但基因组序列的有效标记化策略仍然没有得到探索。 在这项试点研究中,我们将字节配对编码(BPE)应用于9个T2T灵长类动物基因组,包括三个人类组件,使用我们的自定义工具dnaBPE训练具有512,000个令牌的固定词汇表的独立BPE标记器。 我们的分析显示,在所有组件中共享只有11,569个令牌,而近991,854个令牌是单个基因组独有的,这表明共享词汇表的迅速下降,组件比较越来越多。 此外,来自令牌重叠的系统发育树未能重新概括已建立的灵长类关系,这种差异归因于物种特定的高拷贝重复元素的不成比例的影响。 这些发现强调了BPE标记化的双重性质:虽然它有效地压缩了重复序列,但它对高拷贝元素的敏感性限制了其作为比较基因组学通用工具的效用。 我们讨论了潜在的混合策略和重复蒙面方法来改进基因组标记化,强调在开发大规模基因组语言模型时需要特定领域的适应。 本研究中使用的dnaBPE工具是开源的,可在https://github.com/aglabx/dnaBPE上查阅。
大型语言模型和多智能系统的兴起引发了对能够自主生物学研究的人工智能科学家的兴趣。 然而,现有的基准要么侧重于没有数据的推理,要么侧重于具有预先定义统计答案的数据分析,缺乏现实的、数据驱动的评估设置。 在这里,我们介绍了生物人工智能科学家基准(BaisBench),这是一个基准,旨在通过数据分析和具有外部知识的推理来评估人工智能科学家产生生物发现的能力。 BaisBench包括两项任务:31个专家标记的单细胞数据集上的细胞类型注释,以及通过回答来自最近41项单细胞研究生物学见解的198个多项选择问题的科学发现。 对最先进的人工智能科学家和LLM代理的系统实验表明,虽然前景看好,但目前的模型在这两项任务上仍然大大低于人类专家。 我们希望BaisBench能够填补这一空白,并作为推进和评估科学发现的人工智能模型的基础。 基准可查阅:https://github.com/EperLuo/BaisBench。
通过单细胞水平测序数据了解细胞身份和功能仍然是计算生物学中的一个关键挑战。 我们提出了一种新的框架,利用NCBI基因数据库的基因特异性文本注释来生成生物上下文化细胞嵌入。 对于单细胞RNA测序(scRNA-seq)数据集中的每个细胞,我们按表达水平对基因进行排名,检索其NCBI基因描述,并使用大型语言模型(LLM)将这些描述转化为矢量嵌入表示。 所使用的模型包括OpenAI文本嵌入-ada-002,文本嵌入-3-小,和文本嵌入-3-大(2024年1月),以及领域特定模型BioBERT和SciBERT。 嵌入是通过每个细胞中最高度表达的基因顶部N的表达式加权平均值计算的,提供了一个紧凑的,语义丰富的表示。 这种多模态策略将结构化生物数据与最先进的语言建模联系起来,从而实现更可解释的下游应用,如细胞型聚类、细胞脆弱性剖析和轨迹推断。
De novo组装能够对未知基因组进行调查,为个性化医疗和疾病管理铺平道路。 然而,由于数据量过高和算法复杂性,它面临着巨大的计算挑战。 虽然最先进的新组装商利用分布式系统进行极端规模的基因组组装,但他们需要大量的计算和记忆资源。 它们也未能解决新组装的固有挑战,包括大量内存占用、内存绑定行为以及由复杂、相互依存的数据结构产生的不规则数据模式。 鉴于这些挑战,de novo组装值得定制硬件解决方案,尽管现有方法尚未完全解决这些限制。 我们提出了NMP-PaK,这是一种硬件软件共同设计,通过近内存处理(NMP)加速可扩展的新基因组组装。 我们的通道级 NMP 架构可解决内存瓶颈问题,同时为处理元素提供足够的划痕空间。 定制的处理元素最大化了并行性,同时有效地处理动态和相互依存的大数据结构。 软件优化包括定制的批处理,以减少内存占用和混合CPU-NMP处理,以解决由不规则数据模式引起的硬件利用率不足的问题。 与最先进的新组装相比,NMP-PaK进行相同的基因组组装,同时产生14倍的内存占用。 此外,NMP-PaK比CPU基线提供了16倍的性能提升,内存操作减少了2.4倍。 因此,NMP-PaK在相同的资源限制下实现了比最先进的新组装更高的8.3倍的吞吐量,展示了其卓越的计算效率。
远程依赖对于理解基因组结构和功能至关重要,但大多数传统方法都与之斗争。 广泛采用的基于变压器的模型虽然擅长短上下文任务,但受到注意力模块的二次计算复杂性的限制,并且无法推断出比训练中看到的序列更长的序列。 在这项工作中,我们通过在50M参数变压器基线并行的条件下对两个SSM启发的架构Caduceus和Hawk进行远程基因组建模任务,探索国家空间模型(SSMs)作为一种有希望的替代方案。 我们发现SSM与变压器性能相匹配,并在多个任务中表现出令人印象深刻的零镜头外推,处理上下文比训练期间看到的要长10到100倍,这表明更通用的表示更适合建模长而复杂的人类基因组。 此外,我们证明这些模型可以在单个GPU上有效地处理100万个令牌的序列,允许一次对整个基因组区域进行建模,即使在计算有限的实验室中也是如此。 我们的发现使SSM成为长期背景基因组分析的高效和可扩展的。
模式检测和字符串匹配是计算机科学中的根本问题,生物信息学和计算生物学的加速扩展使它们成为这两个学科的核心主题。 SARS-CoV-2大流行使这些问题更加苛刻,每周发现数百或数千个新的基因组变异,因为不断的突变,迫切需要快速准确的分析。 基因组分析的计算工具(如序列对齐)的要求非常重要,尽管在大多数情况下,所需的资源和计算能力是巨大的。 展示的多重基因组分析框架结合了数据结构和算法,专门用于文本挖掘和模式检测,可以帮助有效地解决几个计算生物学和生物信息学问题,同时提供最少的资源。 单个执行高级算法,具有空间和时间复杂性O(nlogn),足以获得关于存在于多个基因组序列的所有重复模式的知识,并且这些信息可以从其他元算法用于进一步的元分析。 拟议的框架的潜力通过分析超过30万个SARS-CoV-2基因组序列以及检测这些序列中长度高达60个核苷酸的所有重复模式来证明。 这些结果已用于回答所有变体之间的常见模式,序列对齐,回旋镖和串联重复检测,不同的生物体基因组比较,聚合酶链反应引物检测等问题。
本文介绍了k-mer计数(KC)问题的一种新的异步算法和实现,该算法涉及量化DNA序列中长度k子串的频率。 这种操作在许多计算生物学工作负载中很常见,可以进行多达77次新基因组组装。 当前最先进的分布式内存KC算法的性能和可扩展性受到多轮多对多集体的阻碍。 因此,我们开发了一种异步算法(DAKC),该算法使用细粒度的异步消息来消除大部分全球通信,同时通过自定义消息聚合协议有效地利用网络带宽。 DAKC可以执行高达256个节点(512个套接字/6K核)的强大扩展,并且可以比最先进的分布式内存算法更快地计算k-mers,并且比共享内存替代算法快100倍。 我们还提供了一个分析模型来了解我们异步KC算法的硬件资源利用率,并提供性能方面的见解。
空间转录组学(ST)是一种捕获与空间坐标对齐的基因表达谱的方法。 离散空间分布和超高尺寸测序结果使ST数据难以有效建模。 在本文中,我们设法通过拟议的工具SUICA以连续和紧凑的方式对ST进行建模,该工具由隐性神经表征(INRs)的巨大近似能力增强,可以增强空间密度和基因表达。 在拟议的SUICA中,我们纳入了图形增强的Autoencoder,以有效地模拟非结构化点的上下文信息,并提供具有空间映射结构感知的信息嵌入。 我们还以按分类的方式解决极其偏斜的分布,并强制执行基于分类的损失函数,以优化 SUICA。 通过在各种降解下对广泛的常见ST平台进行广泛的实验,SUICA在数值保真度,统计相关性和生物保护方面优于传统的INR变体和SOTA方法。 SUICA的预测还展示了放大的基因特征,丰富了原始数据的生物保护,并有利于后续分析。 代码可在https://github.com/Szym29/SUICA查阅。
预测遗传扰动能够在湿实验室实验之前识别潜在的关键基因,显着提高整体实验效率。 由于基因是细胞生命的基础,因此建立基因调控网络(GRN)对于理解和预测遗传扰动的影响至关重要。 然而,目前的方法未能充分利用与基因相关的信息,仅依靠简单的评估指标来构建粗粒度的GRN。 更重要的是,它们忽略了生物型之间的功能差异,限制了捕获潜在基因相互作用的能力。 在这项工作中,我们利用预训练的大型语言模型和DNA序列模型,分别从基因描述和DNA序列数据中提取特征,这些特征作为基因表征的初始化。 此外,我们在遗传扰动中首次引入基因生物类型信息,模拟具有不同生物类型的基因在调节细胞过程中的独特作用,同时通过图结构学习(GSL)捕获隐性基因关系。 我们提出了GRAPE,一个异质图神经网络(HGNN),利用从描述和序列中初始化的基因表征,对具有不同生物类型的基因的不同作用进行建模,并通过GSL动态地完善GRN。 公开可用的数据集上的结果表明,我们的方法实现了最先进的性能。
目标:设计和评估新的药理学(PGx)临床决策支持(CDS)警报,旨在遵守通过社会技术方法开发的PGx CDS设计原则。 材料和方法:基于先前确定的设计原则,我们创建了11个新的PGx CDS警报设计,并开发了一个交互式Web应用程序,其中包含逼真的临床场景和模仿现实世界EHR系统的用户工作流程。 我们从西北医学招募了普通内科和心脏病临床医生,并记录了他们与原始和新设计的互动。 我们通过问卷调查和分析记录来衡量临床医生的反应,满意度,速度和信心。 结果:该研究包括12名临床医生。 参与者对新设计比原始设计更满意(p=0.00000001),更快(p=0.009),对新设计更有信心(p<.05)。 该研究缺乏统计能力来确定处方准确性是否提高,但参与者的准确性也不那么准确,临床行动与警报相互作用(p=0.004)与新设计更加一致。 我们发现与原始设计相关的显着学习曲线,随着新设计而消除。 讨论:本研究成功证明,社会技术和以用户为中心的设计技术可以改善PGx CDS警报设计。 PGx CDS设计的最佳实践在文献中受到限制,很少有有效性研究可用。 这些结果可以帮助指导未来的PGx CDS实现更加临床医生友好和耗时。 结论:这项研究的结果支持我们在以前的工作中提出的PGx CDS设计原则。 作为下一步,新设计应在实时设置中实现,以便进一步验证。
整合异构生物医学数据,包括成像、组学和临床记录,支持准确的诊断和个性化护理。 基于图形的模型通过捕获空间和关系结构来融合这些非欧几里得数据,但临床吸收需要调节器就绪可解释性。 我们介绍了对多模态生物医学数据可解释图模型的首次技术调查,涵盖了2019年1月至2024年9月期间发表的26项研究。 大多数目标疾病分类,特别是癌症,并依赖于简单相似性测量的静态图,而图原生解释器很少见; 后热方法适应非图形域,如梯度显著性,SHAP占主导地位。 我们将现有方法分为四个可解释性家族,概述图中层次结构,知识图谱边缘和动态拓扑学习等趋势,并执行实用基准。 使用阿尔茨海默病队列,我们比较了敏感性分析,梯度盐度,SHAP和Graph Masking。 SHAP和灵敏度分析恢复最广泛的一组已知的AD途径和基因-本体术语,而梯度盐度和图形掩蔽表面互补代谢和运输特征。 排列测试显示了所有四个随机基因集,但具有不同的权衡:SHAP和Graph Masking以更高的计算成本提供更深层次的生物学,而梯度盐度和灵敏度分析更快,尽管更粗。 我们还提供分步流程图,涵盖图形构建、解释器选择和资源预算,帮助研究人员平衡透明度和性能。 本综述综合了多模态医学的可解释图学习状态,基准领先技术,并绘制了从高级XAI工具到研究不足的疾病的未来方向,作为方法开发人员和转化科学家的简明参考。
DNA微阵列技术能够同时测量数千个基因的表达水平,从而促进对脑肿瘤等复杂疾病的分子机制的理解和诊断遗传特征的识别。 为了从通过这项技术获得的高维和复杂的基因特征中获得有意义的生物学见解,并详细分析基因特性,因此广泛使用基于人工智能的机器学习和深度学习等基于人工智能的方法。 然而,这些方法在管理高维矢量空间和建模基因之间错综复杂的关系方面面临各种限制。 特别是超参数调优、计算成本和高处理能力要求等挑战会阻碍其效率。 为了克服这些限制,量子计算和量子人工智能方法越来越受到关注。 利用叠加和纠缠等量子特性,量子方法能够更有效地并行处理高维数据,并为经典方法的计算要求的问题提供更快,更有效的解决方案。 在这项研究中,提出了一种名为“深度VQC”的新模型,基于变频量子分类器方法。 该模型使用包含54,676个基因特征的微阵列数据开发,成功分类了四种不同类型的脑肿瘤-脑肿瘤-脑肿瘤,胶质母细胞瘤,髓母细胞瘤和皮细胞星形细胞瘤 - 以及健康样本。 此外,与经典的ML算法相比,我们的模型展示了优越或可比的分类性能。 这些结果强调了量子AI方法作为基于基因表达特征的复杂结构(如脑肿瘤)分析和分类的有效和有希望的方法的潜力。
从多组学数据中无监督地学习疾病亚型为推进个性化医疗提供了重要机会。 我们引入了OmicsCL,这是一种模块化的对比学习框架,它将异构组学模式(如基因表达,DNA甲基化和miRNA表达)共同嵌入到统一的潜在空间中。 我们的方法包括一种具有生存意识的对比性损失,它鼓励模型学习与生存相关模式一致的表征,而不依赖于标记的结果。 在TCGA BRCA数据集上进行评估,OomicsCL揭示了临床上有意义的集群,并实现了与患者生存的强烈无监督一致性。 该框架展示了超参数配置的鲁棒性,可以调整为亚型一致性或生存分层的优先级。 消融研究证实,整合生存意识损失可以显着增强学习嵌入的预测能力。 这些结果突出了高维,异构组学数据中生物洞察力发现的对比目标。