定量生物学
Quantitative Biology
生物分子
Biomolecules
细胞行为
Cell Behavior
基因组学
Genomics
在分子属性预测中,最有价值的化合物(例如,高效力)往往占据目标空间的稀疏区域。 标准图谱神经网络(GNN)通常针对平均误差进行优化,在这些罕见但关键的情况下表现不佳,现有的过度采样方法经常扭曲分子拓扑。 在本文中,我们介绍了SPECTRA,一个光谱目标感知图增强框架,可在光谱域中生成逼真的分子图。 SPECTRA(i)从SMILES重建多属性分子图;(ii)通过(熔融)Gromov-Wasserstein耦合物对齐,以获得节点对应;(iii)在稳定的共享基数中插值拉普拉斯特征值,特征向量和节点特征;和(iv)重建边缘,以合成物理上合理的中间体与插值目标。 稀有意识的预算编制方案,源自对标签的内核密度估计,在数据稀缺的地方集中增强。 再加上使用边缘感知的Chebyshev卷积的光谱GNN,SPECTRA在不降低全球准确性的情况下使代表性不足的区域致密化。 在基准测试中,SPECTRA持续改善相关目标范围的错误,同时保持具有竞争力的整体MAE,并产生可解释的合成分子,其结构反映了底层光谱几何。 我们的结果表明,光谱,几何感知增强是不平衡分子属性回归的有效和高效的策略。
生物网络是破译生物系统复杂性和功能的关键。 因果关系推断侧重于确定变量之间相互作用的方向性和强度,而不仅仅是依赖相关性,被认为是推断生物网络的逻辑方法。 因果结构推理的现有方法通常假设变量之间的因果关系可以用定向的循环图(DAG)表示。 然而,这种假设与生物系统中广泛反馈循环的现实不一致,使得这些方法不适合直接用于生物网络推理。 在这项研究中,我们提出了一个名为SCALD(Loop Diagram的结构CAusal模型)的新框架,该框架采用非线性结构方程模型和稳定的反馈循环条件约束,通过持续优化来推断反馈循环下的因果调控关系。 我们观察到,SCALD在推断转录调控网络和信号转导网络方面优于最先进的方法。 SCALD在识别反馈调节方面具有不可替代的优势。 通过转录因子(TF)扰动数据分析,我们进一步验证了SCALD的准确性和灵敏度。 此外,SCALD还有助于发现以前未知的监管关系,我们随后通过ChIP-seq数据分析证实了这一点。 此外,通过使用SCALD,我们通过检查过程中调节网络内的动态变化,推断出促进从结肠炎症到癌症的关键驱动基因。
Canalization是复杂系统中的关键组织原则,特别是在基因调控网络中。 它描述了某些输入变量如何对函数的输出施加主导控制,从而强加分层结构并赋予扰动的鲁棒性。 相反,退化捕获了输入变量之间的冗余,并反映了其他变量的完全主导地位。 这两种特性都影响离散动力学系统的稳定性和动力学,但它们的组合基础仍然不完全了解。 在这里,我们得出递归公式,用于计算布尔函数,其中包含规定的基本变量数量和给定的通导特性。 特别是,我们确定非退化的运河化布尔函数的数量 - 即所有变量都是必不可少的函数,并且至少有一个变量是通气化的函数。 我们的方法扩展了早期关于运河化和嵌套运河化功能的认识结果。 它为量化随机布尔函数中运河化的频率以及评估其在生物网络模型中的明显过度代表性提供了坚实的基础,它有助于稳健性和产生独特的监管作用。
由于缺乏集成的多模态蛋白表示,计算预测蛋白质-蛋白质相互作用(PPI)具有挑战性。 DPEB是22,043种人类蛋白质的精选集合,集成了四种嵌入类型:结构(AlphaFold2),基于变压器的序列(BioEmbeddings),上下文氨基酸模式(ESM-2:进化量表建模)和基于序列的n-gram统计(ProtVec)。 AlphaFold2蛋白结构可通过公共数据库(例如AlphaFold2蛋白结构数据库)获得,但内部神经网络嵌入则不是。 DPEB通过提供AlphaFold2衍生的嵌入来计算建模来解决这一差距。 我们的基准评估显示,GraphSAGE with BioEmbedding实现了最高的PPI预测性能(87.37% AUROC,79.16%的准确率)。 该框架还实现了酶分类的77.42%的准确率和蛋白质家族分类的86.04%的准确率。 DPEB支持用于PPI预测的多种图神经网络方法,在系统生物学,药物靶标识别,通路分析和疾病机制研究中的应用。
多模态分子表示学习,共同模拟分子图及其文本描述,通过整合结构和语义信息,对药物毒性、生物活性和物理化学特性进行更可靠和可靠的预测,增强了预测准确性和可解释性。 然而,现有的多模态方法受到两个关键限制:(1)它们通常仅在最终编码器层执行跨模态交互,从而忽略分层语义依赖关系;(2)它们缺乏统一原型空间,以便在模式之间稳健地对齐。 为了解决这些限制,我们提出了ProtoMol,这是一个原型引导的多模态框架,可以实现分子图和文本描述之间的细粒度集成和一致的语义对齐。 ProtoMol集成了双分支分层编码器,利用图形神经网络处理结构化分子图和变形金刚来编码非结构化文本,从而产生全面的层向表示。 然后,ProtoMol引入了一种层向双向跨模态注意机制,可以逐步对齐跨层的语义特征。 此外,构建了一个具有可学习的、特定类锚的共享原型空间,以指导两种模式走向连贯和歧视性的表示。 对多个基准数据集进行的广泛实验表明,ProtoMol在各种分子属性预测任务中始终优于最先进的基线。
控制生物种群的随机动力学是在各种生物环境中产生的挑战。 然而,这些动力学本质上是非线性的,涉及离散状态空间,即分子,细胞或生物的数量。 此外,灭绝的可能性对动态和控制策略都有重大影响,特别是在人口规模很小的时候。 这些因素阻碍了传统控制理论对生物系统的直接应用。 为了应对这些挑战,我们利用基于f-divergence的控制成本函数,为随机人口动态制定最佳控制问题,这自然解释了特定人群的因素。 如果在成本函数中采用Kullback-Leibler(KL)发散,则复杂的非线性Hamilton-Jacobi-Bellman方程被简化为线性形式,从而有效地计算最佳解决方案。 我们通过将其应用于对相互作用的随机步行者,莫兰过程和SIR模型的控制来证明我们方法的有效性,并观察控制策略中的模式切换现象。 我们的方法为将控制理论应用于广泛的生物学问题提供了新的机会。
细胞外基质(ECM)重塑是各种健康和患病组织过程的核心。 不幸的是,在各种化学和机械条件下预测ECM重塑已被证明是极具挑战性的,部分原因是其通过细胞内和细胞外分子反应网络的复杂调节,这些细胞内和细胞外分子反应网络在空间和时间上是动态的。 我们介绍了 ECMSim,这是一个高度互动、实时和 Web 应用程序,旨在模拟异构矩阵重塑。 目前的模型使用心脏成纤维细胞信号网络的大规模模型模拟具有可配置输入条件的心脏疤痕组织。 心裂成是多种形式心力衰竭的主要成分。 ECMSim实时模拟超过130万个方程,其中包括100*100个空间阵列(10,000个细胞)中每个细胞中超过125个物种和200多个边缘,这些单元占输入,受体,细胞内信号级联,ECM产生和反馈回路以及分子扩散。 该算法由一组与ECM分子扩散耦合的普通微分方程(ODE)表示。 这些方程是使用编译的C++和WebAssembly标准按需解决的。 该平台包括刷式细胞选择,以针对具有可调节输入分子浓度的细胞子集,按需调整参数的参数滑块,以及多个尺度上网络动力学的多个耦合实时可视化。 在标准 Web 技术中实施 ECMSim 可以实现功能齐全的应用程序,该应用程序结合了实时仿真、可视化交互和模型编辑。 该软件能够调查病理或实验条件,假设情景,矩阵重塑或测试具有目标受体的实验药物的影响。
生命科学中的动态系统通常由重叠的行为机制的复杂混合物组成。 细胞亚群可能从循环转向平衡动力学或分支,转向不同的发育命运。 这些制度之间的过渡可能显得嘈杂和不规则,对传统的基于流的建模技术构成严重挑战,这些技术假设局部平滑的动态。 为了应对这一挑战,我们提出了MODE(混合动态专家),这是一种图形建模框架,其神经闸门机制将复杂的动力学分解为稀疏的可解释组件,使行为机制的无监督发现和跨政权过渡的准确长期预测成为可能。 至关重要的是,由于我们框架中的代理可以跳转到不同的管理法律,MODE特别针对上述嘈杂的过渡。 我们评估我们的方法从计算生物学的合成和真实数据集。 首先,我们使用合成动态快照数据(包括在嘈杂、少采样的设置中)对无监督分类任务进行MODE进行系统基准测试。 接下来,我们展示了MODE如何在具有挑战性的预测任务上取得成功,这些任务模拟了细胞生物学中的关键循环和分支过程。 最后,我们将我们的方法部署在人类单细胞RNA测序数据上,并表明它不仅可以区分增殖和分化动力学,还可以预测细胞何时会致力于其最终命运,这是计算生物学中的一个关键突出挑战。
Wuchereria Bancrofti是负责淋巴丝虫病的寄生蛔虫,在39个国家永久禁用超过3600万人,并使6.57亿人处于危险之中。 药物发现的一个主要瓶颈是超过90%的W. Bancrofti深色蛋白质组缺乏功能注释,导致许多潜在目标不明。 在这项工作中,我们提出了一种新的计算管道,将W. Bancrofti的未注释氨基酸序列数据转换为精确的四级酶委员会(EC)数字和候选药物。 我们使用Detection TRansformer来估计酶功能的概率,在4476个标记的寄生虫蛋白上微调了分层近邻EC预测器,并应用排斥采样仅保留四级EC分类,100%置信度。 这条管道将精确的EC数分配给14,772个以前未表征的蛋白质,并发现了W. bancrofti中以前不知道的543个EC类。 强调寄生虫特异性靶点,化学可牵引性,生化重要性和生物合理性的定性分诊在五个独立的策略中优先考虑六种酶:抗Wolbachia细胞壁抑制,蛋白质解阻断,传播中断,咽淀物免疫干扰和cGMP信号破坏稳定。 我们从ChEMBL和BindingDB策划了一个43个复合的库,并与Boltz-2共同折叠了多个蛋白质一致性。 所有六个靶点都表现出至少中等强的预测结合亲和力低于1微摩尔,与peptidoglycan糖基转移酶和NTPase抑制剂的更霉素类似物显示出有希望的纳米摩尔命中和定义良好的结合口袋。 虽然实验验证仍然至关重要,但我们的结果提供了W. Bancrofti深色蛋白质组的第一个大规模功能图谱,并加速了该物种的早期药物开发。
大型语言模型(LLM)在自然语言处理和生成、计算机视觉和多模态学习等领域产生丰富表示的能力。 然而,他们在生物医学数据分析中的应用仍然萌芽。 单细胞转录组分分析对于解剖发育和疾病中的细胞亚型多样性至关重要,但罕见的亚型对扩展定律提出了挑战。 我们提出了一个计算框架,将单细胞RNA测序(scRNA-seq)与LLMs集成,以得出知识渊博的基因嵌入。 每个细胞的高度表达基因被映射到NCBI基因描述,并使用文本嵌入-嵌入-ada-002,BioBERT和SciBERT等模型。 应用于视网膜神经节细胞(RGCs),其脆弱性与青光眼相关的神经变性不同,这种策略改善了亚型分类,突出了生物学上显着的特征,并揭示了选择性神经元脆弱性背后的途径。 更广泛地说,它说明了LLM衍生的嵌入如何在数据有限的条件下增强生物学分析,并为单细胞生物学的未来基础模型奠定基础。
基因组医学的进步加速了疾病相关基因突变的识别阳离子,但许多突变的致病性仍然未知,阻碍了它们在诊断和临床决策中的使用。 生成预测性AI模型是为了解决这个问题,但目前的工具在针对功能验证的数据集进行测试时显示的精度较低。 我们表明,将分子动力学模拟(MDS)中提取的详细构象数据集成到基于AI的高级模型中会增加其预测能力。 我们对疾病基因PMM2和MDS每个变体的主题结构模型进行了详尽的突变分析。 在这个数据集上训练的AI模型在预测突变的已知致病性时优于现有工具。 我们表现最好的模型,神经元网络模型,也预测了目前被认为是未知信号糖的几种PMM2突变的致病性。 我们相信这个模型有助于减轻基因组医学中未知变异的负担。
准确预测药物靶标结合亲和力可以通过在昂贵的湿实验室筛选之前优先考虑有前途的化合物来加速药物发现。 虽然深度学习已经推进了这项任务,但大多数模型通过简单的连接融合了配体和蛋白质表示,并且缺乏明确的几何正则化,导致化学空间和时间的泛化不良。 我们引入了FILM-DTI,这是一种轻量级框架,通过特征性线性调制(FiLM)层对蛋白质嵌入进行分子嵌入的条件,并以三胞胎损耗强制公制结构。 在嵌入距离上运行的RBF回归头产生平滑,可解释的亲和力预测。 尽管规模不大,但FILM-DTI在治疗数据共享DTI-DG基准上取得了最先进的性能,广泛的消融研究和域外评估证明了这一点。 我们的研究结果强调了调节和度量学习对稳健的药物目标亲和力预测的价值。
检测一个物种(或维度)是否在化学反应网络(CRN),矢量添加系统或Petri Nets中是零的能力已知会增加这些模型的力量 - 使它们能够进行通用计算。 虽然这种能力可能以多种形式出现,例如扩展模型以允许抑制,优先级或同步的过渡,但我们提出了一个直接执行此零检查的扩展。 我们引入了一种新的 void genesis CRN 变体,其简单的设计只是在任何其他物种的计数为零时增加特定物种的计数。 与以前的扩展一样,我们显示模型是图灵通用。 然后,我们分析了其他几个研究过的CRN变体,并表明它们都是通过与虚空起源模型的多项式模拟等效的,该模型不仅遵循图灵-通用。 因此,抑制物种,以不同速率发生的反应,被允许并行运行反应,甚至被允许不断为CRN增加更多的体积,并没有增加额外的模拟能力,而不仅仅是检测物种计数是否为零。
基因调控网络的动力学受确定性生化反应和分子噪声之间的相互作用支配。 为了了解基因调控网络如何在细胞状态转换过程中处理信息,我们通过在高斯分布的参数空间上的表示来研究从布尔网络模型中衍生的随机动力学,该参数空间配备了Fisher信息度量。 这种重新计算表明,最佳信息传递的轨迹是Kullback-Leibler发散的梯度流。 我们证明,最有效的动力学需要所有节点的等向量衰变率,并且噪声强度定量地决定了初始状态和最终状态之间的潜在分化。 此外,我们表明,最小化生物成本的路径对应于需要噪声抑制的度量大地测量,导致生物无关的确定性动力学。 我们的方法将噪声和衰变率作为蜂窝分化的基本控制参数,为合成网络的分析和设计提供了几何原理。
生物分子神经网络(BNNs),具有生物可合成架构的人工神经网络,实现了超越简单生物电路的通用功能近似能力。 然而,由于缺乏目标数据,培训BNN仍然具有挑战性。 为了解决这个问题,我们建议利用信号时序逻辑(STL)规范来定义BNN的训练目标。 我们基于STL的定量语义,实现基于梯度的BNN权重优化,并引入了一种学习算法,使BNN能够在生物系统中执行回归和控制任务。 具体来说,我们研究两个回归问题,其中我们训练BNN作为失调状态的记者,以及反馈控制问题,我们用慢性疾病模型在闭环中训练BNN,学习减少炎症,同时避免对外部感染的不良反应。 我们的数值实验表明,基于STL的学习可以有效地解决被调查的回归和控制任务。
miRNA mRNA关系与几个生物过程和疾病机制密切相关 在最近的一项研究中,我们测试了大型语言模型LLMs在从PubMed PubMedBERT提取miRNA mRNA关系方面的表现,为miRNA mRNA相互作用Corpus MMIC取得了0.783 F1评分的最佳表现 在这里,我们首先应用了微调的PubMedBMT模型,从PubMed中提取miRNA mRNA关系。我们使用KinderMiner检索了miRNA药物关系,这是一种用于关系提取的文献挖掘工具,然后我们构建了三个相互作用网络1个疾病中心网络2个以药物为中心的网络和3个miRNA中心网络,由3497个节点和16417个边缘组织为捕获复杂的生物关系,最后我们验证了使用MIMIC IV的药物,我们的综合方法揭示了通过从PubMed中提取的595 miRNA药物关系,为研究的疾病建立了和新颖的候选药物。
理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。
生物途径绘制了支配所有人类过程的基因-基因相互作用。 尽管它们很重要,但大多数ML模型将基因视为非结构化的令牌,丢弃了已知的通路结构。 最新的通路知情模型捕获了通路-途径相互作用,但仍通过MLP将每个通路视为“基因袋”,丢弃其拓扑和基因基因相互作用。 我们提出了一个图形注意力网络(GAT)框架,该框架可以模拟基因水平的路径。 我们表明,GAT的普及比MLP好得多,实现了81
微生物群是人体的重要组成部分,从事食物消化和免疫防御等任务。 必须了解它们的结构和功能,以促进宿主健康并促进疾病期间的迅速恢复。 由于在原地实验研究这些系统的困难,在数学建模领域正在进行更多的研究。 可视化时空数据具有挑战性,目前模拟微生物群落时空发展的工具通常只提供有限的功能,通常需要专业知识才能产生有用的结果。 为了克服这些限制,我们提供了一个用户友好的工具,交互式地探索时空模拟数据,称为MicroLabVR,它将空间数据传输到虚拟现实(VR),同时遵循增强用户体验(UX)的指导方针。 使用MicroLabVR,用户可以导入包含人口增长、物质浓度发展和代谢通量分布数据的CSV数据集。 实现的可视化方法允许用户在VR环境中交互式地评估数据集。 MicroLabVR旨在通过在其空间环境中探索微生物组数据来改善用户的数据分析。
高效的信息处理对于生物体和工程系统都至关重要。 相互信息速率,即信息理论的核心概念,量化输入和输出信号轨迹之间共享的信息量,并使得动态系统中的信息流的量化成为可能。 估计相互信息速率的常见方法是高斯近似值,它假设输入和输出轨迹遵循高斯统计。 然而,这种方法仅限于线性系统,其在非线性或离散系统中的准确性仍然不清楚。 在这项工作中,我们通过利用路径重量采样(PWS)来评估高斯近似非高斯系统的准确性,PWS是一种精确计算相互信息速率的最近技术。 在两个案例研究中,我们研究了高斯近似值的局限性。 首先,我们专注于离散线性系统,并证明,即使系统的统计数据接近高斯,高斯近似值也无法准确估计相互信息速率。 其次,我们探索了一个具有非线性传递函数的连续扩散系统,揭示了高斯近似值和随着非线性增加的确切相互信息速率之间的显著偏差。 我们的结果提供了对高斯近似值在不同随机模型中的性能的定量评估,并在需要更计算密集型方法(如PWS)时突出显示。
继续滚动加载更多