42digest首页

分子网络研究快报

用 AI 跟踪日新月异的分子网络领域进展

Network Community Detection and Novelty Scoring Reveal Underexplored Hub Genes in Rheumatoid Arthritis

网络社区检测和新颖性评分揭示风湿性关节炎中未被充分探索的枢纽基因

理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。

分子网络 社会与信息网络 基因组学
MicroLabVR: Interactive 3D Visualization of Simulated Spatiotemporal Microbiome Data in Virtual Reality

MicroLabVR:虚拟现实中模拟时空微生物组数据的互动式3D可视化

微生物群是人体的重要组成部分,从事食物消化和免疫防御等任务。 必须了解它们的结构和功能,以促进宿主健康并促进疾病期间的迅速恢复。 由于在原地实验研究这些系统的困难,在数学建模领域正在进行更多的研究。 可视化时空数据具有挑战性,目前模拟微生物群落时空发展的工具通常只提供有限的功能,通常需要专业知识才能产生有用的结果。 为了克服这些限制,我们提供了一个用户友好的工具,交互式地探索时空模拟数据,称为MicroLabVR,它将空间数据传输到虚拟现实(VR),同时遵循增强用户体验(UX)的指导方针。 使用MicroLabVR,用户可以导入包含人口增长、物质浓度发展和代谢通量分布数据的CSV数据集。 实现的可视化方法允许用户在VR环境中交互式地评估数据集。 MicroLabVR旨在通过在其空间环境中探索微生物组数据来改善用户的数据分析。

人机交互 计算工程、金融与科学 计算机图形学
Realizing Reduced and Sparse Biochemical Reaction Networks from Dynamics

从动力学实现减少和稀疏生化反应网络

我们提出了一个直接的优化框架,用于从时间序列轨迹数据中学习减少和稀疏的化学反应网络(CRN)。 与广泛使用的间接方法(例如基于稀疏识别非线性动力学(SINDy)的方法相反,该方法通过拟合数值估计的导数来推断反应动力学,我们的方法通过解决动态受限的优化问题来适应整个轨迹。 这种配方能够构建低维和稀疏的减少CRN,同时保留原始系统的关键动态行为。 我们开发了一个加速的近端梯度算法,以有效地解决由此产生的非凸优化问题。 通过示例,包括Drosophila昼夜节律振荡器和糖解振荡器,我们展示了我们的方法恢复准确和可解释的减序CRN的能力。 值得注意的是,直接方法避免了衍生估计步骤,并减轻了间接方法固有的错误积累问题,使其成为数据驱动的CRN实现的强大替代方案。

分子网络 系统与控制 最优化与控制
Mutual Information Rate – Linear Noise Approximation and Exact Computation

相互信息率——线性噪声近似和精确计算

高效的信息处理对于生物体和工程系统都至关重要。 相互信息速率,即信息理论的核心概念,量化输入和输出信号轨迹之间共享的信息量,并使得动态系统中的信息流的量化成为可能。 估计相互信息速率的常见方法是高斯近似值,它假设输入和输出轨迹遵循高斯统计。 然而,这种方法仅限于线性系统,其在非线性或离散系统中的准确性仍然不清楚。 在这项工作中,我们通过利用路径重量采样(PWS)来评估高斯近似非高斯系统的准确性,PWS是一种精确计算相互信息速率的最近技术。 在两个案例研究中,我们研究了高斯近似值的局限性。 首先,我们专注于离散线性系统,并证明,即使系统的统计数据接近高斯,高斯近似值也无法准确估计相互信息速率。 其次,我们探索了一个具有非线性传递函数的连续扩散系统,揭示了高斯近似值和随着非线性增加的确切相互信息速率之间的显著偏差。 我们的结果提供了对高斯近似值在不同随机模型中的性能的定量评估,并在需要更计算密集型方法(如PWS)时突出显示。

分子网络 信息论 生物物理学
Biological Pathway Informed Models with Graph Attention Networks (GATs)

带图形注意力网络(GAT)的生物途径信息模型

生物途径绘制了支配所有人类过程的基因-基因相互作用。 尽管它们很重要,但大多数ML模型将基因视为非结构化的令牌,丢弃了已知的通路结构。 最新的通路知情模型捕获了通路-途径相互作用,但仍通过MLP将每个通路视为“基因袋”,丢弃其拓扑和基因基因相互作用。 我们提出了一个图形注意力网络(GAT)框架,该框架可以模拟基因水平的路径。 我们表明,GAT的普及比MLP好得多,实现了81

机器学习 分子网络

最新研究

网络社区检测和新颖性评分揭示风湿性关节炎中未被充分探索的枢纽基因

理解复杂生物网络的模块化结构和核心元素对于揭示疾病中的系统级机制至关重要。本研究利用风湿性关节炎(RA)滑膜组织的bulk RNA-seq数据,通过成对相关性和渗流引导的阈值策略构建了加权基因共表达网络。使用Louvain和Leiden算法进行社区检测揭示了稳健的模块,节点强度排名识别了全局和社区内的前50个枢纽基因。为评估新颖性,我们整合了全基因组关联研究(GWAS)和基于PubMed的文献证据,突出了五个具有高中心性但先前与RA特异性关联很少或没有的基因。功能富集分析证实了它们在免疫相关过程中的作用,包括适应性免疫应答和淋巴细胞调节。值得注意的是,这些枢纽基因与T细胞和B细胞标志物显示出强烈的正相关性,与NK细胞标志物呈负相关性,这与RA免疫病理学一致。总体而言,我们的框架展示了基于相关性的网络构建、模块化驱动的聚类和中心性引导的新颖性评分如何共同揭示组学尺度数据中的信息结构。这种可推广的方法为RA和其他自身免疫性疾病中的基因优先排序提供了一条可扩展的路径。

分子网络社会与信息网络基因组学
arXiv

带图形注意力网络(GAT)的生物途径信息模型

生物途径绘制了支配所有人类过程的基因-基因相互作用。 尽管它们很重要,但大多数ML模型将基因视为非结构化的令牌,丢弃了已知的通路结构。 最新的通路知情模型捕获了通路-途径相互作用,但仍通过MLP将每个通路视为“基因袋”,丢弃其拓扑和基因基因相互作用。 我们提出了一个图形注意力网络(GAT)框架,该框架可以模拟基因水平的路径。 我们表明,GAT的普及比MLP好得多,实现了81

机器学习分子网络
arXiv

MicroLabVR:虚拟现实中模拟时空微生物组数据的互动式3D可视化

微生物群是人体的重要组成部分,从事食物消化和免疫防御等任务。 必须了解它们的结构和功能,以促进宿主健康并促进疾病期间的迅速恢复。 由于在原地实验研究这些系统的困难,在数学建模领域正在进行更多的研究。 可视化时空数据具有挑战性,目前模拟微生物群落时空发展的工具通常只提供有限的功能,通常需要专业知识才能产生有用的结果。 为了克服这些限制,我们提供了一个用户友好的工具,交互式地探索时空模拟数据,称为MicroLabVR,它将空间数据传输到虚拟现实(VR),同时遵循增强用户体验(UX)的指导方针。 使用MicroLabVR,用户可以导入包含人口增长、物质浓度发展和代谢通量分布数据的CSV数据集。 实现的可视化方法允许用户在VR环境中交互式地评估数据集。 MicroLabVR旨在通过在其空间环境中探索微生物组数据来改善用户的数据分析。

人机交互计算工程、金融与科学计算机图形学细胞行为
arXiv

相互信息率——线性噪声近似和精确计算

高效的信息处理对于生物体和工程系统都至关重要。 相互信息速率,即信息理论的核心概念,量化输入和输出信号轨迹之间共享的信息量,并使得动态系统中的信息流的量化成为可能。 估计相互信息速率的常见方法是高斯近似值,它假设输入和输出轨迹遵循高斯统计。 然而,这种方法仅限于线性系统,其在非线性或离散系统中的准确性仍然不清楚。 在这项工作中,我们通过利用路径重量采样(PWS)来评估高斯近似非高斯系统的准确性,PWS是一种精确计算相互信息速率的最近技术。 在两个案例研究中,我们研究了高斯近似值的局限性。 首先,我们专注于离散线性系统,并证明,即使系统的统计数据接近高斯,高斯近似值也无法准确估计相互信息速率。 其次,我们探索了一个具有非线性传递函数的连续扩散系统,揭示了高斯近似值和随着非线性增加的确切相互信息速率之间的显著偏差。 我们的结果提供了对高斯近似值在不同随机模型中的性能的定量评估,并在需要更计算密集型方法(如PWS)时突出显示。

分子网络信息论生物物理学
arXiv

从动力学实现减少和稀疏生化反应网络

我们提出了一个直接的优化框架,用于从时间序列轨迹数据中学习减少和稀疏的化学反应网络(CRN)。 与广泛使用的间接方法(例如基于稀疏识别非线性动力学(SINDy)的方法相反,该方法通过拟合数值估计的导数来推断反应动力学,我们的方法通过解决动态受限的优化问题来适应整个轨迹。 这种配方能够构建低维和稀疏的减少CRN,同时保留原始系统的关键动态行为。 我们开发了一个加速的近端梯度算法,以有效地解决由此产生的非凸优化问题。 通过示例,包括Drosophila昼夜节律振荡器和糖解振荡器,我们展示了我们的方法恢复准确和可解释的减序CRN的能力。 值得注意的是,直接方法避免了衍生估计步骤,并减轻了间接方法固有的错误积累问题,使其成为数据驱动的CRN实现的强大替代方案。

分子网络系统与控制最优化与控制
arXiv

drGT:使用药物细胞-基因异质网络的药物反应研究引导基因评估

与既定知识相比,药物反应预测中的一项挑战是结果解释。drGT是一个图深度学习模型,使用注意力系数(AC)预测生物标志物识别的敏感性和辅助工具。drGT利用由从药物,基因和细胞系反应中提取的关系组成的异质图。 该模型使用主要的基准数据集进行训练和评估:Sanger GDSC、NCI60和Broad CTRP,这些数据集涵盖广泛的药物和癌细胞系。 drGT 演示的 AUROC 高达 94.5

机器学习分子网络定量方法
arXiv

DeepRetro:使用迭代LLM推理的Retrosynthetic Pathway Discovery

复杂天然产物的合成仍然是有机化学的重大挑战之一。 我们介绍了DeepRetro,这是计算反合成的主要进展,它能够为复杂的分子发现可行的合成路线,这些复合分子通常被认为是现有逆行方法的范围。 DeepRetro是一个新颖的开源框架,在迭代设计循环中紧密集成了大型语言模型(LLM),传统的逆合成引擎和专家人类反馈。 先前的方法完全依赖于基于模板的方法或不受限制的LLM输出。 相比之下,DeepRetro将基于模板的方法的精度与LLM的生成灵活性相结合,通过严格的化学有效性检查控制并通过递归细化增强。 这个混合系统动态探索和修改合成途径,通过算法检查和专家化学家反馈通过交互式用户界面。 虽然DeepRetro在标准反光处理基准上取得了强劲的业绩,但其真正的优势在于它能够向历史上逃避自动化规划的高度复杂的自然产品目标提出新颖的可行途径。 通过详细的案例研究,我们说明了这种方法如何为全合成提供新途径,并促进有机化学中的人机协作。 除了逆行,DeepRetro还代表了如何在科学发现中利用LLM的工作模型。 我们为系统的设计、算法和人类反馈循环提供了透明的描述,实现了跨科学领域的广泛适应。 通过发布DeepRetro作为开源工具,我们的目标是使化学家能够解决日益雄心勃勃的合成目标,加速药物发现,材料设计等方面的进展。

定量方法人工智能计算与语言机器学习
arXiv

使用概率分类框架建模 GRN

了解基因调控网络(GRN)的复杂性和随机性仍然是系统生物学的核心挑战。 现有的建模范式往往难以有效地捕捉错综复杂的多因素监管逻辑,并严格管理网络结构和动力学参数的双重不确定性。 作为回应,这项工作引入了概率分类GRN(PC-GRN)框架。 它是一种基于三种核心方法协同整合的新理论方法。 首先,类别理论为监管途径的模块化和组成提供了正式的语言。 其次,贝叶斯型培养基网(BTPN)作为可解释的机械基质,用于建模随机细胞过程,动力学参数本身表示为概率分布。 PC-GRN的核心创新是其端到端生成式贝叶斯推理引擎,它直接从数据中学习BTPN模型(P(G,Θ|D))的完整后验分布。 这是通过GFlowNet的新相互作用实现的,它学习了对网络拓扑进行采样的策略,以及HyperNetwork,它执行摊销的推理来预测其相应的参数分布。 由此产生的框架提供了GRN的数学严谨,可生物学解释和不确定性感知表示,推进预测建模和系统级分析。

分子网络机器学习范畴论
arXiv

在关于来自Garcinia cowa的xanthones生物活性化合物对Hela癌细胞的细胞毒性的硅研究中:基于Graph深度学习,网络药理学和分子对接的QSAR

癌症被认为是一组复杂的疾病,导致全球死亡率最高,患病率越来越高,并呈影响年轻人群的趋势。 它的特点是异常细胞不受控制的增殖,邻近组织的入侵,并转移到远处的器官。 Garcinia cowa是一种在东南亚广泛使用的传统药用植物,包括越南,用于治疗发烧,咳嗽,消化不良,作为泻药,以及寄生虫疾病。 从该物种中分离出的许多xanthone化合物表现出广泛的生物活动,其中一些显示出抗癌症和抗疟疾剂的前景。 网络药理学分析成功确定了关键生物活性化合物Rubraxantthone,Garcinone D,Norcowanin,Cowanol和Cowaxantthone及其主要蛋白质靶点(TNF,CTNNB1,SRC,NFKB1和MTOR),提供了对其抗癌作用的分子机制的关键见解。 Graph Attention Network算法展示了卓越的预测性能,在数据增强后实现了0.98的R2和0.02的RMSE,突出了其在预测基于xanthone化合物的pIC50值的准确性。 此外,分子对接揭示了MTOR作为诱导Garcinia cowa的HeLa癌细胞细胞毒性的潜在靶点。

分子网络机器学习
arXiv

扰动下基因调控网络发现的可解释性神经ODE

具有数千个扰动的现代高通量生物数据集为大规模发现代表基因之间调控相互作用的因果图提供了机会。 已经提出了可区分的因果图形模型,以从大规模介入数据集中推断出基因调控网络(GRN),从遗传扰动中捕获因果基因调控关系。 然而,现有模型在表达性和可扩展性方面受到限制,同时未能解决细胞分化等生物过程的动态性质。 我们提出了PerturbODE,这是一个新颖的框架,它结合了生物学信息的神经普通微分方程(神经ODE)来模拟扰动下的细胞状态轨迹,并从神经ODE的参数中得出因果GRN。 我们展示了PerturbODE在模拟和真实过度表达数据集的轨迹预测和GRN推理方面的功效。

机器学习人工智能计算工程、金融与科学分子网络
arXiv

GFlowNets用于学习更好的药物-药物相互作用

药物相互作用在临床药理学中构成了重大挑战,相互作用类型之间的严重类失衡限制了预测模型的有效性。 常见交互主导数据集,而罕见但关键的相互作用仍然代表性不足,导致不常见情况下的模型性能不佳。 现有方法通常将DDI预测视为二元问题,忽略特定于类的细微差别,并加剧对频繁交互的偏见。 为了解决这个问题,我们提出了一个将生成流网络(GFlowNet)与变频图自动编码器(VGAE)相结合的框架,为稀有类生成合成样本,改善模型平衡并生成有效和新颖的DDI对。 我们的方法提高了跨交互类型的预测性能,确保了更好的临床可靠性。

机器学习生物分子分子网络
arXiv

双向分层蛋白多模式表示学习

蛋白质表示学习对于许多生物学任务至关重要。 最近,在大规模蛋白质序列上预训练的大型基于变压器的蛋白质语言模型(pLM)在基于序列的任务中取得了显着的成功。 然而,pLM缺乏结构性背景。 相反,旨在利用3D结构信息的图神经网络(GNN)在蛋白质相关的预测任务中显示出有希望的概括,但它们的有效性通常受到标记结构数据的稀缺性的限制。 认识到序列和结构表征是同一蛋白质实体的互补视角,我们提出了一个多模态双向分层融合框架,以有效地合并这些模式。 我们的框架采用注意力和闸门机制,以实现pLM生成的顺序表示和GNN提取的结构特征之间的有效交互,改善神经网络层之间的信息交换和增强。 这种双向和分层(Bi-分层)融合方法利用两种模式的优势来捕获更丰富和更全面的蛋白质表征。 基于该框架,我们进一步引入了本地Bi-Hierarchical Fusion与闸门和全球Bi-Hierarchical Fusion与多头自我关注方法。 我们的方法在各种蛋白质表示学习基准中展示了对强基线和现有融合技术的一致改进,包括酶EC分类,模型质量评估,蛋白质配体结合亲和力预测,蛋白质-蛋白质结合位点预测和B细胞表位预测。 我们的方法为多模态蛋白表示学习建立了一种新的最先进的方法,强调Bi-Hierarchical Fusion在桥接序列和结构模式中的功效。

机器学习人工智能分子网络
arXiv

大规模多智能分子通信系统的稳定性分析

分子通信(MC)最近成为连接单个生物纳米机器人的新型通信工具。 预计大量纳米机器人可以通过MC形成大型多能剂MC系统,完成单个纳米机器人无法实现的复杂和大规模任务。 然而,MC系统的大多数先前模型都假设了单向扩散通信信道,并且无法捕获每个纳米机器人之间的反馈,这对于多智能体MC系统很重要。 本文介绍了使用转移函数的大型多能剂MC系统的系统理论模型,然后提出一种方法来分析多剂MC系统的稳定性。 提出的方法将多智能体MC系统分解为多个单输入和单输出(SISO)系统,这有利于将SISO系统的简单分析技术应用于大型多智能体MC系统。 最后,我们通过分析特定大规模多智能体MC系统的稳定性来演示所提出的方法,并澄清一个参数区域来同步纳米机器人的状态,这对于在人口水平上做出合作行为非常重要。

系统与控制信息论分子网络
arXiv

Alz-QNet:用于研究阿尔茨海默病基因相互作用的量子回归网络

通过研究与阿尔茨海默病(AD)相关的关键基因来理解其分子水平机制仍然是一个挑战。作为一种多因素疾病,阿尔茨海默病需要理解其背后的基因-基因相互作用以促进治疗诊断学的发展。本文首次尝试使用量子回归方法来解码AD中一些关键基因(如淀粉样前体蛋白(APP)、固醇调节元件结合转录因子14(FGF14)、阴阳1(YY1)和磷脂酶D家族成员3(PLD3)等)在疾病进展过程中如何受到其他重要开关基因的影响,这可能有助于基于基因表达的AD治疗。我们提出的量子回归网络(Alz-QNet)采用了一种开创性方法,结合最先进的量子基因调控网络(QGRN)的见解,以揭示AD病理学中涉及的基因相互作用,特别是在早期病理变化发生的内嗅皮层(EC)区域。使用提出的Alz-QNet框架,我们探索了AD患者CE微环境中关键基因(APP、FGF14、YY1、EGR1、GAS7、AKT3、SREBF2和PLD3)之间的相互作用,研究来自GSE138852数据库的遗传样本,这些基因都被认为在AD进展中起着关键作用。我们的研究揭示了复杂的基因-基因相互作用,阐明了可能构成AD发病机制的潜在调控机制,这有助于我们寻找用于治疗诊断学的潜在基因抑制剂或调节剂。

分子网络机器学习基因组学量子物理学
arXiv

解码 和 工程 的 Phytobiome 通信 智能 农业

智能农业应用,将物联网和机器学习/人工智能(ML/AI)等技术集成到农业中,有望解决粮食需求上升、环境污染和水资源短缺的现代挑战。 除了植物基因组的概念,它定义了包括植物,其环境和相关生物在内的区域,以及最近出现的分子通信(MC),还有一个利用交流理论推进农业科学与实践的重要机会。 在这篇文章中,我们激励使用通信工程视角来发展对植物人通信的整体理解,并弥合植物人通信和智能农业之间的差距。 首先,介绍了通过分子和电生理信号进行植物基因组通信的概述,并将植物生物群建模为通信网络的多尺度框架。 然后,该框架如何用于电生理信号建模通过植物实验证明。 此外,还提出了可能的智能农业应用,如智能灌溉和有针对性的农业化学品交付,通过工程植物基因组通信。 这些应用将ML/AI方法与MC启用的生物纳米物联网相结合,并为更高效,可持续和环保的农业生产铺平了道路。 最后,讨论了这些应用的实施挑战、开放研究问题和工业前景。

信号处理人工智能新兴技术网络与互联网架构
arXiv

通过基于门的量子计算解决B-SAT问题来识别蛋白质共同调节网络逻辑

人们越来越意识到,对生物体的药理干预的成功受到暴露的背景和时间的影响。 反过来,这种复杂性导致人们越来越关注生物学中的监管网络动力学,以及我们以高保真方式以硅形式表示它们的能力。 逻辑网络模型在这里显示出很大的希望,它们的参数估计可以作为一个约束满意度问题(CSP),非常适合生物学中经常稀疏,不完整的数据。 不幸的是,即使在布尔逻辑的情况下,这些问题的组合复杂性也迅速增长,挑战了与生理相关的模型的创建。 也就是说,量子计算虽然还处于萌芽状态,但促进了新的信息处理范式,有可能在诸如此类的问题中产生变革性影响。 在这项工作中,我们迈出了实现这一潜力的第一步,通过确定一个研究良好的网络的结构和布尔决定逻辑,将参与大脑哺乳动物皮质区域神经发育的5种蛋白质联系起来。 我们通过将其确定为布尔可满足性(B-SAT)问题,确定蛋白质-蛋白质连接和支配该网络的二元决策逻辑。 我们使用Grover的算法来比确定性经典算法所需的指数时间复杂性更快地解决NP硬问题。 使用部署在量子模拟器和实际嘈杂的中间尺度量子(NISQ)硬件上的方法,我们从非常稀疏的蛋白质表达数据中准确地恢复了几个高概率模型。 研究结果强调了数据类型在支持精确模型方面的差异作用;量子算法设计的影响与量子硬件的可变性有关;以及这种方法加速发现的机会。

量子物理学性能分子网络
arXiv

阿瑟化学系统中的计算和边界均衡浓度

分子复合体的计算平衡浓度通常分析难以分析,需要数值方法。 在这项工作中,我们专注于聚合物-单体水平,其中不可分割的分子(单体)组合形成复合物(聚合物)。 而不是为每个聚合物使用自由能量参数,我们专注于所有相互作用保持熵的热设置。 这种设置与DNA纳米技术中强粘合(基于域)的酶机制一致,当链可以以不同的方式结合时,但始终具有最大的整体粘接 - 并且与热力学结合网络(TBN)模型中的饱和配置一致。 在这种情况下,我们开发了一种迭代算法,用于分配聚合物浓度以满足详细平衡,其中目标(渴望)聚合物处于高浓度,脱靶(非靶向)聚合物处于低浓度。 即使没有直接执行,我们的算法也能对脱靶聚合物浓度的上限提供有效的见解,将关于离散配置(如TBN模型中的)的组合参数与实值浓度联系起来。 最后,我们应用了我们的方法来减少DNA逻辑和信号传播的泄漏。 我们的结果为设计和验证平衡浓度提供了新的框架,当配置通过熵力来区分时。

数据结构与算法分子网络
arXiv

走向可解释的药物-药物相互作用预测:基于图谱的方法与分子和网络水平的解释

药物相互作用(DDI)是药理学中的一个关键挑战,通常导致药物不良反应,对患者安全和医疗保健结果产生重大影响。 虽然基于图的方法已经实现了强大的预测性能,但大多数方法独立治疗药物对,忽略了药物对特有的复杂,上下文依赖的相互作用。 此外,这些模型难以整合生物相互作用网络和分子级结构,以提供有意义的机械洞察力。 在这项研究中,我们提出了MolecBioNet,这是一个基于图形的新型框架,将分子和生物医学知识集成在一起,以实现稳健和可解释的DDI预测。 通过将药物对建模为统一实体,MolecBioNet捕获宏观水平的生物相互作用和微观水平的分子影响,提供了对DDI的全面视角。 该框架从生物医学知识图中提取局部子图,并从分子表示中构建层次相互作用图,利用经典的图神经网络方法来学习药物对的多尺度表示。 为了提高准确性和可解释性,MolecBioNet引入了两种特定领域的集合策略:上下文感知子图池(CASPool),它强调生物学上相关的实体,以及关注引导的影响池(AGACool),它优先考虑有影响力的分子子结构。 该框架还采用相互信息最小化规范化,在嵌入融合过程中加强信息多样性。 实验结果表明,MolecBioNet在DDI预测中优于最先进的方法,而消融研究和嵌入可视化进一步验证了统一药物配对建模和多尺度知识集成的优势。

机器学习人工智能分子网络
arXiv

通过将选择性增量学习应用于(非常)小型语言模型来重建生物途径

生成式人工智能(AI)模型的使用在许多领域变得无处不在。 虽然继续取得进展,但通用大型语言AI模型(LLM)显示出提供创造性答案的倾向,通常被称为“幻觉”,这减慢了他们在医学和生物医学领域的应用,其中准确性至关重要。 我们建议,设计和使用更小的领域,甚至特定任务的LM可能是在生物医学研究中更合理和适当地使用这种技术。 在这项工作中,我们根据今天的标准将一个非常小的LM应用于预测分子成分之间的调节相互作用的专门任务,以填补我们目前对细胞内通路的理解的空白。 为此,我们尝试通过选择和使用最翔实的示例作为主动学习计划的一部分,正确定位从手动策划的路径数据库中恢复的已知路径消息交互。 通过这个例子,我们展示了基于变形金刚(BERT)结构的双向编码器表示的小型(1.1亿个参数)LM可以提出与结核病持久性和超过80的结核病持久性和传输相关的分子相互作用。

分子网络计算与语言信息论机器学习
arXiv

使用路径权重采样精确计算Transfer Entropy

量化信息定向流动的能力对于理解自然系统和设计工程化信息处理系统至关重要。Transfer entropy是量化这种信息流动的广泛使用的度量方法。然而,迄今为止,这一量只能通过通常不受控制的近似方法在动态模型中获得。本文介绍了一种名为Transfer Entropy-Path Weight Sampling(TE-PWS)的计算算法,首次实现了对任何随机模型(包括具有多个隐变量、非线性、瞬态条件和反馈的模型)的transfer entropy及其变体的精确量化。通过利用聚合物和路径采样技术,TE-PWS将transfer entropy作为信号轨迹空间上的Monte-Carlo平均值进行高效计算。我们使用这一精确技术证明,常用的transfer entropy近似计算方法会产生较大的系统误差和较高的计算成本。作为应用,我们在线性和非线性系统中使用TE-PWS揭示了transfer entropy如何在存在反馈的情况下克服对数据处理不等式的简单应用。

分子网络软凝聚态物理统计力学信息论
arXiv