在药物发现中,绘制细胞系统内基因之间的相互作用是至关重要的早期步骤。 这些地图不仅是了解疾病生物学基础的基础,也是制定关于新药潜在靶点的假设的关键。 认识到需要提升这些基因-基因相互作用网络的构建,特别是来自大规模、现实世界的扰动单细胞数据集,CaisalBench挑战赛开始了。 这一挑战旨在激励机器学习社区增强最先进的方法,强调更好地利用广泛的遗传扰动数据。 使用CaisalBench基准提供的框架,参与者的任务是改进当前方法或提出新的方法。 本报告对在挑战期间提交的方法进行了分析和总结,以对挑战时的艺术状况进行部分描述。 值得注意的是,与以前的基线相比,获胜的解决方案显着提高了性能,为生物学和医学中的这一关键任务建立了新的技术状态。
准确的分子特性预测(MPP)是现代药物开发的关键一步。 然而,实验验证数据的稀缺性对人工智能驱动的研究范式构成了重大挑战。 在很少见的学习情景下,分子表示的质量直接决定了模型性能的理论上限。 我们介绍了AdaptMol,一个集成了用于分子表示的自适应多模态融合的典型网络。 该框架采用双层注意力机制,动态整合源自两种模式的全球和局部分子特征:SMILES序列和分子图。 (1)在局部层面,原子相互作用和亚结构等结构特征从分子图中提取,强调细粒度拓扑信息;(2)在全球层面,SMILES序列提供了分子的整体表示。 为了验证多模态自适应聚变的必要性,我们提出了一个基于识别分子活性子结构的可解释方法,以证明多模态自适应融合可以有效地代表分子。 在5次拍摄和10次设置下对三个常用基准进行的广泛实验表明,在大多数情况下,AdaptMol 达到了最先进的性能。 理由提取方法指导两种模式的融合,并强调了这两种方式的重要性。
如何让人工智能模型自我提升? 这是指数级改进广义人工智能模型的核心,该模型可以改进自己的架构,以有效利用利用最新硬件的方式处理新的问题领域。 然而,目前的自动化编译方法很差,高效的算法需要多年的人类发展。 在本文中,我们使用基于类别理论的神经电路图来证明与深度学习算法相关的一般定理,指导开发一种迎合基因调控网络领域的新型注意力算法,并产生相应的高效内核。 我们提出的算法,球形注意,表明神经电路图启用了一个原理和系统的方法来推理深度学习架构和提供高性能代码。 通过将SoftMax替换为图表建议的L^2规范,它克服了标准关注的特殊功能单元瓶颈,同时保留了高性能所必需的流属性。 我们的图式派生FlashSign内核实现了与A100上最先进的微调FlashAttention算法和PyTorch性能3.6×的性能相当的性能。 总体而言,这项调查表明,神经电路图作为高效、新颖的人工智能架构自动化开发的高级框架的适用性。
生物体在环境波动中保持稳定的功能,尽管环境条件发生了变化,但这种特性仍能保护系统的行为。 为了阐明随机生化反应中的稳态,在参数扰动下评估人口水平不变性的理论工具至关重要。 在本文中,我们提出了一个系统的方法,通过利用固定矩方程的结构特性,确定在参数扰动下保持不变的静止矩。 这一发展的一个关键步骤是解决矩方程的不确定性质,传统上很难描述静止矩如何依赖于系统参数。 为了克服这一点,我们利用系数矩阵的Dulmage-Mendelsohn(DM)分解来提取井定的分方程并揭示其分层结构。 利用这种结构,我们确定了固定时刻,其相对于参数的部分衍生物在结构上为零,促进了对随机生化系统中调节稳态行为的基本约束的探索。
DNA微阵列技术能够同时测量数千个基因的表达水平,从而促进对脑肿瘤等复杂疾病的分子机制的理解和诊断遗传特征的识别。 为了从通过这项技术获得的高维和复杂的基因特征中获得有意义的生物学见解,并详细分析基因特性,因此广泛使用基于人工智能的机器学习和深度学习等基于人工智能的方法。 然而,这些方法在管理高维矢量空间和建模基因之间错综复杂的关系方面面临各种限制。 特别是超参数调优、计算成本和高处理能力要求等挑战会阻碍其效率。 为了克服这些限制,量子计算和量子人工智能方法越来越受到关注。 利用叠加和纠缠等量子特性,量子方法能够更有效地并行处理高维数据,并为经典方法的计算要求的问题提供更快,更有效的解决方案。 在这项研究中,提出了一种名为“深度VQC”的新模型,基于变频量子分类器方法。 该模型使用包含54,676个基因特征的微阵列数据开发,成功分类了四种不同类型的脑肿瘤-脑肿瘤-脑肿瘤,胶质母细胞瘤,髓母细胞瘤和皮细胞星形细胞瘤 - 以及健康样本。 此外,与经典的ML算法相比,我们的模型展示了优越或可比的分类性能。 这些结果强调了量子AI方法作为基于基因表达特征的复杂结构(如脑肿瘤)分析和分类的有效和有希望的方法的潜力。
细胞重编程,一种细胞类型的人工转化为另一种细胞类型,由于其治疗复杂疾病的治疗潜力,已经吸引了越来越多的研究关注。 然而,通过经典的湿实验室实验发现重新编程策略受到长时间承诺和高成本的阻碍。 在这项研究中,我们探索使用深度强化学习(DRL)来控制复杂生物系统的布尔网络模型,例如基因调控网络和信号通路网络。 我们在蜂窝重编程的背景下,为异步更新模式下的布尔网络模型制定了一个新的控制问题。 为了促进可扩展性,我们考虑了以前引入的伪猛犸象的概念,并改进了有效识别伪截流状态的程序。 最后,我们设计了一个计算框架来解决控制问题。 为了利用生物系统的结构,我们将图神经网络与图卷积结合到人工神经网络近似器中,用于DRL代理学习的动作值函数。 来自文献中许多大型现实世界生物网络的实验证明了我们方法的可扩展性和有效性。
许多生物和社会系统自然表现为边缘加权定向或无定向超图,因为它们表现出涉及三个或三个以上系统单元的组相互作用,而不是可以纳入图形理论表示的成对相互作用。 然而,在超图中发现有影响力的核心仍然不像它们的图论反面部分那样广泛研究。 为此,我们开发和实施超图弧度引导离散时间扩散过程,为无方向和定向加权超图提供合适的拓扑手术和边缘重量再正常化程序,以找到有影响力的核心。 我们成功地将定向超图的框架应用于七个代谢超图,并将我们的无定向超图框架应用于两个社会(共同作者)超图,以找到有影响力的核心,从而证明了我们方法的实际可行性。 此外,我们证明了一个定理,表明在利奇流的利奇流中,对于边缘加权图形的先前研究工作中,一定的边缘重量重新规范化过程具有将边缘权重修改为负数的不良结果,从而使该过程无法使用。 据我们所知,这似乎是第一批为寻找(加权或未加权)定向超图的核心(加权或未加权)的算法方法的文章之一。
基因调控网络(GRNs)的推断是破译复杂生物系统基础的基础。 推断两个基因之间可能的调控联系可以作为一个链接预测问题。 通过基因共表达分析数据推断GRN并不总是反映真正的生物相互作用,因为它对噪声的易感性和歪曲真正的生物调控关系。 大多数GRN推理方法在网络重建阶段面临几个挑战。 因此,重要的是对基因表达值进行编码,利用从输入网络节点的可用推断网络结构和位置信息中获得的先验知识,以推断更好、更有信心的GRN网络重建。 在本文中,我们探讨了多个推断网络的集成,以增强基因调控网络(GRN)的推断。 首先,我们使用自动编码器嵌入来直接从原始数据中捕获基因表达模式,从而保存复杂的生物信号。 然后,我们将来自GRN结构的先验知识嵌入到使用随机行的文本表示中,然后使用掩蔽语言模型BERT进行编码,以生成所有网络中每个基因的全局嵌入。 此外,我们嵌入输入基因网络的位置编码,以更好地识别图中每个独特基因的位置。 这些嵌入被集成到基于图形变压器的模型中,称为GT-GRN,用于GRN推理。 GT-GRN模型有效地利用了地面真理网络的拓扑结构,同时融合了丰富的编码信息。 实验结果表明,GT-GRN明显优于现有的GRN推理方法,实现了卓越的精度,并突出了我们方法的稳健性。
基因调控网络(GRNs)是复杂的生物系统,可以控制基因表达和调节,以应对环境和发育线索。 计算生物学的进步,加上高吞吐量的测序技术,显著提高了GRN推理和建模的准确性。 现代方法越来越多地利用人工智能(AI),特别是机器学习技术,包括监督,无监督,半监督,和对比学习来分析大规模组学数据并发现调控基因相互作用。 为了支持GRN推理在研究基因调控中的应用和新型机器学习方法的开发,我们提出了基于机器学习的GRN推理方法的全面审查,以及常用的数据集和评估指标。 特别强调尖端深度学习技术在提高推理性能方面的新兴作用。 还讨论了改善GRN推断的潜在未来方向。
背景:虚拟筛选(VS)已成为药物发现中必不可少的工具,能够快速且经济高效地识别潜在的生物活性分子。 在最近的进步中,Graph Neural Networks(GNN)因其使用基于图形的表示对复杂分子结构进行建模的能力而获得了突出地位。 然而,整合可解释的方法来阐明分子亚结构对生物活性的具体贡献仍然是一个重大挑战。 这种限制阻碍了预测模型的可解释性和新颖疗法的合理设计。 结果:我们在小分子数据集上训练了20个GNN模型,目的是预测它们对来自Kinase家族的20个不同蛋白质靶点的活性。 这些分类器在虚拟筛选任务中实现了最先进的性能,在不同的目标上展示了高精度和稳健性。 在这些模型的基础上,我们实现了分层梯度图解释器(HGE)框架,能够深入分析驱动蛋白配体结合稳定的分子。 HGE利用Atom,环和全分子水平的Grad-CAM解释,利用消息传递机制来突出最相关的化学呻吟。 对文献实验数据的验证证实了解释者识别药物分子模式并将其正确注释到已知目标的能力。 结论:我们的方法可能代表一种有效的支持,以缩短筛选和打击发现过程。 对在结合过程中发挥作用的分子子结构的详细知识可以帮助计算化学家深入了解结构优化以及药物再利用任务。
物理信息神经网络(PINN)通过将管理的物理定律集成到神经网络的架构中来模拟系统的动力学。 通过将物理定律作为约束,PINN克服了数据疤痕和潜在高维度的挑战。 现有的PINN框架依赖于完全观察到的时间过程数据,许多系统的获取可能令人望而却步。 在这项研究中,我们开发了一种新的PINN学习范式,即Constrained Learning,它允许使用非时间课程或部分观察数据近似一阶衍生物或运动。 计算原理和约束学习的一般数学公式被开发出来。 我们进一步引入了MPOCtrL(基于消息传递优化的Constrained Learning)一种针对Constrained Learning框架量身定制的优化方法,旨在平衡物理模型和观察数据的拟合。 它的代码可在 github 链接:https : / /github.com/ptdang1001/MPOCtrL 合成和真实世界数据的实验表明,MPOCtrL 可以有效地检测观察到的数据与系统底层物理属性之间的非线性依赖。 特别是,在代谢通量分析的任务上,MPOCtrL优于所有现有的数据驱动通量估计器。
No more items to load.