本文调查了人工智能生物设计的基础模型,重点关注将大规模、自我监督模型应用于蛋白质工程、小分子设计和基因组序列设计等任务的最新发展。 虽然这个领域正在迅速发展,但这项调查提出并讨论了当前模型和方法的分类。 重点是在适应这些模型用于生物应用的挑战和解决方案,包括生物序列建模架构,生成中的可控性和多模态集成。 该调查结束时讨论了开放性问题和未来方向,为改善生物序列生成的质量提供了具体的下一步。
不变点注意力(IPA)是结构生物学中几何感知建模的关键算法,是许多蛋白质和RNA模型的核心。 然而,它的二次复杂性限制了输入序列长度。 我们引入了FlashIPA,这是IPA的因子重新配方,利用硬件效率的FlashAttention实现GPU内存和时钟长度的线性缩放。 FlashIPA匹配或超过标准IPA性能,同时大幅降低计算成本。 FlashIPA将训练扩展到以前无法实现的长度,我们通过重新训练生成模型来证明这一点,没有长度限制,并生成数千个残渣的结构。 FlashIPA可在https://github.com/flagshippioneering/flash_ipa查阅。
在AI4Science领域,大型语言模型(LLM)显示出分析复杂科学语义、整合跨学科知识、协助关键任务研究的巨大潜力。 然而,在药物发现领域,尽管通过专业数据预训练、上下文窗口扩展和互联网搜索进行了优化,但现有的LLM仍然面临挑战,如大规模的多模态和异构数据处理,域知识动态更新延迟,以及对预测复杂计算任务结果的信心不足。 为了应对这些挑战,我们提出了基于LLM的药剂DrugPilot,具有药物发现的参数化推理。 DrugPilot通过其参数推断架构解决了传统端到端LLM预测方法的关键限制。 该代理系统支持药物发现管道的主要阶段,促进多阶段研究任务的自动化规划和执行。 为了应对多模态药物数据分析(包括公共数据集和用户提交数据)的重大挑战,我们开发了一个交互式参数化内存池。 这一创新组件将真实世界的药物数据标准化为参数表示,同时在多转对话中实现高效的知识检索,同时减轻基于文本的数据传输所固有的信息损失。 此外,我们还创建了一个药物指导数据集,涉及8项重要的药物发现任务,用于模型微调和评估。 基于Berkeley函数调用评估框架,DrugPilot在我们的药物发现工具指令数据集上展示了最先进的工具调用能力,优于现有代理(例如,ReAct,LoT)。 具体来说,它分别实现了98.0多转任务的任务完成率。
免疫原性预测是反向疫苗学的一个中心主题,用于寻找可以触发保护性免疫反应的候选疫苗。 现有方法通常依赖于高度压缩的特性和简单的模型架构,导致预测准确性有限且可推广性差。 为了应对这些挑战,我们介绍了VenusVaccine,这是一种新颖的深度学习解决方案,具有双重注意力机制,集成了预先训练的蛋白质序列和结构的潜在矢量表示。 我们还编制了迄今为止最全面的免疫原性数据集,包括来自细菌、病毒和肿瘤的7000多个抗原序列、结构和免疫原性标签。 广泛的实验表明,VenusVaccine在广泛的评估指标中优于现有方法。 此外,我们还建立了一个临时验证协议,以评估深度学习模型在应对疫苗设计挑战方面的实际意义。 我们的工作为疫苗设计提供了有效的工具,并为未来的研究设定了宝贵的基准。 实施情况见https://github.com/singleee/VenusVaccine。
肽,氨基酸的短链,与靶蛋白相互作用,使其成为治疗人类疾病的独特蛋白质基疗法。 最近,深度生成模型在肽生成中显示出巨大的前景。 然而,在设计有效的肽粘结剂方面仍然存在一些挑战。 首先,并非所有残留物都平等地促进肽-目标相互作用。 其次,由于肽键的限制,生成的多肽必须采用有效的几何形状。 第三,肽药物开发的现实任务仍然缺乏。 为了应对这些挑战,我们引入了PepHAR,一种用于设计针对特定蛋白质的肽的热点驱动自回归生成模型。 基于某些热点残留物具有较高相互作用潜力的观察,我们首先使用基于能量的密度模型来适应和采样这些关键残留物。 接下来,为了确保适当的肽几何形状,我们通过估计残基帧之间的二面角自动扩展肽片段。 最后,我们将优化过程应用于迭代细化片段组装,确保正确的肽结构。 通过将热点采样与基于片段的扩展相结合,我们的方法可以实现针对目标蛋白质的无新肽设计,并允许将关键热点残留物纳入肽支架。 广泛的实验,包括肽设计和肽支架生成,证明了PepHAR在计算肽粘结剂设计中的强大潜力。 源代码可在https://github.com/Ced3-han/PepHAR上查阅。
本文调查了人工智能生物设计的基础模型,重点关注将大规模、自我监督模型应用于蛋白质工程、小分子设计和基因组序列设计等任务的最新发展。 虽然这个领域正在迅速发展,但这项调查提出并讨论了当前模型和方法的分类。 重点是在适应这些模型用于生物应用的挑战和解决方案,包括生物序列建模架构,生成中的可控性和多模态集成。 该调查结束时讨论了开放性问题和未来方向,为改善生物序列生成的质量提供了具体的下一步。
不变点注意力(IPA)是结构生物学中几何感知建模的关键算法,是许多蛋白质和RNA模型的核心。 然而,它的二次复杂性限制了输入序列长度。 我们引入了FlashIPA,这是IPA的因子重新配方,利用硬件效率的FlashAttention实现GPU内存和时钟长度的线性缩放。 FlashIPA匹配或超过标准IPA性能,同时大幅降低计算成本。 FlashIPA将训练扩展到以前无法实现的长度,我们通过重新训练生成模型来证明这一点,没有长度限制,并生成数千个残渣的结构。 FlashIPA可在https://github.com/flagshippioneering/flash_ipa查阅。
微调预训练的生成模型在生成有前途的药物分子方面表现出良好的性能。 微调任务通常被表述为强化学习问题,以前的方法有效地学习优化奖励功能以产生潜在的药物分子。 然而,在没有奖励函数的自适应更新机制的情况下,优化过程可能会卡在本地视距中。 局部优化中最佳分子的功效可能不会转化为后续药物优化过程中的有用性或作为潜在的独立临床候选者。 因此,重要的是要产生一组不同的有希望的分子。 以前的工作通过惩罚结构相似的分子来改变奖励功能,主要侧重于寻找具有更高回报的分子。 迄今为止,没有研究全面研究奖励功能的不同适应性更新机制如何影响生成分子的多样性。 在这项工作中,我们研究了一系列固有的动机方法和策略来惩罚外部奖励,以及它们如何影响一组生成的分子的多样性。 我们的实验表明,结合基于结构和预测的方法通常会在多样性方面产生更好的结果。
解锁下一代生物技术和治疗创新需要克服传统蛋白质工程方法的内在复杂性和资源强度。 最近的GenAI驱动的计算技术通常依赖于目标蛋白的3D结构和特定结合位点的可用性来生成高亲和力结合剂,这些约束由AlphaProteo和RFdiffusion等模型显示。 在这项工作中,我们探索使用蛋白质语言模型(pLM)进行高亲和力粘结剂生成。 我们介绍了Prot42,这是一个蛋白质语言模型(pLM)的新家族,在大量未标记的蛋白质序列上预训练。 通过在自然语言处理突破的启发下,通过先进的自动回归,解码器架构捕获深度进化,结构和功能见解,Prot42极大地扩展了仅基于语言的计算蛋白质设计的功能。 值得注意的是,我们的模型处理多达8,192个氨基酸的序列,大大超过了标准限制,并实现了大型蛋白质和复杂多域序列的精确建模。 Prot42展示了强大的实际应用,擅长生成高亲和力蛋白粘合剂和序列特异性DNA结合蛋白。 我们的创新模型是公开的,为科学界提供了高效和精确的快速蛋白质工程计算工具包。
开发新药既费力又昂贵,需要大量时间投资。 在本文中,我们引入了一种去诺沃药物设计策略,利用语言模型的能力为特定蛋白质设计靶向药物。 利用近端策略优化(PPO)的强化学习(RL)框架,我们完善了该模型,以获得针对蛋白质目标量身定制的药物的政策。 拟议的方法集成了复合奖励功能,结合了药物靶标相互作用和分子有效性的考虑。 在RL微调之后,拟议的方法显示出有希望的结果,在分子有效性,相互作用功效和关键化学特性方面显着改善,分别达到65.37药物样度定量估计(QED),分子重量(MW)为321.55,Octanol-Water分区系数(logP)为4.47。 此外,在生成的药物中,只有0.041表现出新奇。
乳腺癌的复杂性和可变性在理解其进展和指导有效治疗方面提出了重大挑战。 这项研究旨在将蛋白质序列数据与表达水平相结合,以改善乳腺癌亚型的分子表征并预测临床结果。 使用ProtGPT2,一个为蛋白质序列设计的语言模型,我们生成了捕获蛋白质序列的功能和结构特性的嵌入。 这些嵌入与蛋白质表达水平集成在一起,形成丰富的生物表征,这些表征使用机器学习方法进行了分析,例如用于聚类的集成K-均值和用于分类的XGBoost。 我们的方法使患者成功聚类到生物不同的组中,并准确预测了生存和生物标志物状态等临床结果,实现了高性能指标,特别是F1的存活率为0.88,生物标志物状态预测为0.87。 特征重要性分析将KMT2C,CLASP2和MYO1B确定为参与激素信号传导,细胞骨骼重塑和激素受体阳性和三阴性乳腺癌治疗抵抗的关键蛋白质,对乳腺癌亚型行为和进展有潜在影响。 此外,蛋白质-蛋白质相互作用网络和相关性分析揭示了可能影响乳腺癌亚型行为和进展的蛋白质之间的功能相互依赖性。 这些发现表明,整合蛋白质序列和表达数据为肿瘤生物学提供了有价值的见解,并具有增强乳腺癌护理个性化治疗策略的巨大潜力。
在中间分辨率(4-8 Å)下增强低温电子显微镜(cryo-EM)3D密度图对于蛋白质结构测定至关重要。 深度学习的最新进展导致了自动化方法的开发,以增强实验低温-EM密度图。 然而,这些方法并没有针对中间分辨率的地图进行优化,并且仅依赖于地图密度特征。 为了解决这个问题,我们提出了CryoSAMU,这是一种新方法,旨在使用结构感知多模态U-Nets增强蛋白质结构的3D低温-EM密度图,并在策划的中间分辨率密度图上进行培训。 我们通过各种指标全面评估CryoSAMU,并展示其与最先进的方法相比具有竞争力的表现。 值得注意的是,CryoSAMU实现了更快的处理速度,为未来实际应用提供了希望。 我们的代码可在https://github.com/chenwei-zhang/CryoSAMU。
鉴于蛋白质语言模型(LM)在结构和功能推断方面的有用性,RNA LMs在过去几年中受到越来越多的关注。 然而,这些RNA模型通常不与相同的标准进行比较。 在这里,我们将RNA LM分为三类(预训练在多种RNA类型(特别是非编码RNA),特定用途RNA和LMs,将RNA与DNA或蛋白质或两者统一)并比较了13个RNA LM以及3个DNA和1个蛋白质LM作为RNA二次结构和功能分类的零镜头预测的控制。 结果表明,在二级结构预测方面表现良好的模型在功能分类中表现往往较差,反之亦然,这表明需要更平衡的无监督训练。
由于其优异的药物样和药代动力学特性,小分子药物被广泛用于治疗各种疾病,使其成为药物发现的关键组成部分。 近年来,随着深度学习(DL)技术的迅速发展,与传统机器学习方法相比,基于DL的小分子药物发现方法在预测准确性、速度和复杂的分子关系建模方面实现了优异的性能。 这些进步提高了药物筛选效率和优化,并为各种药物发现任务提供了更精确有效的解决方案。 本文为该领域的发展做出了贡献,旨在系统地总结和概括近年来图结构小分子药物发现中最近的关键任务和代表性技术。 具体来说,我们概述了小分子药物发现的主要任务及其相互关系。 接下来,我们分析六个核心任务,总结相关方法、常用数据集和技术发展趋势。 最后,我们讨论了关键挑战,如可解释性和分布外泛化,并提供我们对小分子药物发现未来研究方向的见解。
小分子生成设计中的可合成性仍然是一个瓶颈。 考虑合成性的现有作品可以为生成的分子输出预测的合成路线。 然而,在解决易于合成和灵活纳入所需反应限制方面,人们的注意力很少。 在这项工作中,我们提出了一个小分子生成设计框架,可以实现可操纵和粒度的可组合性控制。 生成分子满足任意多参数优化目标,预测合成路线包含预先定义的允许反应,同时可选地避免其他反应。 也可以强制所有反应都属于预先定义的集。 我们展示了在最常见的药物化学转化中混合和匹配这些反应约束的能力。 接下来,我们展示了我们的框架如何用于将工业副产品转换为新优化分子。 更进一步,我们展示了对可合成性约束的精细控制如何松散地模仿超大型按需生成库的虚拟筛选。 仅使用单个GPU,我们生成并停靠15k分子,以确定自由4.0中有前途的候选分子,这些候选分子构成142B按需生成分子(仅评估0.0001个反应约束具有> 90个框架,可针对最近的合成受限生成模型,并演示最高的样品效率,即使施加额外的约束,所有分子都必须从单一反应类型中合成。 主旨是证明,可以通过强化学习,在具有挑战性的合成性约束下,可以激励预先训练的通配分子生成模型,以产生属性优化的小分子。
由于分子拷贝数低,细胞内生物分子系统表现出内在的随机性,导致多模态概率分布在概率分化和细胞决策中起着至关重要的作用。 控制生物分子系统中多模态概率分布的分散对于调节随机行为、鲁棒性和适应性至关重要。 然而,修改系统参数以调整分散通常会影响峰值位置,从而可能改变遗传途径中所需的表型甚至基本行为。 在本文中,我们建立了一个理论框架,该框架允许独立控制分散,同时使用Chemical Fokker-Planck Equation(CFPE)和锐度(Chemical Fokker-Planck Equation,CFPE)和锐度(S sharpness)保持峰值位置和模式,这是衡量单个峰值周围概率浓度的指标。 通过分析CFPE的稳态解决方案,我们得出明确的条件,在这个条件下,峰值锐度可以单调地调整,而不改变峰值位置或模式。 我们通过蒙特卡洛模拟双模态化学系统验证我们的方法,在保持结构稳定性的同时,演示了有效的分散控制。 该框架为设计具有可调随机特性的生物分子系统提供了一种系统方法,有助于合成生物学和概率细胞调节的进步。
这项研究进行了定量结构属性关系(QSPR)分析,以探索使用机器学习技术的药物分子的物理特性与其拓扑指数之间的相关性。 虽然药物设计方面的先前研究侧重于基于学位的拓扑指数,但这项工作通过计算基于学位的拓扑指数分析了166个药物分子的数据集,将不同六种原子特性(原子序,原子半径,原子质量,密度,电子化,电离)的顶点边缘权重结合起来。 线性模型(Linear Regression,Lasso和Ridge Regression)和非线性方法(Random Forest,XGBoost和Neural Networks)都用于预测分子特性。 研究结果证明了这些指数在预测特定物理化学特性方面的有效性,并强调了计算方法在分子特性估计中的实践相关性。 该研究为将拓扑指数与机器学习相结合以提高预测准确性提供了创新视角,突出了其在药物发现和开发过程中的潜在应用。 这种预测也可以解释,在拓扑指数和物理特性之间建立可靠的关系使化学家能够在进行实验分析之前获得对分子行为的初步见解,从而优化化学信息学研究的资源利用率。
VTX是一个分子可视化软件,能够处理大多数分子结构和动力学轨迹文件格式。 它具有基于现代OpenGL的实时高性能分子图形引擎,针对大规模分子系统和分子动力学轨迹的可视化进行了优化。 VTX包括多个交互式相机和用户交互功能,特别是自由飞行导航和完全模块化的图形用户界面,旨在提高可用性。 它允许制作高分辨率图像,用于演示和具有自定义背景的海报。 VTX设计专注于研究,教学和教育目的的性能和可用性。 可用性和实现:VTX是开源的,免费用于非商业用途。 Windows和Ubuntu Linux的构建可在http://vtx.drugdesign.fr上找到。 源代码可在https : / /github.com/VTX-Molecular-Visualization 。 补充信息:提供全细胞模型中显示自由飞行导航的视频
我们介绍了FLOWR,这是一个基于结构的新型框架,用于生成和优化三维配体。 FLOWR集成了连续和分类的流量匹配与等效的最佳传输,通过高效的蛋白质口袋调理增强。 除了FLOWR之外,我们还介绍了SPINDR,这是一个经过彻底策划的数据集,包括专门用于解决现有数据质量问题的配体口袋共晶复合体。 经验评估表明,FLOWR在PoseBusters有效性,姿势准确性和交互恢复方面超越了当前最先进的基于扩散和流的方法,同时提供了显着的推理加速,实现了高达70倍的更快性能。 此外,我们还引入了FLOWR:multi,一种高度精确的多用途模型,允许对坚持预定义的相互作用配置文件和基于片段设计的化学子结构的新型配体进行有针对性的采样,而无需重新训练或任何再采样策略。
设计满足多个、通常相互冲突的功能和生物物理标准的生物序列,仍然是生物分子工程中的一个核心挑战。虽然离散流匹配模型最近在高效采样高维序列空间方面显示出潜力,但现有方法仅解决单一目标,或者需要连续的嵌入,这可能会扭曲离散分布。我们提出了多目标引导的离散流匹配 (MOG-DFM),这是一种通用框架,可以将任何预训练的离散流匹配生成器引导至多个标量目标之间的帕累托最优权衡。在每个采样步骤中,MOG-DFM 计算候选转换的混合秩方向分数,并应用自适应超锥过滤器以强制一致的多目标进展。我们还训练了两个无条件离散流匹配模型,PepDFM 用于多样化的肽生成,EnhancerDFM 用于功能增强子 DNA 生成,作为 MOG-DFM 的基础生成模型。我们证明了 MOG-DFM 在生成针对五种属性(溶血性、抗污性、溶解度、半衰期和结合亲和力)优化的肽结合剂,以及设计具有特定增强子类别和 DNA 形状的 DNA 序列方面的有效性。总而言之,MOG-DFM 证明了其作为多属性引导的生物分子序列设计的强大工具。
基于结构的药物设计(SBDD)对于识别生物活性分子至关重要。 最近的深度生成模型在几何结构建模方面面临挑战。 一个主要的瓶颈在于多模态的扭曲概率路径 - 连续3D位置和离散2D拓扑 - 共同确定分子几何形状。 通过确定噪声表决定扭曲概率路径的变量下边界(VLB)的事实,我们在这个未开发区域中提出了VLB-最优调度(VVO)策略,该策略将VLB作为SBDD不可或缺的路径进行优化。 我们的模型有效地增强了分子几何和相互作用建模,在强基线下实现了最先进的PoseBusters通过率95.9的改进,同时保持高亲和性和健壮的分子内有效性。
知识图谱和结构因果模型都证明对组织生物医学知识和估计因果效应有价值,但在很大程度上仍然脱节:知识图谱编码定性关系,重点是事实和演绎推理,而没有正式的概率语义,而因果模型缺乏与知识图的背景知识集成,并且无法获得知识图谱提供的演绎推理能力。 为了弥补这一差距,我们引入了因果知识图谱(CKGs)的新颖公式,该公式以正式的因果语义扩展知识图谱,保留其演绎能力,同时启用有原则的因果推理。 CKGs通过明确标记的因果边缘支持解混淆,并促进与编码和包含背景知识对齐的假设公式。 我们构建了一个药物疾病CKG(DD-CKG),整合了疾病进展途径,药物适应症,副作用和分层疾病分类,以实现自动化的大规模调解分析。 应用于英国生物银行和MIMIC-IV队列,我们测试了药物是否介导适应症和下游疾病进展之间的影响,调整了从DD-CKG推断的混杂物。 我们的方法成功地以高精度再现了已知的药物不良反应,同时确定了以前没有记录的重大候选药物不良反应。 通过副作用相似性分析进一步验证表明,将我们预测的药物效果与既定数据库相结合,显着改善了共享药物适应症的预测,支持了我们新发现临床相关性。 这些结果表明,我们的方法提供了一个可扩展的知识驱动框架,用于可扩展的因果推断。