随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
发现有趣的现象是科学发现的核心,但它是一本手册,定义不清的概念。 我们提出了一个集成管道,用于在结构化生物医学数据中发现有趣的简单假设(具有效应方向的特征和目标关系和潜在潜在机制)。 该管道结合了机器学习、知识图谱、文献搜索和大型语言模型。 我们将“有趣性”正式化为新颖性,实用性和合理性的结合。 在英国生物银行的8种主要疾病中,我们的管道在文献中出现之前,一直在恢复风险因素。 40-53名候选人被验证为有趣,而基线为0-7。 总的来说,28管道解决了“有趣性”和任何目标的挑战。 我们发布数据和代码:https://github.com/LinialLab/InterFeat
尽管它们能够理解化学知识并准确生成顺序表示,但大型语言模型(LLM)在提出具有类似药物特性的新型分子的能力方面仍然有限。 此外,LLM提出的分子在实验室中制造往往具有挑战性。 为了更有效地发现功能性小分子,LLM需要学习分子语言。 然而,LLM目前受到来自原子的分子编码的限制。 在本文中,我们认为,就像将文本标记化为(子)词令牌而不是字符一样,分子应该在功能构建块的水平上进行分解和重新组装,即分子部分,这些分子部分带来了独特的功能,并作为现实世界自动化实验室合成的有效构建块。 这激励我们提出mCLM,一种模块化的化学语言模型,将分子标记到构建模块中,并学习函数和分子构建块的自然语言描述的双语语言模型。 通过对这些功能构建模块进行推理,mCLM保证由于最近基于块的化学进展而产生可合成的分子,同时还以原则性的方式改善分子的功能。 在430种FDA批准的药物的实验中,我们发现mCLM能够显着改善6个化学功能中的5个,这对于确定药物潜力至关重要。 更重要的是,mCLM可以在多个迭代中推理多个功能并改善FDA拒绝的药物(“堕落的天使”),以大大提高其缺点。
从高维系统的几个快照中恢复动力学是统计物理和机器学习中的一项具有挑战性的任务,在计算生物学中具有重要的应用。 已经开发了许多算法来解决这个问题,基于最佳传输和薛定谔桥等框架。 最近的一个值得注意的框架是正则不平衡最优传输(RUOT),它结合了随机动力学和非规范化分布。 然而,由于许多现有方法没有明确实施最优条件,它们的解决方案往往难以满足行动最少的原则,并迎接以稳定可靠的方式收敛的挑战。 为了解决这些问题,我们提出了变量RUOT(Var-RUOT),这是一个解决RUOT问题的新框架。 通过将RUOT问题的最佳必要条件纳入搜索空间的参数化和损失函数设计,Var-RUOT只需要学习一个标量字段来解决RUOT问题,就可以以较低的作用搜索解决方案。 我们还研究了在广泛使用的Wasserstein-Fisher-Rao指标中选择生长惩罚函数的挑战,并提出了一个与Var-RUOT中的生物先验更好地保持一致的解决方案。 我们验证了Var-RUOT在模拟数据和真实单细胞数据集上的有效性。 与现有算法相比,Var-RUOT可以找到具有较低作用的解决方案,同时表现出更快的收敛率和更高的训练稳定性。
深度学习模型在预测蛋白质功能和蛋白质层面的相互作用方面取得了重大进展。 虽然这些进步对于许多生物学应用(如酶工程和功能注释)非常宝贵,但对于理解蛋白质功能机制和评估模型捕获的生物知识,更详细的视角至关重要。 为了解决这一需求,我们引入了VenusX,这是第一个在残留、片段和域水平上进行细粒功能注释和基于功能的蛋白质配对的大规模基准测试。 VenusX包括六种类型的注释中的三个主要任务类别,包括残留级别二进制分类,片段级多类分类,以及用于识别关键活动位点,结合位点,保守站点,主题,域和表位的成双级功能相似性评分。 该基准测试了来自InterPro、BioLiP和SAbDab等主要开源数据库的878,000多个样本。 通过在三个序列身份阈值提供混合家族和跨家族分割,我们的基准能够全面评估分布内和分布外情景的模型性能。 对于基线评估,我们评估一组流行的和开源的模型,包括预训练的蛋白质语言模型,序列结构混合,基于结构的方法和基于对齐的技术。 他们的性能使用多个指标在所有基准数据集和评估设置中报告,为未来的研究提供了彻底的比较和坚实的基础。 代码和数据可公开查阅https://github.com/ai4protein/VenusX。
尽管它们能够理解化学知识并准确生成顺序表示,但大型语言模型(LLM)在提出具有类似药物特性的新型分子的能力方面仍然有限。 此外,LLM提出的分子在实验室中制造往往具有挑战性。 为了更有效地发现功能性小分子,LLM需要学习分子语言。 然而,LLM目前受到来自原子的分子编码的限制。 在本文中,我们认为,就像将文本标记化为(子)词令牌而不是字符一样,分子应该在功能构建块的水平上进行分解和重新组装,即分子部分,这些分子部分带来了独特的功能,并作为现实世界自动化实验室合成的有效构建块。 这激励我们提出mCLM,一种模块化的化学语言模型,将分子标记到构建模块中,并学习函数和分子构建块的自然语言描述的双语语言模型。 通过对这些功能构建模块进行推理,mCLM保证由于最近基于块的化学进展而产生可合成的分子,同时还以原则性的方式改善分子的功能。 在430种FDA批准的药物的实验中,我们发现mCLM能够显着改善6个化学功能中的5个,这对于确定药物潜力至关重要。 更重要的是,mCLM可以在多个迭代中推理多个功能并改善FDA拒绝的药物(“堕落的天使”),以大大提高其缺点。
为了再现自然站立运动,最近的研究强调了辅助机器人和人类之间协调的重要性。 然而,许多非可穿戴辅助设备一直在努力复制自然运动轨迹。 虽然可穿戴设备与人体提供更好的协调,但它们在完全隔离机械和电气危害方面提出了挑战。 为了解决这个问题,我们开发了一种新颖的站立辅助机器人,该机器人集成了可穿戴和非可穿戴系统的功能,旨在实现高协调性,同时保持安全性。 该装置采用与人类关节结构对齐的四联机制,旨在再现臀部的S形轨迹和膝盖的弧形轨迹,在自然站立运动期间。 使用陀螺仪获得特定主题的轨迹数据,并确定链路长度以沿着最佳路径驱动座椅。 实施了使用步进电机的前馈速度控制,并根据机制的几何约束评估了轨迹的可重复性。 进行了重量固定在座椅上的承重实验,以评估不同条件下的轨迹精度。 结果表明,髋关节和膝关节轨迹的繁殖误差保持在座椅总排位移的约4%以内,显示出对目标路径的高保真度。 此外,耐久性测试、热安全性评估和风险评估证实了该系统在室内使用的可靠性和安全性。 这些发现表明,拟议的设计为开发适应个人身体特征的辅助技术提供了一种有希望的方法,该技术在老年人护理和康复方面具有潜在的应用。
生物大脑和人工神经网络的学习动力学对神经科学和机器学习都感兴趣。 它们之间的一个关键区别是,神经网络通常是从随机初始化的状态训练的,而每个大脑都是几代人进化优化的产物,产生天生的结构,可以实现很少的学习和内置反射。 相比之下,人工神经网络需要非人种的训练数据量才能获得可比的性能。 为了研究进化优化对神经网络学习动力学的影响,我们结合了模拟自然选择和在线学习的算法,以产生一种进化调节人工神经网络的方法,并将其应用于强化和监督学习环境。 我们发现进化条件算法本身与未优化的基线相比。 然而,进化条件的网络显示出独特和潜在的学习动态的迹象,可以快速微调到最佳性能。 这些结果表明,进化构成了一种诱导性偏见,可以调整神经系统以实现快速学习。
可信的间隔和可信的集合,如最高的后密度(HPD)间隔,在贝叶斯系统遗传学中形成了一个不可或缺的统计工具,用于系统发育分析和开发。 可用于连续参数,如基本频率和时钟速率,树拓扑的广阔而复杂的空间为定义类似的可信集合带来了重大挑战。 传统的基于频率的方法不足以用于分散的后向,其中采样的树木通常是独一无二的。 为了解决这个问题,我们引入了新颖而有效的方法来估计单个树拓扑的可信水平,使用可处理的树分布,特别是条件Clade分布(CCD)。 此外,我们提出了一个名为α可信CCD的新概念,它封装了CCD,其树木共同构成α概率。 我们提出算法来有效地计算这些可信的CCD,并确定树拓扑和子树的可信水平。 我们评估这些可信的集合方法的准确性,利用模拟和真实的数据集。 此外,为了证明我们方法的实用性,我们使用经过良好校准的模拟研究来评估不同CCD模型的性能。 特别是,我们展示了如何使用可信的集合方法来进行等级均匀性验证并生成经验累积分布函数(ECDF)图,以补充连续参数的标准覆盖分析。
在本文中,我们介绍了离散时间内主动推断的简明数学描述。 本文的主要部分作为主题的基本介绍,包括动作选择机制的详细示例。 附录讨论了更微妙的数学细节,针对读者谁已经研究了积极的推理文献,但努力使数学细节和推导。 在整个过程中,我们强调精确和标准的数学符号,确保与现有文本的一致性,并将所有方程与广泛使用的主动推理参考联系起来。 此外,我们提供 Python 代码,实现本文中描述的动作选择和学习机制,并与pymdp环境兼容。
在药物发现中,绘制细胞系统内基因之间的相互作用是至关重要的早期步骤。 这些地图不仅是了解疾病生物学基础的基础,也是制定关于新药潜在靶点的假设的关键。 认识到需要提升这些基因-基因相互作用网络的构建,特别是来自大规模、现实世界的扰动单细胞数据集,CaisalBench挑战赛开始了。 这一挑战旨在激励机器学习社区增强最先进的方法,强调更好地利用广泛的遗传扰动数据。 使用CaisalBench基准提供的框架,参与者的任务是改进当前方法或提出新的方法。 本报告对在挑战期间提交的方法进行了分析和总结,以对挑战时的艺术状况进行部分描述。 值得注意的是,与以前的基线相比,获胜的解决方案显着提高了性能,为生物学和医学中的这一关键任务建立了新的技术状态。
图像表示(人工或生物)通常就其全球几何结构进行比较;然而,具有相似全球结构的表示可以具有显着不同的局部几何形状。 在这里,我们提出了一个框架,用于比较一组图像表示的本地几何形状。 我们使用Fisher信息矩阵量化表示的局部几何形状,Fisher信息矩阵是表征局部刺激失真度的标准统计工具,并将其用作基数图像附近局部几何形状的度量。 然后,该度量可用于最佳地区分一组模型,方法是找到一对“主要失真”,以最大化该度量下模型的方差。 例如,我们使用此框架来比较早期视觉系统的一组简单模型,识别一组新颖的图像失真,允许通过视觉检查立即比较模型。 在第二个示例中,我们将方法应用于一组深度神经网络模型,并揭示了由于体系结构和训练类型而产生的局部几何学的差异。 这些例子展示了我们的框架如何被用来探测复杂模型之间局部敏感性的信息差异,并提出了如何使用模型表示与人类感知进行比较。
在AI4Science领域,大型语言模型(LLM)显示出分析复杂科学语义、整合跨学科知识、协助关键任务研究的巨大潜力。 然而,在药物发现领域,尽管通过专业数据预训练、上下文窗口扩展和互联网搜索进行了优化,但现有的LLM仍然面临挑战,如大规模的多模态和异构数据处理,域知识动态更新延迟,以及对预测复杂计算任务结果的信心不足。 为了应对这些挑战,我们提出了基于LLM的药剂DrugPilot,具有药物发现的参数化推理。 DrugPilot通过其参数推断架构解决了传统端到端LLM预测方法的关键限制。 该代理系统支持药物发现管道的主要阶段,促进多阶段研究任务的自动化规划和执行。 为了应对多模态药物数据分析(包括公共数据集和用户提交数据)的重大挑战,我们开发了一个交互式参数化内存池。 这一创新组件将真实世界的药物数据标准化为参数表示,同时在多转对话中实现高效的知识检索,同时减轻基于文本的数据传输所固有的信息损失。 此外,我们还创建了一个药物指导数据集,涉及8项重要的药物发现任务,用于模型微调和评估。 基于Berkeley函数调用评估框架,DrugPilot在我们的药物发现工具指令数据集上展示了最先进的工具调用能力,优于现有代理(例如,ReAct,LoT)。 具体来说,它分别实现了98.0多转任务的任务完成率。
不良药物反应对癌症治疗的患者结果和医疗保健成本产生很大影响。 使用人工智能实时预测药物不良反应可能会彻底改变肿瘤治疗。 这项研究旨在评估人工智能模型在预测癌症患者药物不良反应方面的表现。 这是第一个系统回顾和荟萃分析。 Scopus,PubMed,IEEE Xplore和ACM Digital Library数据库从2018年1月1日至2023年8月20日搜索了英语,法语和阿拉伯语的研究。 纳入标准是:(1)同行评审的研究文章;(2)使用人工智能算法(机器学习,深度学习,知识图谱);(3)旨在预测药物不良反应的研究(心毒性,中性粒细胞减少症,肾毒性,肝毒性);(4)研究对象是癌症患者。 这些数据由三名评审员提取和评估,以获得研究质量。 在332篇筛选文章中,有17项研究(5项系统综述,其中10项研究综合了荟萃分析。 创建了一个随机效应模型,以汇集纳入研究的灵敏度,特异性和AUC。 汇总结果为ADR预测模型的0.82(分别为95(95和AUC)。 生物标志物证明了它在预测ADR方面的有效性,但它们只被一半的审查研究所采用。 人工智能在癌症治疗中的使用显示出巨大的潜力,模型在预测ADR时表现出高特异性和灵敏度。 然而,需要标准化的研究和多中心研究来提高证据的质量。 人工智能可以通过弥合数据驱动的见解和临床专业知识之间的差距来增强癌症患者的护理。
详尽的虚拟筛选信息量很大,但通常与现代药物发现所涉及的昂贵客观功能相抗衡。 这个问题在多向量膨胀等组合环境中加剧,其中分子空间可以迅速变得超大型。 在这里,我们介绍了通过同步采集(SALSA)进行可扩展主动学习(Synthon Acquisition):一种适用于多向量扩展的简单算法,该算法通过在同步或片段选择上因子建模和获取,将基于池的主动学习扩展到非可枚举空间。 通过基于配体和结构的目标的实验,我们强调了SALSA的样品效率,以及其扩展到数万亿个化合物空间的能力。 此外,我们展示了三个蛋白质靶标的多参数客观设计任务的应用 - 发现SALSA生成的分子具有与已知生物活性物相当的化学特性,并且在行业领先的生成方法上表现出更大的多样性和更高的分数。
随着进化动力学从理论领域转向应用,算法需要超越简单的模型。 然而,文献中很少有这样的方法。 众所周知,生态和生理因素是现实背景下进化的核心,但考虑到这些因素,这些因素通常会使问题难以适应现有方法。 我们介绍了进化游戏的公式,通过建模作为计算来解释生态学和生理学,并使用它通过强化学习的方法分析定向进化的问题。 这种组合使我们能够在学习控制不断进化的细胞群的算法问题上首次开发出同类结果。 我们证明了在细胞生理学或生态学的先前知识有限的情况下生态进化控制的复杂性,给出了指导进化最一般版本的数学问题的第一个结果,并在人工智能和生物学之间建立了新的联系。
时间解析的单细胞组学数据提供了细胞状态的高通量、全基因组测量,有助于逆向工程支撑细胞命运的过程。 这种技术本质上是破坏性的,只允许对底层随机动力学系统进行横截面测量。 此外,细胞除了改变分子状态外,还可能分裂或死亡。 总的来说,这些是推断现实生物物理模型的重大挑战。 我们提出了一种新的方法,不平衡的概率流推断,解决了生物过程的这个挑战,模拟为随机动力学与增长。 通过利用福克-普朗克方程的拉格朗日公式,我们的方法准确地将远离内在的噪音和增长。 我们通过评估一系列模拟和真实的单细胞RNA-seq数据集来展示我们方法的适用性。 与几种现有方法相比,我们发现我们的方法在享受简单的两步训练方案的同时,实现了更高的精度。
单细胞RNA测序(scRNA-seq)揭示了细胞异质性,细胞聚类在识别细胞类型和标记基因方面起着关键作用。 最近的进步,特别是基于图神经网络(GNN)的方法,显著提高了聚类性能。 然而,由于噪声、易散性和高维度,对 scRNA-seq 数据的分析仍然具有挑战性。 综合这些挑战,GNN经常遭受过度平滑,限制了他们捕获复杂生物信息的能力。 作为回应,我们提出了ssSiameseClu,一种新的暹罗聚类框架,用于解释单细胞RNA-seq数据,包括3个关键步骤:(1)双增强模块,将生物学上的信息扰动应用于基因表达矩阵和细胞图关系,以提高表示稳健性;(2)暹罗融合模块,结合交叉相关性细化和自适应信息融合,以捕获复杂的细胞关系,同时减少过度平滑;(3)保持平衡。 对七个真实世界数据集的综合评估表明,在单细胞聚类、细胞类型注释和细胞类型分类方面,优于最先进的方法,为s scRNA-seq数据解释提供了强大的工具。
从高维系统的几个快照中恢复动力学是统计物理和机器学习中的一项具有挑战性的任务,在计算生物学中具有重要的应用。 已经开发了许多算法来解决这个问题,基于最佳传输和薛定谔桥等框架。 最近的一个值得注意的框架是正则不平衡最优传输(RUOT),它结合了随机动力学和非规范化分布。 然而,由于许多现有方法没有明确实施最优条件,它们的解决方案往往难以满足行动最少的原则,并迎接以稳定可靠的方式收敛的挑战。 为了解决这些问题,我们提出了变量RUOT(Var-RUOT),这是一个解决RUOT问题的新框架。 通过将RUOT问题的最佳必要条件纳入搜索空间的参数化和损失函数设计,Var-RUOT只需要学习一个标量字段来解决RUOT问题,就可以以较低的作用搜索解决方案。 我们还研究了在广泛使用的Wasserstein-Fisher-Rao指标中选择生长惩罚函数的挑战,并提出了一个与Var-RUOT中的生物先验更好地保持一致的解决方案。 我们验证了Var-RUOT在模拟数据和真实单细胞数据集上的有效性。 与现有算法相比,Var-RUOT可以找到具有较低作用的解决方案,同时表现出更快的收敛率和更高的训练稳定性。
海马体是参与记忆处理和各种神经退行性疾病和精神疾病的关键大脑结构,包括三个关键次区域:牙龈陀螺(DG),Cornu Ammonis 1(CA1)和Cornu Ammonis 3(CA3)。 从组织组织图像中准确细分这些次区域对于促进我们对疾病机制,发展动态和治疗干预的理解至关重要。 然而,没有现有方法解决从组织图像中自动分割海马次区域的问题,特别是免疫组化(IHC)图像。 为了弥补这一差距,我们推出了一组新的四个全面的海马IHC数据集,具有不同的染色模式:cFos,NeuN和多路染色组合cFos,NeuN和ΔFosB或GAD67,捕获结构,神经元活动和可塑性相关信息。 此外,我们还提出了ROIsGAN,这是一个区域引导的基于U-Net的生成对抗网络,专为海马次区域细分而设计。 通过利用对抗性学习,ROIsGAN通过结合骰子和二元交叉熵损失的新型区域引导判别器损失增强了边界划定和结构细节的完善。 在DG,CA1和CA3次区域进行评估后,ROIsGAN一直优于常规分割模型,在1-10 Intersection over Union(IoU)方面实现了性能提升,特别是在具有挑战性的染色条件下。 我们的工作建立了自动化海马体分割的基础数据集和方法,实现了对神经科学研究中组织图像的可扩展,高精度的分析。 我们生成的数据集,作为独立工具的拟议模型,以及相应的源代码可公开获取:https://github.com/MehediAzim/ROIsGAN
受神经科学启发的大型语言模型(LLM)表现出的行为经常唤起个性和智力的感觉,但这些影响背后的机制仍然难以捉摸。 在这里,我们将概念混合理论(CBT)作为实验框架,使用基于提示的方法来揭示LLM如何混合和压缩意义。 通过系统地研究提示诱导过渡(PIT)和提示诱导幻觉(PIH),我们发现了人工和生物认知之间的结构相似性和差异。 我们的方法将语言学,神经科学和实证AI研究联系起来,证明人与AI合作可以作为认知科学未来的活原型。 这项工作不仅作为一种技术工具,而且作为一种科学方法,探索意义本身的深层结构。
生物多样性研究需要完整和详细的信息来研究不同尺度的生态系统动态。 使用数据驱动的方法,如机器学习,在生态学和更具体的生物多样性方面越来越受欢迎,提供了替代的建模途径。 为了提供准确结果,需要大型、精心策划和多模态数据集,提供细粒度的空间和时间分辨率。 在这项工作中,我们介绍了BioCube,一个用于生态和生物多样性研究的多模态,细粒度的全球数据集。 BioCube通过图像,录音和描述,环境DNA,植被指数,农业,森林,土地指标和高分辨率气候变量来整合物种观测。 从2000年到2020年,所有观测结果都在WGS84大地测量系统下进行地理空间对齐。 该数据集将在https://huggingface.co/datasets/BioDT/BioCube上提供,而获取和处理代码库https://github.com/BioDT/bfm-data。
我们描述了一种连接主义模型,试图捕捉基于经验的问题解决或任务学习的概念,即新遇到的问题的解决方案由记忆的解决方案到先前的问题组成。 我们将该模型应用于高效序列生成的计算问题,这个问题没有明显的梯度下降过程,并且并非所有可能的问题实例都可以解决。 实证测试显示出有希望的效用证据。
临床试验在心脏药物开发中仍然至关重要,但由于疗效限制和安全风险,面临高故障率,因此产生大量成本。 硅内试验方法,特别是模拟药物诱导心电图(ECG)改变的生成模型,为缓解这些挑战提供了潜在的解决方案。 虽然现有模型显示出心电图合成的进展,但它们受限的保真度和无法表征个体特异性药理反应模式从根本上限制了临床可翻译性。 为了解决这些问题,我们提出了一种新的药物感知扩散模型(DADM)。 具体来说,我们构建一组普通微分方程,以提供现实的心电图形态的外部物理知识(EPK)。 EPK用于通过动态交叉注意力(DCA)机制自适应地限制生成心电图的形态。 此外,我们建议扩展ControlNet,以纳入人口统计和药物数据,模拟单个药物反应。 与其他八个最先进的(SOTA)心电图生成模型相比:1)定量和专家评估证明DADM生成具有优越保真度的ECG;2)涵盖8种药物方案的两个真实世界数据库的比较结果验证了DADM可以更准确地模拟药物诱导的ECGs,至少增加5.79,DADM生成的ECGs还可以增强模型性能。
免疫原性预测是反向疫苗学的一个中心主题,用于寻找可以触发保护性免疫反应的候选疫苗。 现有方法通常依赖于高度压缩的特性和简单的模型架构,导致预测准确性有限且可推广性差。 为了应对这些挑战,我们介绍了VenusVaccine,这是一种新颖的深度学习解决方案,具有双重注意力机制,集成了预先训练的蛋白质序列和结构的潜在矢量表示。 我们还编制了迄今为止最全面的免疫原性数据集,包括来自细菌、病毒和肿瘤的7000多个抗原序列、结构和免疫原性标签。 广泛的实验表明,VenusVaccine在广泛的评估指标中优于现有方法。 此外,我们还建立了一个临时验证协议,以评估深度学习模型在应对疫苗设计挑战方面的实际意义。 我们的工作为疫苗设计提供了有效的工具,并为未来的研究设定了宝贵的基准。 实施情况见https://github.com/singleee/VenusVaccine。