微生物群是人体的重要组成部分,从事食物消化和免疫防御等任务。 必须了解它们的结构和功能,以促进宿主健康并促进疾病期间的迅速恢复。 由于在原地实验研究这些系统的困难,在数学建模领域正在进行更多的研究。 可视化时空数据具有挑战性,目前模拟微生物群落时空发展的工具通常只提供有限的功能,通常需要专业知识才能产生有用的结果。 为了克服这些限制,我们提供了一个用户友好的工具,交互式地探索时空模拟数据,称为MicroLabVR,它将空间数据传输到虚拟现实(VR),同时遵循增强用户体验(UX)的指导方针。 使用MicroLabVR,用户可以导入包含人口增长、物质浓度发展和代谢通量分布数据的CSV数据集。 实现的可视化方法允许用户在VR环境中交互式地评估数据集。 MicroLabVR旨在通过在其空间环境中探索微生物组数据来改善用户的数据分析。
单细胞多组学数据包含细胞状态的巨大信息,分析这些数据可以揭示细胞异质性、疾病和生物过程的宝贵见解。 然而,由于细胞分化和发育是一个持续和动态的过程,因此对基于单细胞多组学数据的计算建模和推断细胞相互作用模式仍然具有挑战性。 本文介绍了基于组学内部和组学间对比学习的新型单细胞多组学融合框架s scI2CL,用于从各种下游任务的互补多组学数据中学习全面和歧视性的细胞表征。 对四个下游任务进行的广泛实验验证了 scI2CL 的有效性及其优于现有同行的优势。 在细胞聚类中,scI2CL在四个广泛使用的真实世界数据集上超越了8种最先进的方法。 在细胞亚型中,scI2CL有效地区分了三种潜在的单核细胞亚群,这些亚群不是通过现有方法发现的。 同时,scI2CL是唯一正确构建细胞发育轨迹的方法,从造血干细胞和祖细胞到记忆B细胞。 此外,scI2CL解决了CD4 + T细胞的两个亚群之间的细胞类型错误分类,而现有方法未能精确区分混合细胞。 总之,scI2CL可以准确地表征细胞之间的交叉组学关系,从而有效地融合多组学数据,并学习判别细胞表征,以支持各种下游分析任务。
微生物群是人体的重要组成部分,从事食物消化和免疫防御等任务。 必须了解它们的结构和功能,以促进宿主健康并促进疾病期间的迅速恢复。 由于在原地实验研究这些系统的困难,在数学建模领域正在进行更多的研究。 可视化时空数据具有挑战性,目前模拟微生物群落时空发展的工具通常只提供有限的功能,通常需要专业知识才能产生有用的结果。 为了克服这些限制,我们提供了一个用户友好的工具,交互式地探索时空模拟数据,称为MicroLabVR,它将空间数据传输到虚拟现实(VR),同时遵循增强用户体验(UX)的指导方针。 使用MicroLabVR,用户可以导入包含人口增长、物质浓度发展和代谢通量分布数据的CSV数据集。 实现的可视化方法允许用户在VR环境中交互式地评估数据集。 MicroLabVR旨在通过在其空间环境中探索微生物组数据来改善用户的数据分析。
单细胞多组学数据包含细胞状态的巨大信息,分析这些数据可以揭示细胞异质性、疾病和生物过程的宝贵见解。 然而,由于细胞分化和发育是一个持续和动态的过程,因此对基于单细胞多组学数据的计算建模和推断细胞相互作用模式仍然具有挑战性。 本文介绍了基于组学内部和组学间对比学习的新型单细胞多组学融合框架s scI2CL,用于从各种下游任务的互补多组学数据中学习全面和歧视性的细胞表征。 对四个下游任务进行的广泛实验验证了 scI2CL 的有效性及其优于现有同行的优势。 在细胞聚类中,scI2CL在四个广泛使用的真实世界数据集上超越了8种最先进的方法。 在细胞亚型中,scI2CL有效地区分了三种潜在的单核细胞亚群,这些亚群不是通过现有方法发现的。 同时,scI2CL是唯一正确构建细胞发育轨迹的方法,从造血干细胞和祖细胞到记忆B细胞。 此外,scI2CL解决了CD4 + T细胞的两个亚群之间的细胞类型错误分类,而现有方法未能精确区分混合细胞。 总之,scI2CL可以准确地表征细胞之间的交叉组学关系,从而有效地融合多组学数据,并学习判别细胞表征,以支持各种下游分析任务。
了解生物发育背后的规则是生物学中的一个主要未解决的问题。 发育中的生物体中的每个细胞通过分裂,排泄,消耗或重组来响应其局部环境中的信号,但这些个体行为如何在宏观数量的细胞中协调以生长具有精致功能的复杂结构尚不清楚。 在这里,我们使用自动分化的最新进展来发现局部相互作用规则和遗传网络,这些规则和遗传网络在开发模型中产生新兴的系统级特征。 我们考虑生长的组织与细胞相互作用介导由形态素扩散,细胞粘附和机械应力介导。 每个细胞都有一个内部遗传网络,用于根据细胞的局部环境做出决定。 我们表明,人们可以通过解释性遗传网络的形式学习控制细胞相互作用的参数,用于复杂的发育场景,包括定向轴向伸长,通过化学信号通过化学信号进行细胞类型稳态,以及通过机械应力生长的同质化。 当结合最近测量生长组织中细胞时空动力学和细胞基因表达的实验进展时,这里概述的方法为解开细胞发育基础提供了一条有希望的途径。
细胞分裂过程中新细胞壁的定位对植物组织结构的形成起着关键作用。细胞几何形状对分裂面定位的影响已被先前研究归纳为各种几何规则。因此,将细胞形状与分裂方向联系起来,通常需要比较观察到的分裂模式与特定规则下的预测结果。这种假设驱动方法的一个根本局限是需要先验定义待测试的规则。作为替代方案,我们提出了一种基于数据的方法来研究细胞几何形状与分裂面定位之间的关系,利用深度神经网络在多维空间中学习复杂关系的能力。采用基于图像的细胞表示方法,我们展示了如何使用改进的UNet架构(适用于细胞掩模操作)从母细胞几何形状中学习和预测分裂模式。通过使用合成数据和拟南芥胚胎细胞,我们在各种不同的细胞形状和分裂模式上评估了模型性能。研究发现,训练后的模型能够解释先前在现有几何规则下无法统一的胚胎分裂模式。我们的工作展示了深度网络在理解细胞分裂模式和生成关于细胞分裂定位控制的新假设方面的潜力。
背景:体外内皮细胞培养被广泛用于研究血管生成。 细胞网络组织微缩图像通常被手动分析,这一过程耗时且主观。 像ImageJ(NIH)这样的自动化工具可以提供帮助,但通常很慢且不准确。 此外,随着内皮网络变得越来越复杂,传统的架构指标可能无法完全反映网络成熟度。 为了解决这些限制,我们开发了 tubuleTracker,一个快速、客观地量化内皮网络架构和成熟度的软件工具。 方法:人类脐静脉内皮细胞在细胞外基质中培养,54张图像使用相位对比显微镜获得。 每张图片由三位独立审稿人以及ImageJ和tuleTracker手动分析。 关键指标包括小管计数、总长度、节点计数、小管面积和容器循环。 同时,训练有素的科学家对每幅图像的血管生成成熟度进行了1-5级(1=最成熟)的评分。 结果:每张图片的分析时间差异很大:手动(8分钟),ImageJ(58 + / 4 s)和块状Tracker(6 + /-2)(p<0.0001)。 在小管计数(手动 168+/-SD、小管Tracker 92+/-SD、ImageJ 433+/-SD)、长度和节点计数(所有 p<0.0001)中也存在显著差异。 管状跟踪器的指标在血管生成成熟度得分(包括小管计数、长度、节点计数、面积和循环度(所有 p<0.0001)中差异很大。 结论: tuleTracker 比基于手动和 ImageJ 的分析更快、更一致。 事实证明,容器循环性在捕获血管生成成熟方面特别有效。 tubuleTracker作为生物医学研究界的免费共享软件提供。
生物图像分析传统上侧重于测量细胞或其他实体感兴趣的特定视觉特性。 获得越来越大吸引力的补充范式是基于图像的剖析 - 量化许多不同的视觉特征,以形成全面的配置文件,可以揭示细胞状态,药物反应和疾病机制中的隐藏模式。 虽然CellProfiler等现有工具可以生成这些功能集,但它们对自动化和可重复分析构成了重大障碍,阻碍了机器学习工作流程。 这里我们介绍了 cp_measure,一个 Python 库,它将 CellProfiler 的核心测量功能提取到用于程序化特征提取的模块化 API 优先工具中。 我们证明 cp_measure 功能与 CellProfiler 特性保持高保真度,同时实现与科学 Python 生态系统的无缝集成。 通过3D星形胶质细胞成像和空间转录组学的应用,我们展示了cp_measure如何实现可重复的、基于图像的自动分析管道,这些管道可以有效地扩展用于计算生物学中的机器学习应用。
单细胞多组学技术的出现使单个细胞内不同组学层同时进行了分析。 整合此类多模态数据为细胞身份、调控过程和疾病机制提供了前所未有的见解。 然而,它仍然具有挑战性,因为当前的方法通常依赖于在预处理过程中选择高度可变的基因或峰值,这可能会无意中丢弃关键的生物信息。 在这里,我们介绍了scMamba,一个基础模型,旨在集成单细胞多组学数据,而无需事先选择特征,同时保留基因组位置信息。scMamba引入了基于补丁的细胞标记化策略,将基因组学区域视为单词(令牌)和细胞作为句子。 基于国家空间二元性的概念,scMamba从高维,稀疏的单细胞多组学数据中提炼出丰富的生物学见解。 此外,我们新颖的对比式学习方法,通过余氨酸相似性正则化增强,与传统方法相比,在组学层之间实现卓越的对齐。 跨多个数据集的系统基准测试表明,scMamba在保存生物变异,对齐组学层以及增强关键下游任务(如聚类,细胞类型注释和轨迹推理)方面明显优于最先进的方法。 我们的发现将scMamba定位为大规模单细胞多组学整合的强大工具,能够处理大规模地图集并推动生物发现。
生成高保真和生物学上合理的合成单细胞RNA测序(scRNA-seq)数据,特别是有条件控制,由于其高维度,易变性和复杂的生物变异,具有挑战性。 现有的生成模型通常难以捕捉这些独特的特性,并确保蜂窝网络中结构噪声的坚固性。 我们介绍了LapDDPM,一种新颖的有条件图形扩散概率模型,用于健壮和高保真scRNA-seq生成。 LapDDPM独特地将基于图形的表示与基于分数的扩散模型集成,并通过图形边缘权重上的新型光谱对抗扰动机制增强。 我们的贡献是三重的:我们利用拉普拉西亚位置编码(LPE)来丰富潜在的空间,使用关键的细胞关系信息;我们开发了一个基于条件的基于分数的扩散模型,用于从复杂的scRNA-seq分布中有效地学习和生成;我们采用了独特的光谱对抗训练方案,提高了对结构变化的鲁棒性。 对各种scRNA-seq数据集进行的广泛实验证明了LapDDPM的卓越性能,实现了高保真度并生成了生物学上合理的细胞类型特异性样品。 LapDDPM为条件scRNA-seq数据生成设定了新的基准,为各种下游生物应用提供了强大的工具。
单细胞转录组学已成为数据驱动的生物学洞察的重要来源,使使用先进的深度学习方法能够在单细胞水平上理解细胞异质性和转录调节。 随着空间转录组学数据的出现,我们有在组织环境中学习细胞的承诺,因为它提供了空间坐标和转录组学读数。 然而,现有的模型要么忽略了空间分辨率或基因调控信息。 细胞中的基因调控可能会根据邻近细胞的微环境线索而改变,但现有模型忽略了基因调控模式,具有跨越抽象层面的分层依赖性。 为了从空间转录组学数据中创建细胞和基因的上下文化表示,我们引入了HEIST,一个基于空间转录组学和蛋白质组学数据的分层图形变压器基础模型。 HEIST将组织建模为空间细胞邻域图,每个细胞反过来被建模为基因调控网络图。 该框架包括一个分层图形变压器,执行跨级别消息传递和消息在级别内传递。 HEIST对来自15个器官的124个组织的22.3M细胞进行了预训练,使用空间感知的对比学习和蒙面的自动编码目标。 对HEIST细胞表征的无监督分析表明,它有效地编码了细胞嵌入中的微环境影响,从而发现了先前模型无法区分的空间信息亚群。 此外,HEIST在四项下游任务上取得了最先进的结果,如临床结果预测,细胞类型注释,基因归因和跨多种技术的空间知情细胞聚类,突出了分层建模和基于GRN的表征的重要性。
我们派生并模拟了一个与Rho GTPase信号通路相关的机械转导的数学模型。 该模型解决了信号过程和细胞力学之间的双向耦合。 提出了一种基于散积表面有限元素的数值方法,用于近似非线性反应扩散方程的耦合系统,在细胞内部和细胞膜上定义,以及弹性方程。 我们的模拟结果说明了新的新兴特征,如动力学对细胞形状的强烈依赖,对基底刚度变化的阈值状反应,以及耦合力学和信号传导可能导致细胞变形的稳健性,导致基板刚度的更大变化,确保机械稳态与实验一致。
高含量筛选(HCS)显微镜数据集改变了分析细胞对遗传和化学扰动的反应的能力,从而实现了基于细胞的药物靶相互作用(DTI)的推断。 然而,由于缺乏可访问的数据集和强大的基准,HCS数据的表示学习方法的采用受到了阻碍。 为了解决这一差距,我们介绍了RxRx3-core,RxRx3数据集的策划和压缩子集,以及相关的DTI基准测试任务。 RxRx3-core仅18GB,就显著减少了与大规模HCS数据集相关的大小障碍,同时保留了针对零镜头DTI预测任务对标表示学习模型所需的关键数据。 RxRx3-core包括222,601张显微镜图像,涵盖736个CRISPR敲除和1674个8浓度的化合物。 RxRx3-core在HuggingFace和Polaris上提供,以及预先训练的嵌入和基准代码,确保研究社区的可访问性。 通过提供紧凑的数据集和强大的基准测试,我们的目标是加速HCS数据表示学习方法的创新,并支持发现新的生物学见解。
人类诱导多能干细胞衍生的心肌细胞(iPSC-CMs)是鉴定新治疗靶点和心脏保护药物的重要资源。 分化后iPSC-CMs表现出不成熟的胎儿样型。 在脂质补充成熟培养基(MM)中培养iPSC-CMs强烈增强其结构,代谢和功能表型。 然而,评估iPSC-CM成熟状态仍然具有挑战性,因为大多数方法都是耗时的,并且与样品的细胞损伤或损失一致。 为了解决这个问题,我们开发了一种非侵入性的方法来自动分类iPSC-CM成熟度,通过基于可解释的人工智能(AI)分析,从基于视频的运动分析中获得的节拍特性。 在一项前瞻性研究中,我们评估了分化(d21)后第21天的早期状态,未成熟的iPSC-CM的230个视频记录,以及MM(d42,MM)培养的更成熟的iPSC-CM。 对于每次录制,使用Maia运动分析软件提取10个特征并输入支持矢量机(SVM)。 SVM的超参数在80模型的网格搜索中进行了优化,实现了99.5±1.1的加法解释(SHAP)的精度,将位移,松弛上升时间和跳动持续时间确定为评估成熟度水平的最相关特征。 我们的研究结果表明,使用非侵入性的光学运动分析与基于AI的方法相结合,作为评估iPSC-CMs成熟度的工具,可以在进行功能读数或药物测试之前应用。 这有可能降低可变性,提高实验研究的可重复性。
建立一个能够在硅中准确模拟细胞行为的虚拟细胞长期以来一直是计算生物学中的一个梦想。 我们引入了CellFlux,一种图像生成模型,该模型模拟使用流匹配的化学和遗传扰动引起的细胞形态变化。 与之前的方法不同,CellFlux模拟了从不受干扰到扰动的细胞状态的分布性转换,有效地将实际的扰动效应与实验工件(如批次效应)区分开来 - 这是生物数据的主要挑战。 在化学(BBBC021),遗传(RxRx1)和联合扰动(JUMP)数据集上评估,CellFlux生成具有生物学意义的细胞图像,忠实地捕获扰动特异性形态变化,比现有方法实现35个预测精度。 此外,CellFlux能够在细胞状态之间持续插值,为研究扰动动力学提供了潜在的工具。 这些功能标志着朝着实现生物医学研究的虚拟细胞建模迈出了重要的一步。 项目页面:https://yuhui-zh15.github.io/CellFlux/。
几个世纪以来,“生命是什么?”这个问题一直挑战着科学家和哲学家,产生了一系列定义,既反映了它出现的神秘性,也反映了在这个问题上带来的学科观点的多样性。 尽管我们在对生物系统、心理学、计算和信息理论的理解方面取得了重大进展,但还没有对生命的单一定义获得普遍接受。 随着合成生物学,人工智能和天体生物学的进步挑战了我们关于活着意味着什么的传统概念,这一挑战变得越来越紧迫。 我们采取了一种方法方法,利用大型语言模型(LLM)来分析一组由一组跨学科专家提供的生活定义。 我们使用一种新的成对相关性分析将定义映射到不同的特征向量,然后是聚合聚类,集群内语义分析和t-SNE投影,以揭示底层概念原型。 这种方法揭示了与生命定义相关的主题的连续景观,表明历史上被视为二元分类学问题的东西应该在统一的概念潜在空间中被视为差异化的观点。 我们在科学和哲学中的基本问题的还原论和整体方法之间提供了一个新的方法论桥梁,展示了计算语义分析如何揭示跨学科边界的概念模式,并为解决整个科学中其他有争议的定义领域开辟了类似的途径。
最近的研究已经证明了将单细胞数据建模为自然语言的可行性,以及利用强大的大型语言模型(LLM)来理解细胞生物学的潜力。 然而,对LLM在语言驱动的单细胞分析任务上的表现的全面评估仍未得到探索。 受这一挑战的激励,我们引入了CellVerse,这是一个统一的以语言为中心的问答基准,该基准整合了四种类型的单细胞多组学数据,并包括三个分层水平的单细胞分析任务:细胞类型注释(细胞水平),药物反应预测(药物水平)和扰动分析(基因水平)。 超越这一点,我们系统地评估CellVerse上14个开源和闭源LLM的性能,从160M到671B。 值得注意的是,实验结果表明:(1)现有的专业模型(C2S-Pythia)未能在CellVerse的所有子任务中做出合理的决策,而Qwen,Llama,GPT和DeepSeek家族模型等通才模型在细胞生物学领域表现出初步的理解能力。 (2)当前LLM的性能达不到预期,具有很大的改进空间。 值得注意的是,在广泛研究的药物反应预测任务中,没有一个被评估的LLM比随机猜测表现出显着的性能改善。 CellVerse提供了第一个大规模的经验证明,在将LLM应用于细胞生物学方面仍然存在重大挑战。 通过引入CellVerse,我们通过自然语言为推进细胞生物学奠定了基础,并希望这种范式能够促进下一代单细胞分析。
单细胞生物和各种细胞类型在遵循化学梯度时使用一系列运动模式,但目前尚不清楚哪种模式最适合不同的梯度。 在这里,我们将化学类分子细胞的方向决策建模为刺激依赖肌动蛋白招募比赛。 从细胞体延伸的假蚕类动物争夺一个有限运动池,将细胞推向它们的方向,直到一个伪豆荚获胜并确定运动方向。 我们的最小模型提供了对细胞用于达到精确化学轴的物理极限的策略的定量理解,与数据对齐,而无需显式梯度传感或细胞记忆的持久性。 为了推广我们的模型,我们使用强化学习优化来研究伪豆荚抑制的效果,这是一种简单但有效的细胞算法,通过该算法,细胞可以抑制可能的运动方向。 不同的基于伪豆荚的化学轴策略自然出现,取决于环境及其动力学。 例如,在静态梯度中,细胞可以以伪豆荚精度为代价更快地反应,这在嘈杂的浅梯度中特别有用,因为它矛盾地增加了化学精度。 相比之下,在动力学梯度中,细胞形成新伪豆荚。 总体而言,我们的工作展示了机械智能,以实现高化学轴性能,具有最小的细胞调节。
大型语言模型LLM改变了AI,并在各种任务上实现了突破性的性能 在科学中,LLMs最有趣的应用是假设形成LLMs的一个特征,其概率结构的结果是,输出文本不一定是训练文本中有效的推断 这些被称为幻觉,并且在许多应用中都是有害的。 在科学中,一些幻觉可能是有用的新假设,其有效性可以通过实验室实验进行测试LLM GPT4假设新型协同配对FDA批准的针对MCF7乳腺癌细胞系相对于非肿瘤乳细胞系MCF10A的非癌症药物在第一轮实验室实验中,GPT4成功地发现了12个测试中的三种药物组合,其协同评分高于阳性对照GPT4,然后根据其初始结果产生了新的组合,在四个测试的L中产生了三个具有正协同作用分数的阳性。
糖尿病是一种以血液中葡萄糖浓度恒定升高为特征的文明慢性疾病。 许多过程都涉及葡萄糖调节,它们的相互作用非常复杂。 为了更好地理解这些过程,我们为自己设定了一个目标,以创建一个全身葡萄糖调节的Petri净模型。 到目前为止,我们已经设法创建了一个肝脏中葡萄糖的糖解和合成模型,以及健康和糖尿病患者葡萄糖调节的一般概述模型。 在本文中,我们介绍了胰腺β细胞中胰岛素分泌的Petri Nets模型,以及胰腺α细胞中的胰高血糖素。 这两种激素具有相互相反的作用:胰岛素预防高血糖和胰高血糖素预防低血糖。 了解胰岛素和胰高血糖素分泌的机制是了解糖尿病的基础。 我们还介绍了一个模型,其中两个过程一起发生,取决于血糖水平。 分析了每个模型的动态。 此外,我们遵循标准转换规则,将整体胰岛素和胰高血糖素分泌系统转换为Boolean网络。
No more items to load.