HEIST: A Graph Foundation Model for Spatial Transcriptomics and Proteomics Data
Hiren Madhu, João Felipe Rocha, Tinglin Huang, Siddharth Viswanath, Smita Krishnaswamy, Rex Ying
单细胞转录组学已成为数据驱动的生物学洞察的重要来源,使使用先进的深度学习方法能够在单细胞水平上理解细胞异质性和转录调节。 随着空间转录组学数据的出现,我们有在组织环境中学习细胞的承诺,因为它提供了空间坐标和转录组学读数。 然而,现有的模型要么忽略了空间分辨率或基因调控信息。 细胞中的基因调控可能会根据邻近细胞的微环境线索而改变,但现有模型忽略了基因调控模式,具有跨越抽象层面的分层依赖性。 为了从空间转录组学数据中创建细胞和基因的上下文化表示,我们引入了HEIST,一个基于空间转录组学和蛋白质组学数据的分层图形变压器基础模型。 HEIST将组织建模为空间细胞邻域图,每个细胞反过来被建模为基因调控网络图。 该框架包括一个分层图形变压器,执行跨级别消息传递和消息在级别内传递。 HEIST对来自15个器官的124个组织的22.3M细胞进行了预训练,使用空间感知的对比学习和蒙面的自动编码目标。 对HEIST细胞表征的无监督分析表明,它有效地编码了细胞嵌入中的微环境影响,从而发现了先前模型无法区分的空间信息亚群。 此外,HEIST在四项下游任务上取得了最先进的结果,如临床结果预测,细胞类型注释,基因归因和跨多种技术的空间知情细胞聚类,突出了分层建模和基于GRN的表征的重要性。
Single-cell transcriptomics and proteomics have become a great source for data-driven insights into biology, enabling the use of advanced deep learning methods to understand cellular heterogeneity and gene expression at the single-cell level. With the advent of spatial-omics data, we have the promise of characterizing cells within their tissue context as it provides both spatial coordinates and intra-cellular transcriptional or protein counts. Proteomics offers a complementary view by directly m...