scMamba: A Scalable Foundation Model for Single-Cell Multi-Omics Integration Beyond Highly Variable Feature Selection
Zhen Yuan, Shaoqing Jiao, Yihang Xiao, Jiajie Peng
单细胞多组学技术的出现使单个细胞内不同组学层同时进行了分析。 整合此类多模态数据为细胞身份、调控过程和疾病机制提供了前所未有的见解。 然而,它仍然具有挑战性,因为当前的方法通常依赖于在预处理过程中选择高度可变的基因或峰值,这可能会无意中丢弃关键的生物信息。 在这里,我们介绍了scMamba,一个基础模型,旨在集成单细胞多组学数据,而无需事先选择特征,同时保留基因组位置信息。scMamba引入了基于补丁的细胞标记化策略,将基因组学区域视为单词(令牌)和细胞作为句子。 基于国家空间二元性的概念,scMamba从高维,稀疏的单细胞多组学数据中提炼出丰富的生物学见解。 此外,我们新颖的对比式学习方法,通过余氨酸相似性正则化增强,与传统方法相比,在组学层之间实现卓越的对齐。 跨多个数据集的系统基准测试表明,scMamba在保存生物变异,对齐组学层以及增强关键下游任务(如聚类,细胞类型注释和轨迹推理)方面明显优于最先进的方法。 我们的发现将scMamba定位为大规模单细胞多组学整合的强大工具,能够处理大规模地图集并推动生物发现。
The advent of single-cell multi-omics technologies has enabled the simultaneous profiling of diverse omics layers within individual cells. Integrating such multimodal data provides unprecedented insights into cellular identity, regulatory processes, and disease mechanisms. However, it remains challenging, as current methods often rely on selecting highly variable genes or peaks during preprocessing, which may inadvertently discard crucial biological information. Here, we present scMamba, a found...