Contrastive Learning Enhances Language Model Based Cell Embeddings for Low-Sample Single Cell Transcriptomics
Luxuan Zhang, Douglas Jiang, Qinglong Wang, Haoqi Sun, Feng Tian
大型语言模型(LLM)在自然语言处理和生成、计算机视觉和多模态学习等领域产生丰富表示的能力。 然而,他们在生物医学数据分析中的应用仍然萌芽。 单细胞转录组分分析对于解剖发育和疾病中的细胞亚型多样性至关重要,但罕见的亚型对扩展定律提出了挑战。 我们提出了一个计算框架,将单细胞RNA测序(scRNA-seq)与LLMs集成,以得出知识渊博的基因嵌入。 每个细胞的高度表达基因被映射到NCBI基因描述,并使用文本嵌入-嵌入-ada-002,BioBERT和SciBERT等模型。 应用于视网膜神经节细胞(RGCs),其脆弱性与青光眼相关的神经变性不同,这种策略改善了亚型分类,突出了生物学上显着的特征,并揭示了选择性神经元脆弱性背后的途径。 更广泛地说,它说明了LLM衍生的嵌入如何在数据有限的条件下增强生物学分析,并为单细胞生物学的未来基础模型奠定基础。
Large language models (LLMs) have shown strong ability in generating rich representations across domains such as natural language processing and generation, computer vision, and multimodal learning. However, their application in biomedical data analysis remains nascent. Single-cell transcriptomic profiling is essential for dissecting cell subtype diversity in development and disease, but rare subtypes pose challenges for scaling laws. We present a computational framework that integrates single-c...