tcrLM: a lightweight protein language model for predicting T cell receptor and epitope binding specificity
Xing Fang, Chenpeng Yu, Shiye Tian, Hui Liu
抗癌免疫反应依赖于T细胞受体(TCR)和抗原之间的结合,从而引发适应性免疫以消除肿瘤细胞。 免疫系统对新型新抗原作出反应的能力源于TCR存储库的巨大多样性。 然而,TCR多样性对准确预测抗原-TCR结合提出了重大挑战。 在这项研究中,我们引入了一种轻量级的遮蔽语言模型,称为tcrLM,以应对这一挑战。 我们的方法涉及随机掩码段TCR序列和训练tcrLM来推断掩模片段,从而能够从TCR序列中提取表达特征。 为了进一步提高鲁棒性,我们将虚拟对抗训练纳入tcrLM。 我们构建了最大的TCR CDR3序列集,拥有超过1亿个不同序列,并在这些序列上预训练tcrLM。 随后,预训练编码器用于预测TCR抗原结合特异性。 我们评估三个测试数据集上的模型性能:独立、外部和 COVID-19 测试集。 结果表明,tcrLM不仅超越了现有的TCR抗原结合预测方法,而且还优于其他主流蛋白质语言模型。 更有趣的是,tcrLM有效地捕获了TCR序列中氨基酸的生化特性和位置偏好。 此外,预测的TCR-新抗原结合评分表明黑色素瘤队列中的免疫治疗反应和临床结果。 这些发现证明了tcrLM在预测TCR抗原结合特异性方面的潜力,对推进免疫治疗和个性化医学具有重要意义。
The anti-cancer immune response relies on the bindings between T-cell receptors (TCRs) and antigens, which elicits adaptive immunity to eliminate tumor cells. This ability of the immune system to respond to novel various neoantigens arises from the immense diversity of TCR repository. However, TCR diversity poses a significant challenge on accurately predicting antigen-TCR bindings. In this study, we introduce a lightweight masked language model, termed tcrLM, to address this challenge. Our appr...