42digest首页
PETRA:用于SARS-CoV-2突变预测的预训练进化变压器

PETRA: Pretrained Evolutionary Transformer for SARS-CoV-2 Mutation Prediction

Xu Zou

arXiv
2025年11月6日

自成立以来,SARS-CoV-2已经显示出一种快速和不可预测的进化轨迹,其特征是免疫规避变体的持续出现。 这对公共卫生和疫苗开发构成了持续的挑战。 虽然大规模生成预训练变压器(GPT)彻底改变了顺序数据的建模,但其对噪声病毒基因组序列的直接应用是有限的。 在本文中,我们介绍了PETRA(预训练进化TRAnsformer),这是一种基于从系统发育树而不是原始RNA序列衍生的进化轨迹的新型变压器方法。 这种方法有效地减轻了测序噪声,并捕获了病毒进化的层次结构。 凭借解决全球序列数据中重大地理和时间失衡的加权训练框架,PETRA擅长预测未来的SARS-CoV-2突变,实现核苷酸突变的加权召回1为9.45%,尖峰氨基酸突变为17.10%,而最佳基线分别为0.49%和6.64%。 PETRA还展示了其帮助24F(XEC)和25A(LP.8.1)等主要包层的实时突变预测的能力。 代码在https://github.com/xz-keg/PETra上开源。

Since its emergence, SARS-CoV-2 has demonstrated a rapid and unpredictable evolutionary trajectory, characterized by the continual emergence of immune-evasive variants. This poses persistent challenges to public health and vaccine development. While large-scale generative pre-trained transformers (GPTs) have revolutionized the modeling of sequential data, their direct applications to noisy viral genomic sequences are limited. In this paper, we introduce PETRA(Pretrained Evolutionary TRAnsformer)...