Sparse Autoencoders for Low-N Protein Function Prediction and Design
Darin Tsui, Kunal Talreja, Amirali Aghazadeh
从氨基酸序列中预测蛋白质功能仍然是数据稀缺(low-N)机制的核心挑战,当只有少量的测定标记的序列函数数据可用时,限制机器学习引导的蛋白质设计。 蛋白质语言模型(pLMs)通过提供进化知情的嵌入和稀疏自动编码器(SAE)使这些嵌入分解为可解释的潜在变量,捕获结构和功能特征。 然而,SAEs对低N功能预测和蛋白质设计的有效性尚未得到系统的研究。 在这里,我们评估在微调ESM2嵌入方面训练的SAE,涉及不同的健身外推和蛋白质工程任务。 我们表明,SAEs,只有24个序列,在健身预测中始终优于或与其ESM2基线竞争,这表明其稀疏的潜伏空间编码紧凑且具有生物学意义的表征,从有限的数据中更有效地概括。 此外,转向预测性潜伏物利用pLM表示中的生物图案,在83中产生顶级适应性变体
Predicting protein function from amino acid sequence remains a central challenge in data-scarce (low-N) regimes, limiting machine learning-guided protein design when only small amounts of assay-labeled sequence-function data are available. Protein language models (pLMs) have advanced the field by providing evolutionary-informed embeddings and sparse autoencoders (SAEs) have enabled decomposition of these embeddings into interpretable latent variables that capture structural and functional featur...