Boosting In-Silicon Directed Evolution with Fine-Tuned Protein Language Model and Tree Search
Yaodong Yang, Yang Wang, Jinpeng Li, Pei Guo, Da Han, Guangyong Chen, Pheng-Ann Heng
通过氨基酸序列突变的蛋白质进化是生命科学的基石。 虽然目前的硅内定向进化算法专注于设计搜索策略,但他们忽略了如何利用编码丰富进化模式的变革性蛋白质语言模型来指导搜索。 为了弥补这一差距,我们提出了AlphaDE,这是一个通过利用大型语言模型的创新范式来进化蛋白质序列的新框架。 首先,AlphaDE使用同源蛋白质序列上的掩蔽语言建模来调整预训练的蛋白质语言模型,以激活感兴趣的蛋白质类的进化合理性。 其次,AlphaDE引入了基于蒙特卡洛树搜索的测试时间推断,该推理通过微调蛋白质语言模型的进化指导有效地进化蛋白质。 广泛的基准实验表明,即使很少进行微调,AlphaDE也大大优于以前的最先进的方法。 一项有趣的案例研究进一步表明,AlphaDE支持通过计算进化来凝聚蛋白质序列空间。
Protein evolution through amino acid sequence mutations is a cornerstone of life sciences. While current in-silicon directed evolution algorithms focus on designing search strategies, they overlook how to utilize the transformative protein language models, which encode rich evolutionary patterns, to guide search. To bridge this gap, we propose AlphaDE, a novel framework to evolve protein sequences by harnessing the innovative paradigms of large language models. First, AlphaDE fine-tunes pretrain...