A Diffusion Model to Shrink Proteins While Maintaining Their Function
Ethan Baron and Alan N. Amin and Ruben Weitzman and Debora Marks and Andrew Gordon Wilson
许多在现代医学或生物工程中有用的蛋白质在实验室中制造,与细胞中的其他蛋白质融合,或输送到体内的组织,因为它们的序列太长。 缩短这些序列通常涉及昂贵,耗时的实验活动。 理想情况下,我们可以使用来自自然界的大量序列数据库的现代模型来学习如何提出类似于自然界中发现的序列的缩小蛋白。 不幸的是,这些模型难以有效地搜索所有删除的组合空间,并且没有受过归纳偏差的训练,以学习如何删除。 为了解决这一差距,我们提出了SISOR,这是一种新颖的离散扩散模型,从序列中删除字母,以生成类似于自然界中发现的蛋白质样本。 为此,SCISR训练一个去鼻音器来逆转向前的嘈啪声过程,该过程增加了自然序列的随机插入。 作为一个生成模型,SCISR与以前的大模型竞争地适合进化序列数据。 在评估中,SCISR实现了对删除对ProteinGym的功能影响进行最先进的预测。 最后,我们使用SCISR去鼻塞来收缩长蛋白序列,并表明其建议的缺失导致明显更真实的蛋白质,并且比以前的进化序列模型更常保留功能基序。
Many proteins useful in modern medicine or bioengineering are challenging to make in the lab, fuse with other proteins in cells, or deliver to tissues in the body, because their sequences are too long. Shortening these sequences typically involves costly, time-consuming experimental campaigns. Ideally, we could instead use modern models of massive databases of sequences from nature to learn how to propose shrunken proteins that resemble sequences found in nature. Unfortunately, these models stru...