活水快报 - 42Digest

维纳斯X:解开蛋白质的精细功能理解

VenusX: Unlocking Fine-Grained Functional Understanding of Proteins

Yang Tan, Wenrui Gou, Bozitao Zhong, Liang Hong, Huiqun Yu, Bingxin Zhou

arXiv

2025年5月17日

深度学习模型在预测蛋白质功能和蛋白质层面的相互作用方面取得了重大进展。虽然这些进步对于许多生物学应用(如酶工程和功能注释)非常宝贵,但对于理解蛋白质功能机制和评估模型捕获的生物知识,更详细的视角至关重要。为了解决这一需求,我们引入了VenusX,这是第一个在残留、片段和域水平上进行细粒功能注释和基于功能的蛋白质配对的大规模基准测试。 VenusX包括六种类型的注释中的三个主要任务类别,包括残留级别二进制分类,片段级多类分类,以及用于识别关键活动位点,结合位点,保守站点,主题,域和表位的成双级功能相似性评分。该基准测试了来自InterPro、BioLiP和SAbDab等主要开源数据库的878,000多个样本。通过在三个序列身份阈值提供混合家族和跨家族分割,我们的基准能够全面评估分布内和分布外情景的模型性能。对于基线评估,我们评估一组流行的和开源的模型,包括预训练的蛋白质语言模型,序列结构混合,基于结构的方法和基于对齐的技术。他们的性能使用多个指标在所有基准数据集和评估设置中报告,为未来的研究提供了彻底的比较和坚实的基础。代码和数据可公开查阅https://github.com/ai4protein/VenusX。

Deep learning models have driven significant progress in predicting protein function and interactions at the protein level. While these advancements have been invaluable for many biological applications such as enzyme engineering and function annotation, a more detailed perspective is essential for understanding protein functional mechanisms and evaluating the biological knowledge captured by models. To address this demand, we introduce VenusX, the first large-scale benchmark for fine-grained fu...

机器学习计算与语言定量方法

View Source