A Multimodal Human Protein Embeddings Database: DeepDrug Protein Embeddings Bank (DPEB)
Md Saiful Islam Sajol, Magesh Rajasekaran, Hayden Gemeinhardt, Adam Bess, Chris Alvin, Supratik Mukhopadhyay
由于缺乏集成的多模态蛋白表示,计算预测蛋白质-蛋白质相互作用(PPI)具有挑战性。 DPEB是22,043种人类蛋白质的精选集合,集成了四种嵌入类型:结构(AlphaFold2),基于变压器的序列(BioEmbeddings),上下文氨基酸模式(ESM-2:进化量表建模)和基于序列的n-gram统计(ProtVec)。 AlphaFold2蛋白结构可通过公共数据库(例如AlphaFold2蛋白结构数据库)获得,但内部神经网络嵌入则不是。 DPEB通过提供AlphaFold2衍生的嵌入来计算建模来解决这一差距。 我们的基准评估显示,GraphSAGE with BioEmbedding实现了最高的PPI预测性能(87.37% AUROC,79.16%的准确率)。 该框架还实现了酶分类的77.42%的准确率和蛋白质家族分类的86.04%的准确率。 DPEB支持用于PPI预测的多种图神经网络方法,在系统生物学,药物靶标识别,通路分析和疾病机制研究中的应用。
Computationally predicting protein-protein interactions (PPIs) is challenging due to the lack of integrated, multimodal protein representations. DPEB is a curated collection of 22,043 human proteins that integrates four embedding types: structural (AlphaFold2), transformer-based sequence (BioEmbeddings), contextual amino acid patterns (ESM-2: Evolutionary Scale Modeling), and sequence-based n-gram statistics (ProtVec]). AlphaFold2 protein structures are available through public databases (e.g., ...