A million-scale dataset and generalizable foundation model for nanomaterial-protein interactions
Hengjie Yu, Kenneth A. Dawson, Haiyun Yang, Shuya Liu, Yan Yan, Yaochu Jin
释放纳米材料在医学和环境科学中的潜力取决于理解它们与蛋白质的相互作用,这是一个复杂的决策空间,人工智能准备产生变革性影响。 然而,由于数据集有限和现有模型的可推广性受限,进展受到了阻碍。 在这里,我们提出了NanoPro-3M,这是迄今为止最大的纳米材料-蛋白质相互作用数据集,包括超过320万个样本和37,000个独特的蛋白质。 利用这一点,我们介绍了NanoProFormer,这是一个基础模型,通过多模态表示学习预测纳米材料-蛋白质亲和力,展示强大的泛化,处理缺失的特征以及看不见的纳米材料或蛋白质。 我们表明,多模态建模显著优于单模态方法,并确定了日冕形成的关键决定因素。 此外,我们通过零镜头推理和微调证明了它对一系列下游任务的适用性。 这项工作共同为纳米材料-蛋白质相互作用终点的高性能和广义预测奠定了坚实的基础,减少了实验依赖并加速了各种体外应用。
Unlocking the potential of nanomaterials in medicine and environmental science hinges on understanding their interactions with proteins, a complex decision space where AI is poised to make a transformative impact. However, progress has been hindered by limited datasets and the restricted generalizability of existing models. Here, we propose NanoPro-3M, the largest nanomaterial-protein interaction dataset to date, comprising over 3.2 million samples and 37,000 unique proteins. Leveraging this, we...