42digest
通过多模态学习和物理上下文编码理解材料科学中分子图谱神经网络的能力

Understanding the Capabilities of Molecular Graph Neural Networks in Materials Science Through Multimodal Learning and Physical Context Encoding

Can Polat, Hasan Kurban, Erchin Serpedin, and Mustafa Kurban

arXiv
2025年5月17日

分子图神经网络(GNNs)通常只关注基于XYZ的几何表示,因此忽略了像PubChem这样的公共数据库中可用的有价值的化学上下文。 这项工作引入了一个多模态框架,该框架集成了文本描述符,如IUPAC名称,分子公式,物理化学特性和同义词,以及分子图。 门控融合机制平衡了几何和文本特征,允许模型利用互补信息。 对基准数据集的实验表明,添加文本数据对某些电子属性产生了显着的改进,而其他电子属性的收益仍然有限。 此外,GNN架构显示类似的性能模式(在类似目标上改进和恶化),表明它们学习可比的表示,而不是明显不同的物理见解。

Molecular graph neural networks (GNNs) often focus exclusively on XYZ-based geometric representations and thus overlook valuable chemical context available in public databases like PubChem. This work introduces a multimodal framework that integrates textual descriptors, such as IUPAC names, molecular formulas, physicochemical properties, and synonyms, alongside molecular graphs. A gated fusion mechanism balances geometric and textual features, allowing models to exploit complementary information...