42digest
mCLM:一种功能注入和合成友好的模块化化学语言模型

mCLM: A Function-Infused and Synthesis-Friendly Modular Chemical Language Model

Carl Edwards, Chi Han, Gawon Lee, Thao Nguyen, Bowen Jin, Chetan Kumar Prasad, Sara Szymkuć, Bartosz A. Grzybowski, Ying Diao, Jiawei Han, Ge Liu, Hao Peng, Martin D. Burke, Heng Ji

arXiv
2025年5月18日

尽管它们能够理解化学知识并准确生成顺序表示,但大型语言模型(LLM)在提出具有类似药物特性的新型分子的能力方面仍然有限。 此外,LLM提出的分子在实验室中制造往往具有挑战性。 为了更有效地发现功能性小分子,LLM需要学习分子语言。 然而,LLM目前受到来自原子的分子编码的限制。 在本文中,我们认为,就像将文本标记化为(子)词令牌而不是字符一样,分子应该在功能构建块的水平上进行分解和重新组装,即分子部分,这些分子部分带来了独特的功能,并作为现实世界自动化实验室合成的有效构建块。 这激励我们提出mCLM,一种模块化的化学语言模型,将分子标记到构建模块中,并学习函数和分子构建块的自然语言描述的双语语言模型。 通过对这些功能构建模块进行推理,mCLM保证由于最近基于块的化学进展而产生可合成的分子,同时还以原则性的方式改善分子的功能。 在430种FDA批准的药物的实验中,我们发现mCLM能够显着改善6个化学功能中的5个,这对于确定药物潜力至关重要。 更重要的是,mCLM可以在多个迭代中推理多个功能并改善FDA拒绝的药物(“堕落的天使”),以大大提高其缺点。

Despite their ability to understand chemical knowledge and accurately generate sequential representations, large language models (LLMs) remain limited in their capacity to propose novel molecules with drug-like properties. In addition, the molecules that LLMs propose can often be challenging to make in the lab. To more effectively enable the discovery of functional small molecules, LLMs need to learn a molecular language. However, LLMs are currently limited by encoding molecules from atoms. In t...