DrugReasoner: Interpretable Drug Approval Prediction with a Reasoning-augmented Language Model
Mohammadreza Ghaffarzadeh-Esfahani, Ali Motahharynia, Nahid Yousefian, Navid Mazrouei, Jafar Ghaisari, Yousof Gheisari
药物发现是一个复杂且资源密集型的过程,对优化研究投资至关重要的早期预测批准结果。 虽然经典的机器学习和深度学习方法在药物批准预测中显示出希望,但它们有限的可解释性限制了它们的影响。 在这里,我们介绍了DrugReasoner,一种基于LLaMA架构的基于推理的大型语言模型(LLM),并通过组相对策略优化(GRPO)进行了微调,以预测小分子批准的可能性。 DrugReasoner将分子描述符与结构相似的批准和未经批准的化合物的比较推理相结合,产生预测以及逐步的理由和信心评分。 DrugReasoner在验证集上分别获得0.732的AUC和0.725和0.718的F1得分,在测试集上分别取得了0.725和0.718的强劲表现。 这些结果优于常规基线,包括逻辑回归,支持向量机和k近邻,并且相对于XGBoost具有竞争性能。 在外部独立数据集上,DrugReasoner的表现优于基线和最近开发的ChemAP模型,实现了0.728的AUC和0.774的F1分数,同时保持高精度和平衡的灵敏度,证明了现实世界场景中的稳健性。 这些发现表明,DrugReasoner不仅提供了有竞争力的预测准确性,而且还通过其推理输出增强了透明度,从而解决了人工智能辅助药物发现的一个关键瓶颈。 这项研究强调了推理增强LLM作为药物决策可解释和有效的工具的潜力。
Drug discovery is a complex and resource-intensive process, making early prediction of approval outcomes critical for optimizing research investments. While classical machine learning and deep learning methods have shown promise in drug approval prediction, their limited interpretability constraints their impact. Here, we present DrugReasoner, a reasoning-based large language model (LLM) built on the LLaMA architecture and fine-tuned with group relative policy optimization (GRPO) to predict the ...