General Intelligence-based Fragmentation (GIF): A framework for peak-labeled spectra simulation
Margaret R. Martin, Soha Hassoun
尽管越来越多的参考库和先进的计算工具,代谢组学领域的进展仍然受到注释测量光谱率低的限制。 大型语言模型(LLM)的最新发展导致了广泛的生成和推理任务的强劲表现,促使人们对LLM应用于特定领域的科学挑战(如质谱注释)产生了浓厚的兴趣。 在这里,我们介绍了一个新的框架,基于通用智能的碎片化(GIF),它通过使用结构化的提示和推理来指导预训练的LLM。 GIF利用标记,结构化输入/输出,系统提示,基于指令的提示和迭代改进。 事实上,GIF为临时提示提供了一种结构化的替代方案,强调需要对LLM进行系统指导,以处理复杂的科学任务。 使用GIF,我们评估当前通才LLM使用推理进行碎片化的能力,并在微调后执行强度预测。 我们在从 MassSpecGym 数据集中提取的新型 QA 数据集 MassSpecGym QA-sim 数据集上对性能进行基准测试。 通过GIF的这些实现,我们发现GPT-4o和GPT-4o-mini在模拟光谱和真实光谱之间实现了0.36和0.35的余辛相似性,优于其他预训练模型,包括GPT-5,Llama-3.1和ChemDFM,尽管GPT-5的近期和ChemDFM的域专业化。 GIF优于几个深度学习基线。 我们对GIF的评估强调了将LLM用于光谱模拟的价值,以及实现人类在循环中的工作流程和分子碎片中结构化,可解释的推理的价值。
Despite growing reference libraries and advanced computational tools, progress in the field of metabolomics remains constrained by low rates of annotating measured spectra. The recent developments of large language models (LLMs) have led to strong performance across a wide range of generation and reasoning tasks, spurring increased interest in LLMs' application to domain-specific scientific challenges, such as mass spectra annotation. Here, we present a novel framework, General Intelligence-base...