42digest首页
fastbmRAG:基于快速图谱的RAG框架,用于高效处理大规模生物医学文献

fastbmRAG: A Fast Graph-Based RAG Framework for Efficient Processing of Large-Scale Biomedical Literature

Guofeng Meng, Li Shen, Qiuyan Zhong, Wei Wang, Haizhou Zhang, Xiaozhen Wang

arXiv
2025年11月13日

大型语言模型(LLM)正在迅速改变各个领域,包括生物医学和医疗保健,并展示了从科学研究到新药发现的显着潜力。 基于图形的检索增强生成(RAG)系统作为LLM的有用应用,可以通过结构化实体和长期上下文知识(例如生物医学文献)中识别来改善上下文推理。 尽管与幼稚的RAG相比有许多优势,但大多数基于图形的RAG都是计算密集型的,这限制了它们应用于大规模数据集。 为了解决这个问题,我们引入了fastbmRAG,一种针对生物医学文献优化的快速基于图的RAG。 FastbmRAG利用组织良好的生物医学论文结构,将知识图的构建分为两个阶段,第一个阶段使用摘要绘制图形;其次,使用基于矢量的实体链接引导的主要文本来改进它们,从而最大限度地减少冗余和计算负载。 我们的评估表明,fastbmRAG比现有的图形-RAG工具快10倍,并且实现了卓越的覆盖和输入知识的准确性。 FastbmRAG提供了一个快速的解决方案,可以大规模快速理解,总结和回答有关生物医学文献的问题。 FastbmRAG在https://github.com/menggf/fastbmRAG中公开。

Large language models (LLMs) are rapidly transforming various domains, including biomedicine and healthcare, and demonstrate remarkable potential from scientific research to new drug discovery. Graph-based retrieval-augmented generation (RAG) systems, as a useful application of LLMs, can improve contextual reasoning through structured entity and relationship identification from long-context knowledge, e.g. biomedical literature. Even though many advantages over naive RAGs, most of graph-based RA...