42digest首页
分散的检索增强生成系统,在区块链上保护源可靠性

A Decentralized Retrieval Augmented Generation System with Source Reliabilities Secured on Blockchain

Yining Lu, Wenyi Tang, Max Johnson, Taeho Jung, Meng Jiang

arXiv
2025年11月10日

现有的检索增强生成(RAG)系统通常使用集中式架构,导致数据收集、集成和管理成本高,以及隐私问题。 非常需要一个分散的RAG系统,使基础模型能够直接利用数据所有者的信息,这些数据所有者对其来源保持完全控制。 然而,去中心化带来了一个挑战:众多独立数据源在可靠性方面差异很大,这可能会降低检索的准确性和响应质量。 为了解决这个问题,我们分散的RAG系统具有一种新的可靠性评分机制,可以根据它在检索过程中生成和优先考虑高质量源的响应质量动态评估每个来源。 为了确保透明度和信任,通过基于区块链的智能合约安全地管理评分过程,创建可验证和防篡改的可靠性记录,而无需依赖中央权威。 我们通过两个Llama模型(3B和8B)在两个模拟环境中评估我们的分散系统,其中六个数据源具有不同程度的可靠性。 我们的系统在类似现实世界的不可靠数据环境中实现了比集中式对应系统性能提升 +10.7%。 值得注意的是,它在理想可靠的数据环境中接近集中系统的上行性能。 分散式基础设施可实现安全和值得信赖的评分管理,通过批次更新操作可节省约56%的边际成本。 我们的代码和系统在github.com/yining610/Reliable-dRAG开源。

Existing retrieval-augmented generation (RAG) systems typically use a centralized architecture, causing a high cost of data collection, integration, and management, as well as privacy concerns. There is a great need for a decentralized RAG system that enables foundation models to utilize information directly from data owners who maintain full control over their sources. However, decentralization brings a challenge: the numerous independent data sources vary significantly in reliability, which ca...