Practical RAG Evaluation: A Rarity-Aware Set-Based Metric and Cost-Latency-Quality Trade-offs
Etienne Dallaire
本文解决了构建生产RAG的猜测游戏。 经典以排名为中心的IR指标(nDCG/MAP/MRR)不适合RAG,其中LLM消耗一组段落而不是浏览列表;位置折扣和流行盲聚合忽略了重要的事情:截止K的提示是否包含决定性的证据。 第二,没有标准化、可重复的构建和审核黄金套装的方法。 第三,存在排行榜,但缺乏反映生产权衡的端到端的有形基准。 第四,最先进的嵌入模型如何处理适当的名称身份信号和对话噪声仍然不透明。 为了解决这些问题,我们做出了贡献:(1)RA-nWG@K,一个稀有意识,每个被测试的标准化设置分数,以及通过池限制的神谕天花板(PROC)和PROC(%PROC)的百分比来区分检索,从在成本延迟质量(CLQ)镜头内订购头厅;(2) rag-gs(MIT),一个瘦削的金色集管道生产RAG(科学论文语料库)的基准跨越密集检索,混合致密+BM25,嵌入模型和尺寸,交叉编码器重排,ANN(HNSW)和量化;(4)有针对性的诊断,通过身份破坏和格式化分量量化适当的名称身份信号和对话噪声灵敏度。 这些组件共同提供从业者帕累托指导和可审计护栏,以支持可重复的预算/SLA意识决策。
This paper addresses the guessing game in building production RAG. Classical rank-centric IR metrics (nDCG/MAP/MRR) are a poor fit for RAG, where LLMs consume a set of passages rather than a browsed list; position discounts and prevalence-blind aggregation miss what matters: whether the prompt at cutoff K contains the decisive evidence. Second, there is no standardized, reproducible way to build and audit golden sets. Third, leaderboards exist but lack end-to-end, on-corpus benchmarking that ref...