42digest首页
向前和向后思考:多目标强化学习进行检索增强推理

Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning

Wenda Wei, Yu-An Liu, Ruqing Zhang, Jiafeng Guo, Lixin Su, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Xueqi Cheng

arXiv
2025年11月12日

检索增强生成(RAG)已被证明可以有效地缓解大型语言模型中的幻觉,但在复杂的多步骤推理场景中,其有效性仍然有限。 最近的努力已经将基于搜索的交互纳入RAG,通过实时检索实现迭代推理。 大多数方法都依赖于基于结果的监督,没有为中间步骤提供明确的指导。 这通常会导致奖励黑客和退化的反应质量。 我们提出了Bi-RAR,这是一种新颖的检索增强推理框架,可以在前进和向后方向共同评估每个中间步骤。 为了评估每个步骤的信息完整性,我们引入了基于 Kolmogorov 复杂性的双向信息距离,通过语言模型生成概率近似。 这种量化既衡量了当前推理离答案有多远,又衡量了它解决问题的程度。 为了在这些双向信号下优化推理,我们采用了多目标强化学习框架,具有层叠奖励结构,强调早期轨迹对齐。 关于七个问题回答基准的经验结果表明,Bi-RAR超越了以前的方法,并在训练和推理期间与搜索引擎进行了有效的互动和推理。

Retrieval-augmented generation (RAG) has proven to be effective in mitigating hallucinations in large language models, yet its effectiveness remains limited in complex, multi-step reasoning scenarios. Recent efforts have incorporated search-based interactions into RAG, enabling iterative reasoning with real-time retrieval. Most approaches rely on outcome-based supervision, offering no explicit guidance for intermediate steps. This often leads to reward hacking and degraded response quality. We p...