42digest首页
检索前思考:使用小语言模型学习测试时间自适应搜索

Think Before You Retrieve: Learning Test-Time Adaptive Search with Small Language Models

Supriti Vijay, Aman Priyanshu, Anu Vellore, Baturay Saglam, and Amin Karbasi

arXiv
2025年11月10日

有效的信息检索需要对部分证据进行推理,并在信息出现时改进策略。 然而,目前的方法却不足:神经检索器缺乏推理能力,大型语言模型(LLM)提供语义深度,但成本高昂,查询重写或分解限制了静态转换的改进。 因此,现有方法无法捕捉复杂的用户查询所需的探索、反馈和修订的迭代动态。 我们引入了Orion,一个训练框架,使紧凑的模型(350M-1.2B参数)能够通过学习的搜索策略执行迭代检索。 猎户座结合:(1)合成轨迹生成和监督微调,以鼓励模型中的多样化探索模式,(2)奖励有效查询改进和回溯行为的强化学习(RL),(3)利用RL期间学习的自我反射能力的推理时间波束搜索算法。 尽管仅使用3%的训练数据,但我们的1.2B模型在SciFact上取得了77.6%的成功。 先前猎犬的72.6%,BIGHT的25.2%(相对于。 22.1%),63.2%的 NFCorpus (相对于。 57.8%),在Fever,HotpotQA和MSMarco上保持竞争力。 在6个基准中的5个基准中,它的表现超过了200-400倍。 这些发现表明,当模型被训练搜索、反映和修改时,可以从学习策略中产生检索性能,而不仅仅是模型规模。

Effective information retrieval requires reasoning over partial evidence and refining strategies as information emerges. Yet current approaches fall short: neural retrievers lack reasoning capabilities, large language models (LLMs) provide semantic depth but at prohibitive cost, and query rewriting or decomposition limits improvement to static transformations. As a result, existing methods fail to capture the iterative dynamics of exploration, feedback, and revision that complex user queries dem...