42digest首页
通过战略干预进行高效的思维空间探索

Efficient Thought Space Exploration through Strategic Intervention

Ziheng Li, Hengyi Cai, Xiaochi Wei, Yuchen Li, Shuaiqiang Wang, Zhi-Hong Deng, Dawei Yin

arXiv
2025年11月13日

虽然大型语言模型(LLM)展示了新兴的推理能力,但目前的推理时间扩展方法通过详尽的采样产生令人望而却步的计算成本。 通过分析解码轨迹,我们观察到大多数下一个令牌预测与黄金输出很好地一致,除了一些导致偏差的关键令牌。 受这一现象的启发,我们提出了一个新的提示实践推理(HPR)框架,通过两个协同组件操作这种洞察力:1)一个在关键决策点提供概率指导的提示(强大的LLM),2)执行主要推理步骤的从业者(高效较小的模型)。 该框架的核心创新在于分配不一致(DIR),这是一种基于理论的衡量标准,通过量化从业者的推理轨迹与边缘在树结构概率空间中的预期分布之间的差异来动态识别干预点。 通过以DIR为指导的迭代树更新,HPR重新加权有希望的推理路径,同时将低概率分支列为优先事项。 跨越算术和常识推理基准的实验证明了HPR最先进的效率精度权衡:它实现了与自一致性和MCTS基线的可比性能,而仅解码1/5令牌,并且以最多5.1%的绝对精度优于现有方法,同时保持类似或更低的FLOP。

While large language models (LLMs) demonstrate emerging reasoning capabilities, current inference-time expansion methods incur prohibitive computational costs by exhaustive sampling. Through analyzing decoding trajectories, we observe that most next-token predictions align well with the golden output, except for a few critical tokens that lead to deviations. Inspired by this phenomenon, we propose a novel Hint-Practice Reasoning (HPR) framework that operationalizes this insight through two syner...