42digest首页
AgentPLM:通过Step-Wise Promise和Progress为LLM代理提供流程奖励模型

AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress

Zhiheng Xi, Chenyang Liao, Guanyu Li, Yajie Yang, Wenxiang Chen, Zhihao Zhang, Binghai Wang, Senjie Jin, Yuhao Zhou, Jian Guan, Wei Wu, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

arXiv
2025年11月11日

尽管发展迅速,但大型语言模型(LLM)在多转决策任务(即代理任务)中仍然遇到挑战,如网络购物和浏览器导航,这需要根据环境反馈做出一系列智能决策。 LLM代理公司以前的工作通常依赖于精心设计的快速工程或专家轨迹的微调,以提高性能。 在这项工作中,我们采取了不同的观点:我们探索构建过程奖励模型(PRM),以评估每个决策并指导代理的决策过程。 与LLM推理不同,其中每个步骤都是基于正确性的,代理任务中的动作没有明确的正确性。 相反,应该根据他们接近目标以及他们取得的进展来评估他们。 基于这一见解,我们提出了为代理任务重新定义的PRM,名为AgentPRM,以捕捉顺序决策之间的相互依存关系及其对最终目标的贡献。 从而实现更好的进度跟踪和勘探-开发平衡。 为了大规模地获取用于训练AgentPRM的标记数据,我们采用了基于时间差(TD)的估计方法与广义优势估计(GAE)相结合,证明比以前的方法更具样本效率。 跨不同代理任务的广泛实验表明,AgentPRM比基线高出8×以上的计算效率,并且在扩展测试时间计算时显示出强劲的改进。 此外,我们进行详细的分析,以显示我们的方法如何工作,并提供更多的见解,例如,将AgentPRM应用于LLM代理的强化学习。

Despite rapid development, large language models (LLMs) still encounter challenges in multi-turn decision-making tasks (i.e., agent tasks) like web shopping and browser navigation, which require making a sequence of intelligent decisions based on environmental feedback. Previous work for LLM agents typically relies on elaborate prompt engineering or fine-tuning with expert trajectories to improve performance. In this work, we take a different perspective: we explore constructing process reward m...