42digest首页
LiveResearchBench:面向用户中心深度研究的实时基准

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

Jiayu Wang, Yifei Ming, Riya Dulepet, Qinglin Chen, Austin Xu, Zixuan Ke, Frederic Sala, Aws Albarghouthi, Caiming Xiong, Shafiq Joty

arXiv
2025年10月16日

深入研究 - 通过搜索和合成来自数百个实时网络源的信息来生成全面的,引用式报告 - 标志着代理系统的重要前沿。 要严格评估这种能力,四项原则至关重要:任务应(1)以用户为中心,反映现实的信息需求,(2)动态的,需要超越参数知识的最新信息,(3)明确无误,确保用户之间的一致解释,(4)多方面和搜索密集型,需要通过众多网络源进行搜索和深入分析。 现有的基准没有达到这些原则,往往侧重于狭隘的领域,或提出模棱两可的问题,阻碍公平比较。 在这些原则的指导下,我们引入了LiveResearchBench,这是100个专家策划的任务的基准,涵盖日常生活,企业和学术界,每个任务都需要广泛,动态,实时的网络搜索和合成。 LiveResearchBench拥有超过1500小时的人力,为系统评估提供了严格的基础。 为了评估引用基础的长形报告,我们引入了DeepEval,这是一个涵盖内容和报告级质量的综合套件,包括覆盖范围,演示文稿,引用准确性和关联性,一致性和分析深度。 DeepEval集成了四种互补评估协议,每种协议都旨在确保稳定的评估和与人类判断的高度一致。 使用LiveResearchBench和DeepEval,我们对17个前沿深度研究系统进行全面评估,包括单代理网络搜索,单代理深度研究和多代理系统。 我们的分析揭示了当前的优势,反复出现的失败模式,以及推进可靠,有洞察力的深入研究所需的关键系统组件。

Deep research – producing comprehensive, citation-grounded reports by searching and synthesizing information from hundreds of live web sources – marks an important frontier for agentic systems. To rigorously evaluate this ability, four principles are essential: tasks should be (1) user-centric, reflecting realistic information needs, (2) dynamic, requiring up-to-date information beyond parametric knowledge, (3) unambiguous, ensuring consistent interpretation across users, and (4) multi-faceted a...