42digest首页
Sim4IA-Bench:用于下一个查询和出端预测的用户模拟基准套件

Sim4IA-Bench: A User Simulation Benchmark Suite for Next Query and Utterance Prediction

Andreas Konstantin Kruff and Christin Katharina Kreutz and Timo Breuer and Philipp Schaer and Krisztian Balog

arXiv
2025年11月12日

由于缺乏既定的措施和基准,验证用户仿真是一项艰巨的任务,这使得评估模拟器是否准确反映真实的用户行为具有挑战性。 作为Sim4IA研讨会SIGIR 2025微共享任务的一部分,我们展示了Sim4IA-Bench,这是用于预测下一个查询和话语的模拟基准套装,这是IR社区中的第一个此类。 作为套件的一部分,我们的数据集包括来自CORE搜索引擎的160个真实世界搜索会话。 对于其中70个会话,最多可提供62个模拟器运行,分为任务A和任务B,其中不同的方法预测用户下一个搜索查询或话语。 Sim4IA-Bench为评估和比较用户模拟方法以及开发模拟器有效性的新措施提供了基础。 虽然规模不大,但该套件代表了第一个公开的基准,将真正的搜索会话与模拟的下一步预测联系起来。 除了作为下一个查询预测的测试平台外,它还可以实现对查询重制行为,意图漂移和交互感知检索评估的探索性研究。 我们还引入了一项新措施,用于评估这项任务中的下一步预测。 通过公开提供该套件,我们的目标是促进可重复的研究,并刺激关于信息访问的现实和可解释的用户模拟的进一步工作:https://github.com/irgroup/Sim4IA-Bench。

Validating user simulation is a difficult task due to the lack of established measures and benchmarks, which makes it challenging to assess whether a simulator accurately reflects real user behavior. As part of the Sim4IA Micro-Shared Task at the Sim4IA Workshop, SIGIR 2025, we present Sim4IA-Bench, a simulation benchmark suit for the prediction of the next queries and utterances, the first of its kind in the IR community. Our dataset as part of the suite comprises 160 real-world search sessions...