OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking
Yanhong Li, Tianyang Xu, Kenan Tang, Karen Livescu, David McAllester, Jiawei Zhou
知识密集型问题回答是大型语言模型(LLM)的核心,通常使用来自维基百科和教科书等来源的静态基准进行评估。 然而,这些基准未能在动态世界中捕获不断发展的知识,而集中的策划则难以跟上LLM的快速发展。 为了解决这些缺点,我们提出了开放知识台(OKBench),这是一个完全自动化的框架,用于按需生成高质量,动态的知识基准。 专注于知识每天更新的新闻领域,OKBench是一个代理框架,可以自动化基准的采购,创建,验证和分发。 我们的方法使基准创建民主化,并通过减少与预训练数据的重叠,促进对检索增强方法的彻底评估。 我们评估我们的框架在广泛的开源和专有的LLM各种大小和配置,有和没有检索新鲜生成的知识。 我们的研究结果揭示了面对新信息时的不同模型行为,并强调了检索如何缩小小模型和大模型之间的性能差距。 这些发现强调了在不断发展的知识基准上评估LLM的重要性。
Knowledge-intensive question answering is central to large language models (LLMs) and is typically assessed using static benchmarks derived from sources like Wikipedia and textbooks. However, these benchmarks fail to capture evolving knowledge in a dynamic world, and centralized curation struggles to keep pace with rapid LLM advancements. To address these drawbacks, we propose Open Knowledge Bench (OKBench), a fully automated framework for generating high-quality, dynamic knowledge benchmarks on...