42digest首页
多语言维基百科表中的事实不一致

Factual Inconsistencies in Multilingual Wikipedia Tables

Silvia Cappa, Lingxiao Kong, Pille-Riin Peet, Fanfu Wei, Yuchen Zhou, Jan-Christoph Kalo

arXiv
2025年7月24日

维基百科是一个全球可访问的知识来源,内容超过300种语言。 尽管涵盖了相同的主题,但维基百科的不同版本都是独立编写和更新的。 这导致事实不一致,可能影响百科全书和人工智能系统的中立性和可靠性,这些系统通常依赖维基百科作为主要训练源。 这项研究调查了维基百科结构化内容中的跨语言不一致之处,重点是表格数据。 我们开发了一种方法来收集,对齐和分析维基百科多语言文章的表格,定义不一致的类别。 我们应用各种定量和定性指标,使用样本数据集评估多语言对齐。 这些见解对事实验证,多语言知识交互以及利用维基百科内容的可靠AI系统设计都有影响。

Wikipedia serves as a globally accessible knowledge source with content in over 300 languages. Despite covering the same topics, the different versions of Wikipedia are written and updated independently. This leads to factual inconsistencies that can impact the neutrality and reliability of the encyclopedia and AI systems, which often rely on Wikipedia as a main training source. This study investigates cross-lingual inconsistencies in Wikipedia's structured content, with a focus on tabular data....