42digest首页
格式事项:多模态LLM在审查表格和图表中的证据时稳健性

Format Matters: The Robustness of Multimodal LLMs in Reviewing Evidence from Tables and Charts

Xanh Ho, Yun-Ang Wu, Sunisth Kumar, Florian Boudin, Atsuhiro Takasu, Akiko Aizawa

arXiv
2025年11月13日

随着提交科学论文的数量不断增加,对可以帮助评审人员评估研究主张的系统的需求不断增加。 实验结果是科学工作的核心组成部分,通常以表格或图表等不同格式呈现。 了解强大的当前多模态大语言模型(多模态LLM)如何验证不同证据格式的科学主张仍然是一项重要且探索不足的挑战。 在本文中,我们设计并进行了一系列实验,以评估多模态LLM使用表格和图表作为证据验证科学声明的能力。 为了实现这一评估,我们通过整合多模态权利要求验证任务所需的注释和结构来调整两个现有的科学论文数据集。 使用此调整的数据集,我们评估12个多模态LLM,并发现当前模型在基于图表的证据中表现更好。 我们进一步进行人类评估,并观察到人类在两种格式之间保持强劲的性能,与模型不同。 我们的分析还显示,较小的多模态LLM(低于8B)在基于表和基于图表的任务之间的性能相关性较弱,表明有限的跨模态泛化。 这些发现凸显了当前模型多模态推理能力的关键差距。 我们建议,未来的多式联运应更加重视提高图表的理解,以更好地支持科学索赔核查。

With the growing number of submitted scientific papers, there is an increasing demand for systems that can assist reviewers in evaluating research claims. Experimental results are a core component of scientific work, often presented in varying formats such as tables or charts. Understanding how robust current multimodal large language models (multimodal LLMs) are at verifying scientific claims across different evidence formats remains an important and underexplored challenge. In this paper, we d...