42digest首页
CC30k:用于可重复性导向情绪分析的引文上下文数据集

CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu

arXiv
2025年11月11日

关于下游文献中引用论文的可重复性的情感提供了社区观点,并显示出已发表结果的实际可重复性的一个有希望的信号。 为了训练有效的模型来有效地预测面向可重复性的情绪,并进一步系统地研究它们与可重复性的相关性,我们引入了CC30k数据集,包括机器学习论文中的30,734个引用上下文。 每个引文上下文都标有三个可重复性导向的情绪标签之一:正,负或中性,反映了引用的论文的可重复性或可复制性。 其中,25,829个通过众包标记,辅以通过受控管道产生的负数,以对抗负压标签的稀缺性。 与传统的情绪分析数据集不同,CC30k专注于以可重复性为导向的情绪,解决计算可重复性研究的资源研究差距。 该数据集是通过包括健壮的数据清理、仔细的人群选择和彻底验证在内的管道创建的。 生成的数据集实现了94%的标签精度。 然后,我们证明,使用数据集进行微调后,三个大型语言模型的性能显着提高了可重复性导向的情绪分类。 该数据集为大规模评估机器学习论文的可重复性奠定了基础。 用于生成和分析数据集的 CC30k 数据集和 Jupyter 笔记本可在 https : / /github.com/lamps-lab/CC30k 公开查阅。

Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with ...