Using language models to label clusters of scientific documents
Dakota Murray, Chaoqun Ni, Weiye Gu, Trevor Hubbard
科学文档集群的自动标签生成是书目工作流中的常见任务。 传统上,标签是通过连接集群文档的区分特征而形成的;虽然简单,但这种方法通常产生简洁且难以解释的标签。 生成式语言模型(如ChatGPT)的出现和广泛可访问性,使人们能够自动生成描述性和人类可读性的标签,这些标签与人类注释者所分配的标签非常相似。 语言模型标签生成已经在书目数据库和分析工作流程中广泛使用。 然而,它的迅速采用已经超过了理论,实践和经验基础。 在这项研究中,我们解决了自动化标签生成任务,并做出了四个关键的贡献:(1)我们定义了两种不同的标签类型:特征和描述性,以及具有相关任务的对比描述性标签;(2)我们提供了一个正式的描述性标签,澄清了重要的步骤和设计注意事项;(3)我们提出了标签生成的结构化工作流程,并概述了在书目工作流中使用其使用的实际考虑因素;(4)我们开发了一个评估性框架,以评估其设计模型。 这些贡献共同阐明了描述性标签生成任务,为使用语言模型建立了实证基础,并提供了一个框架来指导未来的设计和评价工作。
Automated label generation for clusters of scientific documents is a common task in bibliometric workflows. Traditionally, labels were formed by concatenating distinguishing characteristics of a cluster's documents; while straightforward, this approach often produces labels that are terse and difficult to interpret. The advent and widespread accessibility of generative language models, such as ChatGPT, make it possible to automatically generate descriptive and human-readable labels that closely ...