42digest首页
领导:LLM增强引擎为作者消歧义

LEAD: LLM-enhanced Engine for Author Disambiguation

Giusy Giulia Tuccari, Lorenzo Giammei, Andrea Giovanni Nuzzolese, Misael Mongiovì, Antonio Zinilli, Francesco Poggi

arXiv
2025年11月10日

作者名称消歧义(AND)是书目度量和科学计量学的长期挑战,因为名称模糊性破坏了书目数据库的准确性和研究评估的可靠性。 这项研究解决了跨源消歧义的问题,将意大利学术界官方登记处CercaUniversità的学术职业记录与Scopus的作者简介联系起来。 我们引入了LEAD(LLM增强型作者消歧义引擎),这是一种新颖的混合框架,将通过大型语言模型(LLM)提取的语义特征与来自共同作者和引用网络的结构证据相结合。 使用606个模棱两可案例的黄金标准,我们比较了五种方法:(一) 在共同作者网络上的标签传播;(二) 引文网络上的整编耦合;(三) 独立的基于LLM的方法;(iv) LLM丰富的配置;(v) 拟议的混合管道。 LEAD实现了最佳性能(F1 = 96.7%,精度=95.7%),计算成本低于完整的LLM模型。 书目耦合成为最快和最强的单一来源方法。 这些发现表明,在选择性混合策略中集成语义和结构信号为跨数据库作者识别提供了强大且可扩展的解决方案。 除了意大利的案例之外,这项工作还强调了基于LLM的混合方法在科学分析中提高数据质量和可靠性的潜力。

Author Name Disambiguation (AND) is a long-standing challenge in bibliometrics and scientometrics, as name ambiguity undermines the accuracy of bibliographic databases and the reliability of research evaluation. This study addresses the problem of cross-source disambiguation by linking academic career records from CercaUniversità, the official registry of Italian academics, with author profiles in Scopus. We introduce LEAD (LLM-enhanced Engine for Author Disambiguation), a novel hybrid framework...