Hallucinate or Memorize? The Two Sides of Probabilistic Learning in Large Language Models
Junichiro Niimi
大型语言模型(LLM)越来越多地应用于广泛的任务,从自然语言理解到代码生成。 虽然它们也被用来协助引用推荐,但不存在的论文的幻觉仍然是一个主要问题。 在先前研究的基础上,本研究假设LLM正确生成书目记录的能力取决于基础知识是产生还是记忆,高引用的论文(即更频繁地出现在预训练语料库中)显示较低的幻觉率。 因此,我们假设引文计数作为训练数据冗余的代理(即给定的书目记录出现在预训练语料库中的频率),并研究引用频率如何影响LLM输出中的幻觉引用。 使用GPT-4.1,我们在20个计算机科学领域生成并手动验证了100次引用,并通过生成和真实元数据之间的余辛相似性来测量事实一致性。 结果显示,(i)引用计数与事实准确性密切相关,(ii)书目信息几乎被逐字记录超过约1000次引用,以及(iii)当多篇高度引用的论文共享相似内容时,会发生记忆干扰。 这些发现表明了广义转向记忆的阈值,高度引用的论文几乎逐字地保留在模型中。
Large language models (LLMs) have been increasingly applied to a wide range of tasks, from natural language understanding to code generation. While they have also been used to assist in citation recommendation, the hallucination of non-existent papers remains a major issue. Building on prior studies, this study hypothesizes that an LLM's ability to correctly produce bibliographic records depends on whether the underlying knowledge is generated or memorized, with highly cited papers (i.e., more f...