42digest
内省增长:自动推进LLM技术判断的专业知识

Introspective Growth: Automatically Advancing LLM Expertise in Technology Judgment

Siyang Wu, Honglin Bao, Nadav Kunievsky, James A. Evans

arXiv
2025年5月18日

大型语言模型(LLM)越来越多地显示出概念理解的迹象,但其内部知识仍然潜伏,结构松散,难以访问或评估。 我们建议将自我质疑作为一种轻量级和可扩展的策略,以提高LLM的理解,特别是在成功依赖于精细语义区分的领域。 为了评估这种方法,我们引入了一个具有挑战性的新基准,即130万2015年后计算机科学专利对,其特点是密集的技术术语和战略复杂的写作。 基准集中在一个配对的差异化任务上:一个模型能区分密切相关但实质上不同的发明吗? 我们表明,促使 LLM 生成和回答自己的问题——针对任务所需的背景知识——显著提高了性能。 这些自我生成的问题和答案激活了其他未充分利用的内部知识。 允许LLM从外部科学文本中检索答案进一步提高了性能,这表明模型知识被压缩并且缺乏训练数据的完全丰富性。 我们还发现,思想链的提示和自我质疑是趋同的,尽管自我质疑对于提高对技术概念的理解仍然更有效。 值得注意的是,我们发现提示不对称:较小的模型通常为中型模型产生更基本,更开放,更一致的问题,而不是具有更好理解的大型模型,揭示了跨模型协作的新策略。 总之,我们的发现将自我质疑确立为自动提高LLM理解的实用机制,特别是在知识稀少和代表性不足的领域,以及内部和外部知识的组织方式的诊断探索。

Large language models (LLMs) increasingly demonstrate signs of conceptual understanding, yet much of their internal knowledge remains latent, loosely structured, and difficult to access or evaluate. We propose self-questioning as a lightweight and scalable strategy to improve LLMs' understanding, particularly in domains where success depends on fine-grained semantic distinctions. To evaluate this approach, we introduce a challenging new benchmark of 1.3 million post-2015 computer science patent ...