活水快报 - 42Digest

主题识别在LLM输入输出对通过信息透镜瓶颈

Topic Identification in LLM Input-Output Pairs through the Lens of Information Bottleneck

Igor Halperin

arXiv

2025年8月26日

大型语言模型(LLM)容易出现关键的故障模式,包括内在的忠实幻觉(也称为混淆),其中响应在语义上偏离了提供的上下文。旨在检测这一点的框架,如语义分量表(SDM),依赖于识别提示和响应之间共享的潜在主题,通常通过将几何聚类应用于其句子嵌入。这会产生脱节,因为主题针对空间接近进行了优化,而不是下游信息理论分析。在本文中,我们通过开发基于确定性信息瓶颈(DIB)的原理主题识别方法来弥合这一差距,用于几何聚类。我们的主要贡献是将DIB方法转变为高维数据的实际算法,将其棘手的KL发散项替换为计算效率的上限。由此产生的方法,我们配音UDIB,可以解释为一个熵规范化和健壮的K-means版本,它本质上有利于一个吝啬的信息集群。通过将UDIB应用于LLM提示和响应嵌入的联合聚类,我们生成了一个共享的主题表示,该主题表示不仅在空间上一致,而且从根本上结构,可以最大限度地提供有关提示响应关系的信息。这为SDM框架提供了优越的基础,并为检测混淆提供了一个新颖,更敏感的工具。

Large Language Models (LLMs) are prone to critical failure modes, including intrinsic faithfulness hallucinations (also known as confabulations), where a response deviates semantically from the provided context. Frameworks designed to detect this, such as Semantic Divergence Metrics (SDM), rely on identifying latent topics shared between prompts and responses, typically by applying geometric clustering to their sentence embeddings. This creates a disconnect, as the topics are optimized for spati...

计算与语言机器学习通用金融学

View Source