Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models
Igor Halperin
大语言模型(LLMs)的普及受到幻觉问题的挑战,这是指模型生成非事实、无意义或不忠实文本的关键故障模式。本文提出语义差异度量(SDM),一种用于检测忠实性幻觉(即LLMs响应与输入上下文严重偏离的事件)的新型轻量级框架。我们特别关注这类LLM错误的一种具体表现——虚构响应,定义为与用户查询任意且语义错位的回答。现有方法如语义熵通过测量对单一固定提示的回答多样性来测试任意性。我们的SDM框架通过更具提示感知能力的方式改进了这一点:我们不仅测量多个回答之间的一致性,还测量对原始提示的多个语义等价复述之间的一致性,从而测试更深层次的任意性。在方法上,我们使用句子嵌入的联合聚类来创建提示和答案的共享主题空间。提示与响应之间主题共现的热图可视为用户-机器对话的量化二维可视化。然后我们计算一套信息论指标来测量提示与响应之间的语义差异。我们的实用评分𝒮_H结合了Jensen-Shannon散度和Wasserstein距离来量化这种差异,高分表示存在忠实性幻觉。此外,我们发现KL散度KL(Answer || Prompt)是语义探索的有力指标,这是区分不同生成行为的关键信号。这些指标进一步组合成"语义箱",一个用于分类LLM响应类型(包括危险的自信虚构)的诊断框架。
The proliferation of Large Language Models (LLMs) is challenged by hallucinations, critical failure modes where models generate non-factual, nonsensical or unfaithful text. This paper introduces Semantic Divergence Metrics (SDM), a novel lightweight framework for detecting Faithfulness Hallucinations – events of severe deviations of LLMs responses from input contexts. We focus on a specific implementation of these LLM errors, confabulations, defined as responses that are arbitrary and semantical...