Correlation Dimension of Auto-Regressive Large Language Models
Xin Du, Kumiko Tanaka-Ishii
大型语言模型(LLM)在自然语言生成方面取得了显着进展,但它们继续表现出令人费解的行为 - 例如重复和不一致 - 即使表现出低困惑。 这突出了传统评估指标的一个关键限制,该指标强调本地预测的准确性,同时忽略远程结构复杂性。 我们引入了相关性维度,一种自我相似性的分形几何测量,以量化语言模型所感知的文本的认识论复杂性。 该测量捕获了语言的分层递归结构,在统一框架中连接本地和全球属性。 通过广泛的实验,我们表明相关性维度(1)在预训练期间揭示了三个不同的阶段,(2)反映了上下文依赖的复杂性,(3)表明模型倾向于幻觉,(4)可靠地检测生成文本中的多种形式的退化。 该方法具有计算效率,对量化(低至4位精度)进行建模,广泛适用于自重架构(例如Transformer和Mamba),并提供对LLM生成动力学的新见解。
Large language models (LLMs) have achieved remarkable progress in natural language generation, yet they continue to display puzzling behaviors – such as repetition and incoherence – even when exhibiting low perplexity. This highlights a key limitation of conventional evaluation metrics, which emphasize local prediction accuracy while overlooking long-range structural complexity. We introduce correlation dimension, a fractal-geometric measure of self-similarity, to quantify the epistemological co...