42digest首页
信息容量:通过文本压缩评估大型语言模型的效率

Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression

Cheng Yuan, Jiawei Shao, Chi Zhang, Xuelong Li

arXiv
2025年11月11日

近年来,大型语言模型(LLM)的快速发展及其不断扩大的应用,导致对计算资源的需求激增。 普遍采用测试时间扩展进一步加剧了模型能力与资源消耗之间的紧张关系,突出了推理效率的重要性。 然而,一个统一指标,准确地反映了LLM在不同模型大小和架构中的效率,仍然不存在。 受压缩和智能之间的相关性的激励,我们引入了信息容量,这是一种基于文本压缩性能相对于计算复杂性的模型效率的度量。 更大的模型可以更准确地预测下一个令牌,实现更大的压缩增益,但计算成本更高。 对主流开源模型的实证评估表明,一个系列中不同大小的模型表现出一致的信息容量。 该指标可实现跨模型系列的公平效率比较和模型系列中的准确性能预测。 信息容量的一个显著特点是它包含令牌化效率,这会影响输入和输出令牌计数,但在LLM评估中经常被忽视。 我们评估5个异构数据集上49个模型的信息容量,并观察标记器效率、预训练数据和混合专家架构的影响的一致结果。

Recent years have witnessed the rapid advancements of large language models (LLMs) and their expanding applications, leading to soaring demands for computational resources. The widespread adoption of test-time scaling further aggravates the tension between model capability and resource consumption, highlighting the importance of inference efficiency. However, a unified metric that accurately reflects an LLM's efficiency across different model sizes and architectures remains absent. Motivated by ...