Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency
Mohammadjavad Mehditabar, Saurabhsingh Rajput, Antonio Mastropaolo, Tushar Sharma
人工智能技术的迅速发展及其在软件开发中的加速采用,需要系统地评估其对环境的影响以及功能正确性。 虽然之前的研究已经研究了大型语言模型的可持续性,但现有方法缺乏系统框架来评估代码语言模型(CLM)中的准确性能量权衡。 在本文中,我们提出了一个框架,BRACE,以统一规模的能源效率和功能正确性(称为准确性)对CLM进行基准测试。 我们为22个代码生成和总结任务的最先进的模型进行了基准测试,提出了两种评级方法:同心增量评级圈(CIRC)和观察期望评级(OTER)。 CIRC提供确定性的欧几里得排名,静态权衡对异常值来说是稳健的,OTER提供具有动态权衡的趋势感知评估,捕捉能量和准确性之间的复杂相关性,每个都提供独特的视角并以独特的方式解决问题。 这些评级方法使我们能够对LLM进行1-5级评分,以反映他们在能源效率和功能正确性方面的综合能力。 我们的分析揭示了模型通常在代码总结任务中表现更好,因为它们不是强制生成基于语法和语法正确的输出。 此外,我们发现模型的大小不会对其评级产生重大影响,这表明如果模型有效地利用其参数,可以在这些尺度上排名更高。 拟议的BRACE框架使从业者能够根据部署优先级进行基于证据的模型选择,以平衡可持续性与任务要求,指导评级选择 - 用于确定性比较的CIRC或趋势感知评估的OTER。
The rapid advancement of AI technologies and their accelerated adoption in software development necessitates a systematic evaluation of their environmental impact alongside functional correctness. While prior studies have examined sustainability in large language models, existing approaches lack systematic frameworks for evaluating accuracy-energy trade-offs in Code Language Models (CLMs). In this paper, we present a framework, BRACE, to benchmark CLMs on a unified scale of energy efficiency and...