AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework for Gradient-Guided Resource Allocation in LLMs
David McCoy, Yulun Wu, Zachary Butzin-Dozier
这篇立场文件挑战了主导人工智能研究的“扩展原教旨主义”,其中模型规模和计算的无限制增长导致了不可持续的环境影响和资源不平等的扩大。 我们认为,LLM开发应该从根本上重新定位于每资源的能力,而不是单独的能力。 我们提出了一个理论框架,证明以梯度影响模式为指导的资源配置决策可以极大地提高整个AI生命周期的效率。 我们的分析显示,在基于变压器的模型中,一小部分参数产生超大影响(遵循重尾分布),出现了三个关键见解:(1)仅更新高影响力参数严格优于每资源性能的全参数调优;(2)简单的梯度规范为识别这些高影响力组件提供了计算高效的代理;(3)协调参数和数据选择产生乘数效率增加,可能减少资源。 在这些理论基础上,我们提出了为基础开发人员提供两个阶段的范式边际回归预训练,并影响梯度蓝图所弥合的下游用户的引导适应,元数据描述了哪些参数对各种任务最重要的。 这种能力每资源视角将曾经被认为是务实的硬件变通办法转变为理论上的最佳策略,使获得尖端人工智能能力的民主化,同时显著降低对环境的影响。 通过将资源意识嵌入到我们如何开发、适应和评估模型中,我们可以重塑人工智能朝着更可持续和公平的未来的进步。
This position paper challenges the "scaling fundamentalism" dominating AI research, where unbounded growth in model size and computation has led to unsustainable environmental impacts and widening resource inequality. We argue that LLM development should be fundamentally reoriented toward capability-per-resource rather than capability alone. We present a theoretical framework demonstrating that resource-allocation decisions guided by gradient influence patterns can dramatically improve efficienc...