42digest首页
EDGC:用于高效LLM培训的熵驱动动态梯度压缩

EDGC: Entropy-driven Dynamic Gradient Compression for Efficient LLM Training

Qingao Yi, Jiaang Duan, Hanwen Hu, Qin Hua, Haiyan Zhao, Shiyou Qian, Dingyu Yang, Jian Cao, Jinghua Tang, Yinghao Yu, Chenzhi Liao, Kangjin Wang, Liping Zhang

arXiv
2025年11月13日

训练大型语言模型(LLM)在计算资源和内存能力方面面临重大挑战。 虽然分布式培训技术有助于缓解这些问题,但它们仍然受到相当大的沟通开销。 现有方法主要依靠静态梯度压缩来提高通信效率;然而,这些方法忽略了训练过程中不断变化的梯度的动态性质,导致性能下降。 通过压缩加速LLM训练而不牺牲性能仍然是一个挑战。 在本文中,我们提出了一个名为EDGC的熵驱动的动态梯度压缩框架。 核心概念是根据梯度熵不断变化的趋势调整LLM训练期间的压缩率,同时考虑到压缩效率和误差。 EDGC由三个关键组件组成。 首先,它采用下采样方法来有效地估计梯度熵,减少计算开销。 其次,它建立了一个理论模型,将压缩率与梯度熵联系起来,从而实现更明智的压缩决策。 最后,基于窗口的调整机制动态调整跨管道阶段的压缩速率,提高通信效率并保持模型性能。 我们在32-NVIDIA-V100集群和64-NVIDIA-H100集群上分别实现了EDGC,以训练GPT2-2.5B和GPT2-12.1B。 结果表明,EDGC显著将通信延迟和培训时间缩短了46.45%和16.13%,同时保持了LLM的准确性。

Training large language models (LLMs) poses significant challenges regarding computational resources and memory capacity. Although distributed training techniques help mitigate these issues, they still suffer from considerable communication overhead. Existing approaches primarily rely on static gradient compression to enhance communication efficiency; however, these methods neglect the dynamic nature of evolving gradients during training, leading to performance degradation. Accelerating LLM trai...