Lit Silicon: A Case Where Thermal Imbalance Couples Concurrent Execution in Multiple GPUs
Marco Kurzynski, Shaizeen Aga, Di Wu
GPU系统越来越多地大规模为现代数据中心供电。 尽管性能很高,但GPU系统在节点和集群级别上存在性能变化。 这种性能差异对高性能计算和人工智能工作负载都产生了重大影响,例如尖端的大型语言模型(LLM)。 我们分析运行LLM训练的单节点多GPU系统的性能,并观察到内核级性能变化与并发计算通信(C3)高度相关,C3是一种在GPU之间重叠计算和通信以获得性能增益的技术。 然后,我们进一步说明,热诱导的交错耦合与C3会影响性能变化,被称为Lit Silicon效应。 Lit Silicon描述了在多GPU节点中,GPU之间的热不平衡引入了节点级别的跨流式GPU,这反过来又减慢了领导者GPU的速度。 Lit Silicon导致节点级性能变化和低效率,自下而上地影响整个数据中心。 我们为Lit Silicon提出了分析性能和功率模型,以了解潜在的系统级收益。 我们进一步设计简单的检测和缓解技术,以有效解决Lit Silicon问题,并评估三种不同的电源管理解决方案,包括GPU热设计功率下的功率优化,节点级GPU功率封顶下的性能优化,以及节点级CPU功率下的性能优化。 我们在两个 LLM 训练框架下的两个 AMD InstinctTM MI300X GPU 系统上进行两个工作负载的实验,并观察高达 6% 的性能和 4% 的功率提升,可能为数据中心节省数亿美元。 我们的解决方案几乎是免费午餐,可以毫不费力地在数据中心采用作为新的节点级电源管理层。
GPU systems are increasingly powering modern datacenters at scale. Despite being highly performant, GPU systems suffer from performance variation at the node and cluster levels. Such performance variation significantly impacts both high-performance computing and artificial intelligence workloads, such as cutting-edge large language models (LLMs). We analyze the performance of a single-node multi-GPU system running LLM training, and observe that the kernel-level performance variation is highly co...