GPU Cluster Scheduling for Network-Sensitive Deep Learning
Aakash Sharma, Vivek M. Bhasi, Sonali Singh, George Kesidis, Mahmut T. Kandemir, Chita R. Das
我们为分布式 DL (DDL) 工作负载提出了一种新的 GPU-cluster 调度程序,该调度器可以根据 DDL 作业对预期通信网络延迟的敏感性,实现基于接近的 GPU 资源整合。 我们的调度程序由三个主要组件组成:(i)一种经典的延迟调度算法,以促进工作安置和整合;(ii)网络敏感的作业抢占策略;(iii)优化延迟计时器的机制,以优化有效的延迟调度。 此外,为了为大规模实验提供具有成本效益的方法,我们开发了一个数据驱动的DDL集群仿真平台。 使用模拟平台,我们将与现实世界工作负载痕迹上的几个最先进的替代方案进行比较,以展示我们设计的好处。 与流行的基于整合的调度方法相比,我们的调度程序可以在端到端的Makespan中提供高达69%的改进,用于培训所有工作,同时将平均工作完成时间减少高达83%,并在拥挤的网络条件下将通信开销减少高达98%。
We propose a novel GPU-cluster scheduler for distributed DL (DDL) workloads that enables proximity based consolidation of GPU resources based on the DDL jobs' sensitivities to the anticipated communication-network delays. Our scheduler consists of three major components: (i) a classical delay scheduling algorithm to facilitate job placement and consolidation; (ii) a network-sensitive job preemption strategy; and (iii) an "auto-tuner" mechanism to optimize delay timers for effective delay schedul...