The Configuration Wall: Characterization and Elimination of Accelerator Configuration Overhead
Josse Van Delm, Anton Lydike, Joren Dumoulin, Jonas Crols, Xiaoling Yi, Ryan Antonio, Jackson Woodruff, Tobias Grosser, Marian Verhelst
当代计算平台越来越多地将计算内核从CPU卸载到集成的硬件加速器,以达到每瓦的最大性能。 不幸的是,CPU在设置控制和同步上花费的时间随着加速器复杂性的增加而增加。 对于具有复杂加速器的系统,这意味着性能可以绑定配置。 更快的加速器受到这种被忽视的性能下降的严重影响,我们称之为配置墙。 之前的工作证明了这面墙,并提出了减少配置开销的特设解决方案。 然而,这些解决方案并非普遍适用,也没有提供对性能下降的根本原因的全面见解。 在这项工作中,我们首先引入了一个广泛应用的众所周知的屋顶线模型变体,以量化系统性能何时绑定。 为了将系统移出性能约束区域,我们随后提出了一个特定于域的编译器抽象和相关优化传递。 我们在 MLIR 编译器框架中实现抽象和传递,在开源架构上运行优化的二进制文件,以证明其有效性和通用性。 实验通过消除冗余配置周期和自动隐藏剩余配置周期,在开源OpenGeMM系统上演示了2倍的地理均性能提升。 我们的工作提供了加速器性能如何受到设置机制影响的关键见解,从而促进了自动代码生成,以规避配置墙。
Contemporary compute platforms increasingly offload compute kernels from CPU to integrated hardware accelerators to reach maximum performance per Watt. Unfortunately, the time the CPU spends on setup control and synchronization has increased with growing accelerator complexity. For systems with complex accelerators, this means that performance can be configuration-bound. Faster accelerators are more severely impacted by this overlooked performance drop, which we call the configuration wall. Prio...