Towards a Higher Roofline for Matrix-Vector Multiplication in Matrix-Free HOSFEM
Zijian Cao and Qiao Sun and Tiangong Zhang and Huiyuan Li
现代GPGPU提供了大量的算术吞吐量,但许多科学内核仍然受到内存带宽的限制。 特别是,反复加载预计算辅助数据会浪费丰富的计算资源,同时强调内存层次结构。 一个有希望的策略是用廉价的重新计算来取代内存流量,从而减轻带宽压力,并使应用程序能够更好地利用异构计算单元。 在这种策略的指导下,我们优化了高阶/光谱有限元方法(HOSFEM),这是一种广泛使用的解决PDE的方法。 它的性能很大程度上是由AxLocal决定的,AxLocal是一个无矩阵内核,用于元素-本地矩阵向量乘法。 在AxLocal中,几何因素主导内存访问,同时对计算贡献最小,从而产生带宽瓶颈,限制性能轴线。 为了应对这一挑战,我们提出了第一个实用的、低架空的对三线性和平行元素的几何因子的复计算。 这种重新配方减少了数据移动,提高了可实现的屋顶线,揭示了张量收缩的未开发优化潜力。 借助包括环路展开、Tensor Core 加速和恒定内存利用率在内的硬件感知技术,优化的内核达到了屋顶效率的 85%-100%。 与Nek系列中最先进的实现相比,他们在NVIDIA A100上提供了1.74x-4.10x的加速,在Hygon K100上提供了1.99x-3.78x的加速,从而在完整的HOSFEM基准测试中提高了1.12x-1.40x。 这些结果表明,将算法重制与硬件特定的调优相结合可以消除长期存在的瓶颈,并充分利用大规模高阶模拟的性能潜力。
Modern GPGPUs provide massive arithmetic throughput, yet many scientific kernels remain limited by memory bandwidth. In particular, repeatedly loading precomputed auxiliary data wastes abundant compute resources while stressing the memory hierarchy. A promising strategy is to replace memory traffic with inexpensive recomputation, thereby alleviating bandwidth pressure and enabling applications to better exploit heterogeneous compute units. Guided by this strategy, we optimize the high-order/spec...