wa-hls4ml: A Benchmark and Surrogate Models for hls4ml Resource and Latency Estimation
Benjamin Hawks, Jason Weitz, Dmitri Demler, Karla Tame-Narvaez, Dennis Plotnikov, Mohammad Mehdi Rahimifar, Hamza Ezzaoui Rahali, Audrey C. Therrien, Donovan Sproule, Elham E Khoda, Keegan A. Smith, Russell Marroquin, Giuseppe Di Guglielmo, Nhan Tran, Javier Duarte, Vladimir Loncar
随着机器学习(ML)越来越多地在硬件中实现,以应对科学应用中的实时挑战,高级工具链的开发大大减少了在各种设计上进行重复所需的时间。 这些进步解决了重大障碍,但也暴露了新的挑战。 例如,以前不被认为是瓶颈的过程,如硬件合成,正在成为设计快速迭代的限制因素。 为了减轻这些新出现的限制,已经进行了多次努力,以开发基于ML的代理模型,该模型估计ML加速器架构的资源使用情况。 我们介绍了 wa-hls4ml,这是 ML 加速器资源和延迟估计的基准,以及其相应的初始数据集,该数据集包含超过 680,000 个完全连接和卷积神经网络,所有这些神经网络都使用 hls4ml 合成并针对 Xilinx FPGA。 该基准评估资源和延迟预测器的性能,这些模型预测器与几个常见的ML模型架构(主要来自科学领域)作为示例模型,以及数据集子集的平均性能。 此外,我们还引入了基于GNN和变压器的代理模型,用于预测ML加速器的延迟和资源。 我们介绍了模型的架构和性能,并发现模型通常预测合成测试数据集上合成资源中75%百分位的延迟和资源。
As machine learning (ML) is increasingly implemented in hardware to address real-time challenges in scientific applications, the development of advanced toolchains has significantly reduced the time required to iterate on various designs. These advancements have solved major obstacles, but also exposed new challenges. For example, processes that were not previously considered bottlenecks, such as hardware synthesis, are becoming limiting factors in the rapid iteration of designs. To mitigate the...