PIMfused: Near-Bank DRAM-PIM with Fused-layer Dataflow for CNN Data Transfer Optimization
Simei Yang, Xinyu Shi, Lu Zhao, Yunyu Ling, Quanjun Wang and Francky Catthoor
近银行内存处理(PIM)架构集成了接近DRAM库的处理核心(PIMcores),以减轻非芯片内存访问的高成本。 当在DRAM-PIM上加速卷积神经网络(CNN)时,性能通常受到跨银行(或跨PIMcore)数据传输的限制,这些数据传输是由传统的逐层数据流诱导的,该数据流在连续的CNN层中强制执行银行间(或PIMcore间)依赖关系。 为了应对这一挑战,我们提出了PIMfused,这是一种硬件软件共同设计,可以实现在近银行DRAM-PIM中端到端的CNN执行融合层数据流。 通过采用熔融层数据流,PIMfused改善了数据重用,更重要的是打破了银行间数据依赖,从而在不牺牲银行级并行性的情况下优化跨银行数据传输。 我们研究缓冲尺寸和PIMcore并行性(1-bank vs.)的影响。 4bank)使用端到端的ResNet18的PIMfused。 我们提出了三个关键要点,并表明通过4银行PIMcores,PIMfused在类似GDDR6-AiM的基线上实现了整体PPA收益,将内存周期降至30.6%,能量降至83.4%,面积达到76.5%。
Near-bank Processing-in-Memory (PIM) architectures integrate processing cores (PIMcores) close to DRAM banks to mitigate the high cost of off-chip memory accesses. When accelerating convolutional neural network (CNN) on DRAM-PIM, performance is often constrained by cross-bank (or cross-PIMcore) data transfers, which are induced by the conventional layer-by-layer dataflow that enforces inter-bank (or inter-PIMcore) dependencies across successive CNN layers. To address this challenge, we propose P...