42digest首页
机器学习引导内存优化 DLRM 分层内存

Machine Learning-Guided Memory Optimization for DLRM Inference on Tiered Memory

Jie Ren, Bin Ma, Shuangyan Yang, Benjamin Francis, Ehsan K. Ardestani, Min Si, Dong Li

arXiv
2025年11月11日

深度学习推荐模型(DLRM)在工业中广泛使用,其内存容量要求达到TB级。 分层内存架构提供了一个具有成本效益的解决方案,但由于复杂的嵌入访问模式,在嵌入矢量放置方面引入了挑战。 我们提出了RecMG,一种机器学习(ML)引导系统,用于在分层内存上进行矢量缓存和预取。 RecMG 准确预测了具有长重用距离或很少重用的嵌入向量的访问。 RecMG的设计侧重于通过解决数据标签中的独特挑战和导航嵌入矢量放置的搜索空间,使ML在DLRM推理的背景下可行。 通过采用单独的ML模型进行缓存和预取,加上新颖的可微分损失函数,RecMG缩小了预取回搜索空间,并最大限度地减少了按需获取。 与最先进的时间、空间和基于 ML 的预选器相比,RecMG 的按需取货量分别减少了2.2倍、2.8倍和1.5倍。 在工业规模的 DLRM 推理场景中,RecMG 有效地将端到端 DLRM 推理时间缩短了高达 43%。

Deep learning recommendation models (DLRMs) are widely used in industry, and their memory capacity requirements reach the terabyte scale. Tiered memory architectures provide a cost-effective solution but introduce challenges in embedding-vector placement due to complex embedding-access patterns. We propose RecMG, a machine learning (ML)-guided system for vector caching and prefetching on tiered memory. RecMG accurately predicts accesses to embedding vectors with long reuse distances or few reuse...