42digest
减肥在协同过滤中的作用:人气视角

On the Role of Weight Decay in Collaborative Filtering: A Popularity Perspective

Donald Loveland, Mingxuan Ju, Tong Zhao, Neil Shah, Danai Koutra

arXiv
2025年5月16日

协同过滤(CF)通过将历史用户-物品交互的信息编码到密集的ID嵌入表,从而实现大规模的推荐系统。 然而,随着嵌入表的增长,封闭式解决方案变得不切实际,通常需要使用迷你批次梯度下降进行训练。 尽管在设计用于训练CF模型的损耗函数方面进行了广泛的工作,但我们认为这些管道的一个核心组成部分被严重忽视:重量衰减。 获得高性能模型通常需要仔细调整重量衰减,无论损失如何,但其必要性尚不清楚。 在这项工作中,我们质疑为什么重量衰减在CF管道中至关重要,以及它如何影响训练。 通过理论和实证分析,我们惊奇地发现,重量衰减的主要功能是将流行信息编码到嵌入向量的大小。 此外,我们发现调整重量衰减是一种粗糙的非线性旋钮,可以影响对流行或不受欢迎的项目的偏好。 基于这些发现,我们提出了用于嵌入Magnitudes的Pularity-awaRe初始化策略,这是一种简单而有效的解决方案,以简化高性能CF模型的训练。 PRISM预先编码通常通过重量衰减学到的流行信息,消除了其必要性。 我们的实验表明,PRISM将性能提高了高达4.77次的训练时间,达到38.48,此外,我们将PRISM参数化,以调节初始化强度,提供具有成本效益和有意义的策略,以减轻流行偏差。

Collaborative filtering (CF) enables large-scale recommendation systems by encoding information from historical user-item interactions into dense ID-embedding tables. However, as embedding tables grow, closed-form solutions become impractical, often necessitating the use of mini-batch gradient descent for training. Despite extensive work on designing loss functions to train CF models, we argue that one core component of these pipelines is heavily overlooked: weight decay. Attaining high-performi...