Evaluating and Addressing Fairness Across User Groups in Negative Sampling for Recommender Systems
Yueqing Xuan, Kacper Sokol, Mark Sanderson, Jeffrey Chan
对隐式反馈数据进行培训的推荐系统依靠负抽样来区分每个用户的正面项目和负面项目。 由于大多数积极互动来自一小部分活跃用户,因此负面采样者经常受到数据不平衡的影响,导致他们为突出用户选择更多信息性的否定,同时为不那么活跃的用户提供不太有用的负面信息。 这导致不活跃的用户在培训过程中进一步边缘化,从而收到低劣的建议。 在本文中,我们进行了一项全面的实证研究,证明最先进的负面抽样策略为活跃用户提供了比对不活跃的用户更准确的建议。 我们还发现,增加每个正项目的负面样本数量可以提高平均性能,但好处在用户群体中分布不均,活跃用户在非活动用户遭受性能下降时遇到性能增益。 为了解决这个问题,我们提出了一个特定于组的负抽样策略,将较小的负比分配给不活跃的用户组,并将较大的负比分配给活动组。 对8个负采样器的实验表明,与统一的全球比率相比,我们的方法提高了用户方面的公平和性能。
Recommender systems trained on implicit feedback data rely on negative sampling to distinguish positive items from negative items for each user. Since the majority of positive interactions come from a small group of active users, negative samplers are often impacted by data imbalance, leading them to choose more informative negatives for prominent users while providing less useful ones for users who are not so active. This leads to inactive users being further marginalised in the training proces...