A Remarkably Efficient Paradigm to Multimodal Large Language Models for Sequential Recommendation
Qiyong Zhong, Jiajie Su, Ming Yang, Yunshan Ma, Xiaolin Zheng, Chaochao Chen
顺序建议(SR)根据用户的历史行为预测用户未来的交互。 大型语言模型(LLM)的兴起带来了强大的生成和推理能力,显着增强了SR性能,而多模态LLM(MLLM)通过引入图像和交互关系等数据进一步扩展了这一点。 然而,关键问题仍然存在,即(a) 由冗长和冗余的描述引起的次优项目表示,导致训练和推理效率低下;(b) 与模式相关的认知偏差,因为LLM主要在文本数据上预先训练,限制了它们有效整合和利用非文本模式的能力;(c) 在长交互序列中削弱顺序感知,其中注意力机制难以捕获早期的交互。 为了解决这些问题,我们提出了Speeder,这是一种基于MLLM的高效SR范式,具有三个关键创新:1)多模态表示压缩(MRC),它将项目属性浓缩成简洁而翔实的令牌,降低冗余和计算成本; 2)模式感知渐进优化(MPO),实现多模态表示的逐步学习; 3)顺序位置感知增强(SPAE),提高LLM在相对和相对的序列中捕获相对和连续的能力。 现实世界数据集的广泛实验证明了Speeder的有效性和效率。 Speeder将训练速度提高到原始训练的250%,同时将亚马逊数据集的推理时间缩短至25%。
Sequential recommendations (SR) predict users' future interactions based on their historical behavior. The rise of Large Language Models (LLMs) has brought powerful generative and reasoning capabilities, significantly enhancing SR performance, while Multimodal LLMs (MLLMs) further extend this by introducing data like images and interactive relationships. However, critical issues remain, i.e., (a) Suboptimal item representations caused by lengthy and redundant descriptions, leading to inefficienc...