42digest首页
SparserRM:使用稀疏自动解码器进行轻量级偏好建模

SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder

Dengcan Liu, Jiahao Li, Zheren Fu, Yi Tu, Jiajun Li, Zhendong Mao, Yongdong Zhang

arXiv
2025年11月11日

奖励模型(RM)是大型语言模型(LLM)培训后的核心组成部分,作为人类偏好评估和指导模型对齐的代理。 然而,由于依赖大规模偏好说明和微调LLM的高成本,在有限的资源下培训可靠的RM仍然具有挑战性。 为了解决这个问题,我们提出了SpalserRM,它利用Sarse Autoencoder(SAE)提取模型表示中编码的与偏好相关的信息,从而构建轻量级和可解释的奖励模型。 SparseRM首先使用SAE将LLM表示分解为可解释的方向,以捕获与偏好相关的功能。 然后将表示投射到这些方向上以计算对齐分数,从而量化表示中每个偏好特征的强度。 一个简单的奖励头聚合这些分数来预测偏好分数。 对三个偏好建模任务的实验表明,SparsreRM在使用不到1%的可训练参数的同时,实现了优于大多数主流RM的性能。 此外,它还无缝集成到下游对齐管道中,突出了其高效对齐的潜力。

Reward models (RMs) are a core component in the post-training of large language models (LLMs), serving as proxies for human preference evaluation and guiding model alignment. However, training reliable RMs under limited resources remains challenging due to the reliance on large-scale preference annotations and the high cost of fine-tuning LLMs. To address this, we propose SparseRM, which leverages Sparse Autoencoder (SAE) to extract preference-relevant information encoded in model representation...