ShiQ: Bringing back Bellman to LLMs
Pierre Clavier, Nathan Grinsztajn, Raphael Avalos, Yannis Flet-Berliac, Irem Ergun, Omar D. Domingues, Eugene Tarassov, Olivier Pietquin, Pierre H. Richemond, Florian Strub, Matthieu Geist
使用强化学习(RL)对预训练的大型语言模型(LLM)进行微调通常作为直接策略优化。 这种方法自然受到青睐,因为它有效地改进了预训练的LLM,被视为初始政策。 另一种RL范式,Q-学习方法,在LLM社区中受到的关注要少得多,同时在各种非LLM RL任务中表现出重大成功。 特别是,Q-learning有效性来自其采样效率和离线学习能力,鉴于LLM采样的计算成本很高,这一点尤其有价值。 然而,由于LLM的特殊性,天真地将Q-学习风格的更新应用于模型的日志是无效的。 我们的核心贡献是从Bellman方程中得出理论上的接地损失函数,以使Q-学习方法适应LLM。 为此,我们仔细调整了RL文献的见解,以考虑LLM特定特性,确保日志成为可靠的Q值估计值。 然后,我们使用此损失来构建一个实用的算法,ShiQ for Shifted-Q,它支持离线,令牌明智的学习,同时保持简单的实现。 最后,我们在合成数据和真实世界基准(例如UltraFeedback和BFCL-V3)上评估ShiQ,证明其在单转和多转LLM设置中的有效性
The fine-tuning of pre-trained large language models (LLMs) using reinforcement learning (RL) is generally formulated as direct policy optimization. This approach was naturally favored as it efficiently improves a pretrained LLM, seen as an initial policy. Another RL paradigm, Q-learning methods, has received far less attention in the LLM community while demonstrating major success in various non-LLM RL tasks. In particular, Q-learning effectiveness comes from its sample efficiency and ability t...