A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin, Sreya Dutta Roy, Harrie Oosterhuis, Maarten de Rijke, Satya Narayan Shukla
基于强化学习(RL)的微调已经成为将扩散模型与黑箱目标对齐的有力方法。 接近策略优化(PPO)是策略优化方法的最流行的选择。 虽然在性能方面有效,但PPO对超参数高度敏感,并且涉及大量的计算开销。 另一方面,REINFORCE减轻了一些计算复杂性,如高内存开销和敏感的超参数调优,但由于高变量和样本效率低下,具有次优性能。 虽然可以通过每个输入提示的多个操作和使用基线校正术语来减少REINFORCE的方差,但它仍然受到样本效率低下的影响。 为了应对这些挑战,我们系统地分析了REINFORCE和PPO之间的效率有效性权衡,并提出了一次性PPO(LOOP),这是一种用于扩散微调的新方法RL。 LOOP结合了REINFORCE的减差技术,例如每个输入提示的多个操作和基线校正项,以及通过剪切和重要性采样PPO的稳健性和样品效率。 我们的结果表明,LOOP有效地改进了各种黑箱目标的扩散模型,并在计算效率和性能之间实现了更好的平衡。
Reinforcement learning (RL)-based fine-tuning has emerged as a powerful approach for aligning diffusion models with black-box objectives. Proximal policy optimization (PPO) is the most popular choice of method for policy optimization. While effective in terms of performance, PPO is highly sensitive to hyper-parameters and involves substantial computational overhead. REINFORCE, on the other hand, mitigates some computational complexities such as high memory overhead and sensitive hyper-parameter ...