活水快报 - 42Digest

文本到图像扩散微调的简单有效的强化学习方法

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin, Sreya Dutta Roy, Harrie Oosterhuis, Maarten de Rijke, Satya Narayan Shukla

arXiv

2025年3月2日

基于强化学习(RL)的微调已经成为将扩散模型与黑箱目标对齐的有力方法。接近策略优化(PPO)是策略优化方法的最流行的选择。虽然在性能方面有效,但PPO对超参数高度敏感,并且涉及大量的计算开销。另一方面,REINFORCE减轻了一些计算复杂性,如高内存开销和敏感的超参数调优,但由于高变量和样本效率低下,具有次优性能。虽然可以通过每个输入提示的多个操作和使用基线校正术语来减少REINFORCE的方差,但它仍然受到样本效率低下的影响。为了应对这些挑战,我们系统地分析了REINFORCE和PPO之间的效率有效性权衡,并提出了一次性PPO(LOOP),这是一种用于扩散微调的新方法RL。 LOOP结合了REINFORCE的减差技术,例如每个输入提示的多个操作和基线校正项,以及通过剪切和重要性采样PPO的稳健性和样品效率。我们的结果表明,LOOP有效地改进了各种黑箱目标的扩散模型,并在计算效率和性能之间实现了更好的平衡。

Reinforcement learning (RL)-based fine-tuning has emerged as a powerful approach for aligning diffusion models with black-box objectives. Proximal policy optimization (PPO) is the most popular choice of method for policy optimization. While effective in terms of performance, PPO is highly sensitive to hyper-parameters and involves substantial computational overhead. REINFORCE, on the other hand, mitigates some computational complexities such as high memory overhead and sensitive hyper-parameter ...

机器学习人工智能计算机视觉与模式识别

View Source