One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models
Aleksandr Razin, Danil Kazantsev, Ilya Makarov
扩散模型难以扩展,超出了其训练分辨率,因为直接的高分辨率采样是缓慢且昂贵的,而后高分辨率(ISR)通过解码后操作引入工件和额外的延迟。 我们展示了Latent Upscaler Adapter(LUA),这是一个轻量级模块,在最终VAE解码步骤之前直接在生成器的潜在代码上执行超分辨率。 LUA作为滴入组件集成,无需对基本模型或额外的扩散阶段进行修改,并通过在潜在空间中的单个前馈传递实现高分辨率合成。 具有刻度特定像素洗牌头的共享Swin式主干板支持2x和4x因子,并与图像空间SR基线保持兼容,在近3倍的下层解码和升级时间下达到可比感知质量(从512 px到1024 px仅增加+0.42 s,而使用相同SwinIR架构的像素空间SR为1.87秒)。 此外,LUA在不同的VAE的潜在空间中表现出强烈的概括,使得无需从头开始重新训练即可轻松部署每个新的解码器。 广泛的实验表明,LUA与原生高分辨率生成的保真度紧密匹配,同时为现代扩散管道中的可扩展,高保真图像合成提供了实用而高效的路径。
Diffusion models struggle to scale beyond their training resolutions, as direct high-resolution sampling is slow and costly, while post-hoc image super-resolution (ISR) introduces artifacts and additional latency by operating after decoding. We present the Latent Upscaler Adapter (LUA), a lightweight module that performs super-resolution directly on the generator's latent code before the final VAE decoding step. LUA integrates as a drop-in component, requiring no modifications to the base model ...