A Fourier Space Perspective on Diffusion Models
Fabian Falck, Teodora Pandeva, Kiarash Zahirnia, Rachel Lawrence, Richard Turner, Edward Meeds, Javier Zazo, Sushrut Karmalkar
扩散模型是最先进的生成模型,关于数据模式,如图像,音频,蛋白质和材料。 这些模式在傅里叶域中共享指数衰减方差和幅度的属性。 在加法白噪声的标准去噪扩散概率模型(DDPM)向前过程下,该属性导致高频组件在其信噪比(SNR)上比低频组件更快,更早地损坏。 然后反向过程在高频细节之前生成低频信息。 在这项工作中,我们研究了傅里叶空间扩散模型向前过程的电感偏差。 我们理论上分析和经验证明,DDPM中高频组件的噪声加快导致反向过程中违反正常假设。 我们的实验表明,这导致高频组件的生成质量下降。 然后,我们研究了傅里叶空间中的另一个前进过程,该过程以相同的速率腐蚀所有频率,在生成过程中消除典型的频率层次结构,并在高频为主要数据集上展示显着的性能改进,同时在标准成像基准上与DDPM相当。
Diffusion models are state-of-the-art generative models on data modalities such as images, audio, proteins and materials. These modalities share the property of exponentially decaying variance and magnitude in the Fourier domain. Under the standard Denoising Diffusion Probabilistic Models (DDPM) forward process of additive white noise, this property results in high-frequency components being corrupted faster and earlier in terms of their Signal-to-Noise Ratio (SNR) than low-frequency ones. The r...