Parallel Sampling via Autospeculation
Nima Anari, Carlo Baronio, CJ Chen, Alireza Haqi, Frederic Koehler, Anqi Li, Thuy-Duong Vuong
我们提出了并行算法,通过在两个设置中通过计数来加速采样:任何顺序自动回归模型和去噪扩散模型。 任何顺序的自动回归模型通过提供条件边缘的神谕访问目标分布 μ,而去噪扩散模型通过在高斯噪声下提供条件均值的 oracle 上访问 μ 上的目标分布 μ。 标准顺序采样算法需要 O(n) 时间在任一设置中从 μ 生成样本。 我们表明,通过并行发出神谕调用,可以将预期的采样时间减少到O(n^1/2)。 这改善了先前针对任意顺序自动回归模型的 O(n^2/3) ,并在相对温和的假设下,在相对温和的假设下,在高精度方案中为扩散模型提供了第一个并行加速。 我们引入了一种新颖的技术来获得我们的结果:投机性拒绝采样。 这种技术利用近似 μ 的辅助“推测”分布 ν 来加速采样。 我们的技术灵感来自于大型语言模型中流行的“投机解码”技术,但在关键方面有所不同。 首先,我们使用“autospeculation”,即我们建立定义μ的同一个神谕的猜测ν。 相比之下,推测性解码通常需要一个单独的,更快的,但可能不太准确的“草稿”模型ν。 其次,我们技术的关键差异化因素是,我们在“序列”水平上而不是单个(或几个)步骤的水平进行和接受推测。 这最后一个事实是解锁我们并行运行时 O(n^1/2)的关键。
We present parallel algorithms to accelerate sampling via counting in two settings: any-order autoregressive models and denoising diffusion models. An any-order autoregressive model accesses a target distribution μ on [q]^n through an oracle that provides conditional marginals, while a denoising diffusion model accesses a target distribution μ on ℝ^n through an oracle that provides conditional means under Gaussian noise. Standard sequential sampling algorithms require O(n) time to produce a samp...