42digest首页
使用神经音频编解码器的晚期颗粒合成

Latent Granular Resynthesis using Neural Audio Codecs

Nao Tokui and Tom Baker

arXiv
2025年7月25日

我们引入了一种新颖的创造性音频合成技术,该技术通过在潜在矢量级别重新加工颗粒合成的概念来运作。 我们的方法通过将源音频语料库编码到潜在矢量段来创建“粒度代码簿”,然后将目标音频信号的每个潜在粒数与代码簿中最接近的对应物相匹配。 由此产生的混合序列被解码以产生音频,保留目标的时间结构,同时采用源的音色特征。 这种技术不需要模型训练,使用不同的音频材料,并且自然避免通过编解码器在解码过程中的隐式插值典型的传统连接合成的不连续性。 我们在 https://github.com/naotokui/latentgranular/ 中包括补充材料,以及概念验证实现,允许用户在 https://huggingface.co/spaces/naotokui/latentgranular 中尝试自己的声音。

We introduce a novel technique for creative audio resynthesis that operates by reworking the concept of granular synthesis at the latent vector level. Our approach creates a "granular codebook" by encoding a source audio corpus into latent vector segments, then matches each latent grain of a target audio signal to its closest counterpart in the codebook. The resulting hybrid sequence is decoded to produce audio that preserves the target's temporal structure while adopting the source's timbral ch...