MACS: Multi-source Audio-to-image Generation with Contextual Significance and Semantic Alignment
Hao Zhou, Xiaobao Guo, Yuzhe Zhu, Adams Wai-Kin Kong
在深度生成模型的突破推动下,音频到图像生成已成为一项关键的跨模态任务,将复杂的听觉信号转换为丰富的视觉表现。 然而,以前的作品只关注用于图像生成的单源音频输入,忽略了自然听觉场景中的多源特性,从而限制了生成综合视觉内容的性能。 为了弥补这一差距,我们提出了一种称为MACS的方法,用于进行多源音频到图像生成。 据我们所知,这是第一个明确将多源音频分开的工作,以便在图像生成之前捕获丰富的音频组件。 MACS是一种两阶段的方法。 在第一阶段,多源音频输入被弱监督方法分离,其中音频和文本标签通过使用大型预训练的CLAP模型投射到公共空间进行语义对齐。 我们引入排名损失,以考虑分离音频信号的上下文意义。 在第二阶段,只需使用可训练的适配器和MLP层将分离的音频信号映射到生成状态即可实现有效的图像生成。 我们将LLP数据集作为第一个完整的多源音频到图像生成基准进行预处理。 这些实验是在多源、混合源和单源音频到图像生成任务上进行的。 拟议的MACS在所有任务的21个评估索引中的17个中胜过当前最先进的方法,并提供卓越的视觉质量。
Propelled by the breakthrough in deep generative models, audio-to-image generation has emerged as a pivotal cross-modal task that converts complex auditory signals into rich visual representations. However, previous works only focus on single-source audio inputs for image generation, ignoring the multi-source characteristic in natural auditory scenes, thus limiting the performance in generating comprehensive visual content. To bridge this gap, we propose a method called MACS to conduct multi-sou...