42digest
通过观看电影学习突出音频

Learning to Highlight Audio by Watching Movies

Chao Huang, Ruohan Gao, J. M. F. Tsang, Jan Kurcius, Cagdas Bilen, Chenliang Xu, Anurag Kumar, Sanjeel Parekh

arXiv
2025年5月17日

近年来,视频内容的创建和消费显著增加。 制作引人入胜的内容需要精心策划视觉和音频元素。 虽然视觉提示策展,通过优化视角选择或后期编辑等技术,一直是媒体制作的核心,但其自然对应,音频,并没有经历同等的进步。 这通常会导致视觉和声学显著性之间的脱节。 为了弥补这一差距,我们引入了一项新任务:视觉引导的声学突出显示,旨在改变音频,以提供由随附视频引导的适当突出效果,最终创造更和谐的视听体验。 我们提出了一个灵活的、基于变压器的多模态框架来解决这项任务。 为了训练我们的模型,我们还引入了一个新的数据集 - 泥泞的混合数据集,利用电影中的细致音频和视频制作,这提供了一种自由监督的形式。 我们开发了一个伪数据生成过程来模拟混合不良的音频,通过三步过程来模拟现实世界的场景 - 分离,调整和重新混合。 我们的方法在定量和主观评估方面一直优于几个基线。 我们还系统地研究不同类型的上下文指导和数据集的难度水平的影响。 我们的项目页面在这里:https://wikichao.github.io/VisAH/。

Recent years have seen a significant increase in video content creation and consumption. Crafting engaging content requires the careful curation of both visual and audio elements. While visual cue curation, through techniques like optimal viewpoint selection or post-editing, has been central to media production, its natural counterpart, audio, has not undergone equivalent advancements. This often results in a disconnect between visual and acoustic saliency. To bridge this gap, we introduce a nov...