活水快报 - 42Digest

EchoMark:带有水印嵌入房间的感知声学环境传递冲动反应

EchoMark: Perceptual Acoustic Environment Transfer with Watermark-Embedded Room Impulse Response

Chenpei Huang, Lingfeng Yao, Kyu In Lee, Lan Emily Zhang, Xun Chen, Miao Pan

arXiv

2025年11月9日

声学环境匹配(AEM)是将清洁音频传输到目标声学环境的任务,从而实现音频配音和听觉沉浸式虚拟现实(VR)等引人入胜的应用程序。直接从混响语音中恢复类似的房间冲动响应(RIR)提供了更易于访问和灵活的AEM解决方案。然而,这种能力还引入了如果被恶意用户滥用的任意“迁移”漏洞,例如促进高级语音欺骗攻击或破坏记录证据的真实性。为了解决这个问题,我们提出了EchoMark,这是第一个基于深度学习的AEM框架,可以生成具有嵌入式水印的感知相似的RIR。我们的设计通过在潜在领域运行,解决可变 RIR 特性(如不同持续时间和能量衰减)带来的挑战。通过联合优化模型,实现RIR重建的感知损失和水印检测损失,EchoMark实现了高质量的环境转移和可靠的水印回收。不同数据集的实验证实EchoMark实现了与最先进的RIR估计器FiNS相当的房间声学参数匹配性能。此外,高平均意见得分(MOS)为4.22,水印检测精度超过99%,比特错误率(BER)低于0.3%,共同证明了EchoMark在保持感知质量方面的有效性,同时确保可靠的水印嵌入。

Acoustic Environment Matching (AEM) is the task of transferring clean audio into a target acoustic environment, enabling engaging applications such as audio dubbing and auditory immersive virtual reality (VR). Recovering similar room impulse response (RIR) directly from reverberant speech offers more accessible and flexible AEM solution. However, this capability also introduces vulnerabilities of arbitrary "relocation" if misused by malicious user, such as facilitating advanced voice spoofing at...

声音处理人工智能机器学习音频与语音处理

View Source