Multi-modal Deepfake Detection and Localization with FPN-Transformer
Chende Zheng, Ruiqi Suo, Zhoulin Ji, Jingyi Deng, Fangbin Yi, Chenhao Lin, Chao Shen
生成对抗网络(GAN)和传播模型的快速发展使高度逼真的deepfake内容得以创建,对视听领域的数字信任构成了重大威胁。 虽然单模态检测方法在识别合成介质方面取得了进展,但它们无法利用跨模态相关性并精确定位伪造的片段,限制了其实用性,而不是复杂的、细粒度的操纵。 为了解决这个问题,我们引入了基于特征金字塔-变形金刚(FPN-Transformer)的多模态深度伪造检测和本地化框架,解决了跨模态泛化和时间边界回归的关键差距。 拟议的方法利用预先训练的自我监督模型(音频的WavLM,视频的CLIP)来提取分层时间特征。 多尺度特征金字塔通过具有局部注意力机制的R-TLM块构建,能够共同分析跨上下文的时间依赖关系。 双分支预测头同时预测伪造概率并改进操纵段的时间偏移,实现帧级定位精度。 我们在 IJCAI'25 DDL-AV 基准测试集上评估我们的方法,在具有挑战性的环境中,在跨模态深度伪造检测和定位方面表现出良好的性能,最终得分为 0.7535。 实验结果证实了我们方法的有效性,并为广义的deepfake检测提供了一种新的方法。 我们的代码可在https://github.com/Zig-HS/MM-DDL。
The rapid advancement of generative adversarial networks (GANs) and diffusion models has enabled the creation of highly realistic deepfake content, posing significant threats to digital trust across audio-visual domains. While unimodal detection methods have shown progress in identifying synthetic media, their inability to leverage cross-modal correlations and precisely localize forged segments limits their practicality against sophisticated, fine-grained manipulations. To address this, we intro...