Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference
Chengze Jiang, Minjing Dong, Xinli Shi, Jie Gui
视觉语言预训练模型(VLP)表现出很强的多模态理解和零镜头概括,但仍然容易受到对抗性例子的影响,这引起了人们对其可靠性的担忧。 最近的工作,测试时间反击(TTC),通过产生扰动来提高鲁棒性,最大限度地利用PGD对对抗输入的嵌入偏差,将它们推离对抗性表示。 然而,由于对抗性攻击和反击之间的优化目标存在根本差异,仅根据对抗性输入的梯度生成反击将搜索限制在狭窄的空间。 因此,反击可能过度适应有限的对抗模式,缺乏多样性,无法完全抵消广泛的扰动。 在这项工作中,我们认为,加强反击的多样性和覆盖范围对于提高测试时间防御的对抗性稳健性至关重要。 因此,我们提出了定向正交反击(DOC),它通过结合正交梯度方向和基于动量的更新来增强反击优化。 这种设计扩大了对反击空间的探索,增加了扰动的多样性,这有利于发现更可推广的反击,并最终提高了中和对抗扰动的能力。 同时,我们基于平均后因应相似性提出了方向敏感性评分,通过改善示例歧视和自适应调节反击强度来提高DOC。 对16个数据集进行的广泛实验表明,DOC在各种攻击下提高了对抗性稳健性,同时保持了具有竞争力的清洁精度。 代码可在https://github.com/bookman233/DOC。
Vision-language pre-training models (VLPs) demonstrate strong multimodal understanding and zero-shot generalization, yet remain vulnerable to adversarial examples, raising concerns about their reliability. Recent work, Test-Time Counterattack (TTC), improves robustness by generating perturbations that maximize the embedding deviation of adversarial inputs using PGD, pushing them away from their adversarial representations. However, due to the fundamental difference in optimization objectives bet...