活水快报 - 42Digest

SIDA:合成图像驱动零镜头域适应

SIDA: Synthetic Image Driven Zero-shot Domain Adaptation

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim, Taewhan Kim, Dong-Jin Kim

arXiv

2025年7月24日

零拍摄域适应是一种在不利用目标域图像数据的情况下将模型适应目标域的方法。为了在没有目标图像的情况下实现适应,现有的研究利用CLIP的嵌入空间和文本描述来模拟目标样式特征。尽管之前在零射域适应方面取得了成就,但我们观察到,这些文本驱动的方法难以捕捉复杂的现实世界变化,并由于其对齐过程而显着增加适应时间。我们不是依靠文本描述,而是探索利用图像数据的解决方案,它提供了多样化和更细粒度的风格线索。在这项工作中,我们提出了SIDA,一种利用合成图像的新型高效零拍摄域适应方法。为了生成合成图像,我们首先创建详细的、源类的图像,并应用图像翻译以反映目标域的风格。然后,我们利用这些合成图像的样式特征作为目标域的代理。基于这些功能,我们引入了Domain Mix和Patch Style Transfer模块,这些模块能够对现实世界的变化进行有效的建模。特别是,Domain Mix 混合了多种样式来扩展域内表示,Patch Style Transfer 为单个 Patch 分配不同的样式。我们通过在各种零镜头适应场景中展示最先进的性能来展示我们方法的有效性,特别是在具有挑战性的领域。此外,我们的方法通过显著缩短整体适应时间来实现高效率。

Zero-shot domain adaptation is a method for adapting a model to a target domain without utilizing target domain image data. To enable adaptation without target images, existing studies utilize CLIP's embedding space and text description to simulate target-like style features. Despite the previous achievements in zero-shot domain adaptation, we observe that these text-driven methods struggle to capture complex real-world variations and significantly increase adaptation time due to their alignment...

计算机视觉与模式识别人工智能机器学习多媒体

View Source