42digest首页
通过粒度感知和区域不确定建模的跨模细粒度对齐

Cross Modal Fine-grained Alignment via Granularity-aware and Region-uncertain Modeling

Jiale Liu, Haoming Zhou, Yishu Zhu, Bingzhi Chen, Yuncheng Jiang

arXiv
2025年11月11日

细粒度图像文本对齐是多模态学习的关键挑战,支持关键应用,如视觉问题回答,图像字幕和视觉语言导航。 与全局对齐不同,细粒度对齐需要本地化视觉区域和文本令牌之间的精确对应,通常受到嘈杂注意力机制和跨模态关系的过度简化建模的阻碍。 在这项工作中,我们确定了现有方法的两个基本限制:缺乏强大的模式内机制来评估视觉和文本令牌的重要性,导致复杂场景中的泛化不良;以及缺乏细粒度的不确定性建模,这未能捕捉到区域字对应关系的一对一和多对一性质。 为了解决这些问题,我们提出了一个统一的方法,包括显著感知和粒度感知建模以及区域级不确定性建模。 我们的方法利用特定模式的偏见来识别显著特征,而不依赖于脆的跨模态注意,并代表区域特征作为高斯分布的混合物,以捕获细粒度的不确定性。 Flickr30K和MS-COCO的广泛实验表明,我们的方法在各种骨干架构中实现了最先进的性能,显着增强了细粒度图像文本对齐的鲁棒性和可解释性。

Fine-grained image-text alignment is a pivotal challenge in multimodal learning, underpinning key applications such as visual question answering, image captioning, and vision-language navigation. Unlike global alignment, fine-grained alignment requires precise correspondence between localized visual regions and textual tokens, often hindered by noisy attention mechanisms and oversimplified modeling of cross-modal relationships. In this work, we identify two fundamental limitations of existing ap...