Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval
Jian Xiao, Zijie Song, Jialong Hu, Hao Cheng, Zhenzhen Hu, Jia Li, Richang Hong
文本视频检索的最新进展主要是由对比学习框架驱动的。 然而,现有方法忽略了优化张力的一个关键来源:表示空间中文本和视频分发之间的分离(称为模式差距),以及批次抽样中假阴性的普遍存在。 这些因素导致InfoNCE损失下的梯度冲突,阻碍了稳定的对齐。 为了减轻这一点,我们提出了GARE,一个Gap-Aware检索框架,在文本t_i和视频v_j之间引入了可学习的,对特定的增量Delta_ij,以从全局锚表示卸载张力。 我们首先通过在信任区域约束下对InfoNCE损失进行多变量一阶Taylor近似得出Delta_ij的理想形式,通过引导更新沿着本地最优下降方向将其揭示为解决梯度冲突的机制。 由于直接计算Delta_ij的成本很高,我们引入了一个轻量级的神经模块,该模块以每个视频文本对之间的语义差距为条件,通过梯度监督引导实现结构感知校正。 为了进一步稳定学习并促进可解释性,我们使用三个组件对Delta进行规范化:防止振荡的信任区域约束,促进语义覆盖的方向多样性术语以及限制冗余的信息瓶颈。 四个检索基准的实验表明,GARE持续提高嘈杂监督的对齐精度和稳健性,证实了间隙感知张力缓解的有效性。
Recent advances in text-video retrieval have been largely driven by contrastive learning frameworks. However, existing methods overlook a key source of optimization tension: the separation between text and video distributions in the representation space (referred to as the modality gap), and the prevalence of false negatives in batch sampling. These factors lead to conflicting gradients under the InfoNCE loss, impeding stable alignment. To mitigate this, we propose GARE, a Gap-Aware Retrieval fr...