Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction
Mingda Jia, Weiliang Meng, Zenghuang Fu, Yiheng Li, Qi Zeng, Yifan Zhang, Ju Xin, Rongtao Xu, Jiguang Zhang and Xiaopeng Zhang
密集的视频字幕在未修剪的视频中共同定位和字幕突出事件。 最近的方法主要侧重于利用额外的先验知识和先进的多任务架构来实现有竞争力的性能。 然而,这些管道依赖于使用帧级或碎片化视频特征的隐式建模,未能在视觉上下文中捕获事件序列和综合语义的时间一致性。 为了解决这个问题,我们提出了一个明确的时间语义建模框架,称为上下文-感知跨模式交互(CACMI),它利用了视频和文本语料库中的语言语义中的潜在时间特征。 具体来说,我们的模型由两个核心组件组成:跨模态帧聚合聚合相关帧,通过跨模态检索提取时间一致,事件对齐的文本特征;上下文感知功能增强利用查询引导的注意力将视觉动力学与伪事件语义集成。 ActivityNet Captions 和 YouCook2 数据集上的大量实验表明, CACMI 在密集的视频字幕任务上实现了最先进的性能。
Dense video captioning jointly localizes and captions salient events in untrimmed videos. Recent methods primarily focus on leveraging additional prior knowledge and advanced multi-task architectures to achieve competitive performance. However, these pipelines rely on implicit modeling that uses frame-level or fragmented video features, failing to capture the temporal coherence across event sequences and comprehensive semantics within visual contexts. To address this, we propose an explicit temp...