Spatio-Temporal Data Enhanced Vision-Language Model for Traffic Scene Understanding
Jingtian Ma, Jingyuan Wang, Wayne Xin Zhao, Guoping Liu, Xiang Wen
如今,导航和乘车共享应用程序已经收集了许多带有时空数据的图像。 与时空信息相关的分析此类图像的核心技术是交通场景理解(TSU),旨在全面描述交通场景。 与传统的时空数据分析任务不同,对时空和视觉文本数据的依赖为TSU任务带来了独特的挑战。 然而,最近的研究经常将TSU视为一个共同的图像理解任务,忽略了时空信息,并忽略了交通场景不同方面之间的相互关系。 为了解决这些问题,我们为TSU提出了基于CILP(ST-CLIP)的新型SpatioTemporal增强模型。 我们的模型使用经典的视觉语言模型CLIP作为骨干,并设计一种空间-时间上下文感知多视点提示(SAMP)学习方法,将时空信息纳入TSU。 提示学习方法由两个部分组成:一个动态时空上下文表示模块,为每个流量场景图像提取空间-时间数据表示向量,以及一个双级ST-aware多方面提示学习模块,将ST-context表示向量集成到CLIP模型的提示词嵌入中。 第二个模块还提取了低级视觉特征和图像上的高级语义特征,以利用交通场景不同方面的交互关系。 据我们所知,这是首次尝试将时空信息集成到视觉语言模型中,以促进TSU任务。 两个真实世界数据集的实验通过几枪式学习策略,在复杂的场景理解场景中表现出卓越的性能。
Nowadays, navigation and ride-sharing apps have collected numerous images with spatio-temporal data. A core technology for analyzing such images, associated with spatiotemporal information, is Traffic Scene Understanding (TSU), which aims to provide a comprehensive description of the traffic scene. Unlike traditional spatio-temporal data analysis tasks, the dependence on both spatio-temporal and visual-textual data introduces distinct challenges to TSU task. However, recent research often treats...