42digest首页
超越RGB的代理之旅:视觉和语言导航的分层语义空间表征丰富

Agent Journey Beyond RGB: Hierarchical Semantic-Spatial Representation Enrichment for Vision-and-Language Navigation

Xuesong Zhang and Yunbo Xu and Jia Li and Ruonan Liu and Zhenzhen Hu

arXiv
2024年12月9日

从自然语言指令中导航看不见的环境对于视觉和语言导航(VLN)中的自我中心代理来说仍然具有挑战性。 人类在室内导航过程中自然在空间布局中研磨具体的语义知识。 虽然以前的工作引入了不同的环境表示来改善推理,但辅助模式往往与RGB特征幼稚地结合在一起,这低估了每种模式的独特贡献。 我们提出了分层语义理解和空间意识(SUSA)架构,使代理能够感知和地面环境的多个尺度。 具体来说,Textual Semantic Understanding(TSU)模块通过生成视图级描述,捕获细粒度语义并缩小指令和环境之间的模式差距来支持局部动作预测。 补充的是,深度增强空间感知(DSP)模块逐步构建了轨迹级深度探索图,提供了全球空间布局的粗粒度表示。 广泛的实验表明,SUSA的分层表示丰富性显着提高了在离散VLN基准(REVERIE,R2R和SONON)基线上的导航性能,并更好地推广到连续R2R-CE基准。

Navigating unseen environments from natural language instructions remains challenging for egocentric agents in Vision-and-Language Navigation (VLN). Humans naturally ground concrete semantic knowledge within spatial layouts during indoor navigation. Although prior work has introduced diverse environment representations to improve reasoning, auxiliary modalities are often naively concatenated with RGB features, which underutilizes each modality's distinct contribution. We propose a hierarchical S...