Expand Your SCOPE: Semantic Cognition over Potential-Based Exploration for Embodied Visual Navigation
Ningnan Wang, Weihuang Chen, Liming Chen, Haoxuan Ji, Zhongyu Guo, Xuchong Zhang, Hongbin Sun
嵌入式视觉导航仍然是一项具有挑战性的任务,因为代理商必须探索知识有限的未知环境。 现有的零镜头研究表明,结合记忆机制来支持目标导向的行为可以提高长视点规划性能。 然而,他们忽略了视觉边界边界,这些边界从根本上决定了未来的轨迹和观察,并且无法推断部分视觉观测与导航目标之间的关系。 在本文中,我们提出了基于潜力的语义认知探索(SCOPE),这是一个零拍摄框架,明确利用前沿信息来推动基于潜力的探索,从而实现更知情和与目标相关的决策。 SCOPE使用视觉语言模型估计勘探潜力,并将其组织成时空电位图,捕获边界动力学以支持长视距规划。 此外,SCOPE还采用了自我重新考虑机制,重新审视和完善了先前的决策,增强了可靠性,减少了过度自信的错误。 两项不同具体导航任务的实验结果表明,SCOPE在准确性上优于最先进的基线4.6%。 进一步的分析表明,其核心组件可改进校准、更强的概括和更高的决策质量。
Embodied visual navigation remains a challenging task, as agents must explore unknown environments with limited knowledge. Existing zero-shot studies have shown that incorporating memory mechanisms to support goal-directed behavior can improve long-horizon planning performance. However, they overlook visual frontier boundaries, which fundamentally dictate future trajectories and observations, and fall short of inferring the relationship between partial visual observations and navigation goals. I...