Visual Planning: Let's Think Only with Images
Yi Xu, Chengzu Li, Han Zhou, Xingchen Wan, Caiqi Zhang, Anna Korhonen, Ivan Vulić
大型语言模型(LLM)及其多模态扩展(MLLM)的最新进展大大增强了不同任务的机器推理。 然而,这些模型主要依靠纯文本作为表达和结构推理的媒介,即使存在视觉信息。 在这项工作中,我们认为语言可能并不总是最自然或最有效的推理方式,特别是在涉及空间和几何信息的任务中。 以此为动力,我们提出了一种新的范式,视觉规划,它通过纯粹的视觉表示来实现规划,独立于文本。 在这个范式中,规划是通过在视觉领域编码逐步推断的图像序列来执行的,类似于人类如何绘制或可视化未来的行动。 我们引入了一个新的强化学习框架,视觉规划通过强化学习(VPRL),由GRPO授权用于训练后大型视觉模型,导致在选择具有代表性的视觉导航任务,FrozenLake,Maze和MiniBehavior的规划方面有了实质性的改进。 我们的视觉规划范式优于所有其他在文本空间中进行推理的规划变体。 我们的结果将视觉规划确立为基于语言的推理的可行和有希望的替代方案,为受益于直观,基于图像的推理的任务开辟了新的途径。
Recent advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have substantially enhanced machine reasoning across diverse tasks. However, these models predominantly rely on pure text as the medium for both expressing and structuring reasoning, even when visual information is present. In this work, we argue that language may not always be the most natural or effective modality for reasoning, particularly in tasks involving spatial and geometrical information. Motiva...