PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision
Sabrina Patania, Luca Annese, Anita Pellegrini, Silvia Serino, Anna Lambiase, Luca Pallonetto, Silvia Rossi, Simone Colombani, Tom Foulsham, Azzurra Ruggeri, Dimitri Ognibene
大型语言模型(LLM)和多模态基础模型的最新进展大大扩展了他们在机器人和协作系统中的应用。 然而,有效的多智能体相互作用需要强大的透视能力,使模型能够解释物理和认识论的观点。 当前的培训范式往往忽略了这些互动环境,导致模型必须推理单个视角的主观性或与多个观察者一起浏览环境时的挑战。 这项研究评估了使用ReAct框架明确纳入不同观点的情况,这是一种整合推理和行动的方法,可以提高LLM理解和满足其他代理人需求的能力。 我们扩展了经典的 Director 任务,在一系列不断增加的视角复杂性的 7 个场景中引入了积极的视觉探索。 这些场景旨在挑战代理解决基于视觉访问和交互的参考模糊性的能力,在不同的状态表示和提示策略下,包括ReAct风格的推理。 我们的结果表明,明确的视角线索与积极的探索策略相结合,显着提高了模型的解释准确性和协作有效性。 这些发现强调了将主动感知与透视机制相结合的潜力,以推进LLM在机器人和多智能系统中的应用,为未来研究自适应和上下文感知AI系统奠定了基础。
Recent advances in Large Language Models (LLMs) and multimodal foundation models have significantly broadened their application in robotics and collaborative systems. However, effective multi-agent interaction necessitates robust perspective-taking capabilities, enabling models to interpret both physical and epistemic viewpoints. Current training paradigms often neglect these interactive contexts, resulting in challenges when models must reason about the subjectivity of individual perspectives o...