History-Aware Reasoning for GUI Agents
Ziwei Wang and Leyang Yang and Xiaoxuan Tang and Sheng Zhou and Dajun Chen and Wei Jiang and Yong Li
多模态大语言模型的进步显著增强了图形用户界面(GUI)自动化。 为GUI代理配备可靠的情景推理功能对于弥合用户简明的任务描述与现实世界执行的复杂性之间的差距至关重要。 目前的方法将强化学习(RL)与System-2思维链集成在一起,在推理增强方面产生了显着的收益。 对于长距离GUI任务,历史交互将每个屏幕连接到目标导向的剧集链,并有效利用这些线索对于当前决策至关重要。 然而,现有的原生GUI代理在其明确的推理中表现出较弱的短期记忆,将链式交互解释为离散的屏幕理解,即对剧集中的历史相互作用的不知情。 这种与历史无关的推理挑战了他们在GUI自动化方面的表现。 为了缓解这一弱点,我们提出了一个历史感知推理(HAR)框架,该框架鼓励代理人反思自己的错误,并通过量身定制的策略从中获取偶然推理知识,从而增强长视相互作用中的短期记忆。 该框架主要包括构建反射学习场景,合成量身定制的校正指南,以及设计混合RL奖励功能。 使用HAR框架,我们开发了一个原生的端到端模型,HAR-GUI-3B,它改变了从历史无关到历史感知的固有推理模式,使GUI代理具有稳定的短期内存和对屏幕细节的可靠感知。 跨一系列GUI相关基准的综合评估证明了我们方法的有效性和概括性。
Advances in Multimodal Large Language Models have significantly enhanced Graphical User Interface (GUI) automation. Equipping GUI agents with reliable episodic reasoning capabilities is essential for bridging the gap between users' concise task descriptions and the complexities of real-world execution. Current methods integrate Reinforcement Learning (RL) with System-2 Chain-of-Thought, yielding notable gains in reasoning enhancement. For long-horizon GUI tasks, historical interactions connect e...