GUI-G^2: Gaussian Reward Modeling for GUI Grounding
Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang
图形用户界面(GUI)接地将自然语言指令映射到用于自主交互的精确界面位置。 目前的强化学习方法使用二进制奖励,将元素视为命中或错过的目标,产生稀疏信号,忽略空间相互作用的连续性质。 受人类点击行为的动机,自然形成以目标元素为中心的高斯分布,我们引入了GUI高斯接地奖励(GUI-G^2),这是一个有原则的奖励框架,将GUI元素建模为跨界面平面的连续高斯分布。 GUI-G^2包含两个协同机制:高斯点奖励模型通过以元素中心为中心的指数衰减分布精确定位,而覆盖奖励通过测量预测的高斯分布和目标区域之间的重叠来评估空间对齐。 为了处理各种元素尺度,我们开发了一个自适应方差机制,根据元素维度校准奖励分布。 该框架将GUI接地从稀疏的二进制分类转变为密集的连续优化,其中高斯分布产生丰富的梯度信号,引导模型走向最佳交互位置。 ScreenSpot,ScreenSpot-v2和ScreenSpot-Pro基准测试的广泛实验表明,GUI-G^2大大优于最先进的方法UI-TARS-72B,最显着的改进为24.7
Graphical User Interface (GUI) grounding maps natural language instructions to precise interface locations for autonomous interaction. Current reinforcement learning approaches use binary rewards that treat elements as hit-or-miss targets, creating sparse signals that ignore the continuous nature of spatial interactions. Motivated by human clicking behavior that naturally forms Gaussian distributions centered on target elements, we introduce GUI Gaussian Grounding Rewards (GUI-G^2), a principled...