活水快报 - 42Digest

从计算机使用创建通用用户模型

Creating General User Models from Computer Use

Omar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein

arXiv

2025年5月16日

人机交互长期以来一直想象着理解我们的技术,从我们的偏好和习惯,到我们日常行动的时间和目的。然而,当前的用户模型仍然支离破碎,根据特定的应用程序进行狭义定制,并且无法实现这些愿景所需的灵活推理。本文介绍了通用用户模型(GUM)的架构,该模型通过观察您与计算机的任何交互来了解您。 GUM以用户的任何非结构化观察(例如设备截图)作为输入,并构建了捕获用户知识和偏好的置信加权命题。 GUM可以推断用户正在准备他们与朋友发送消息的婚礼。或者认识到用户正在通过观察多个停滞的编辑和切换到阅读相关工作来与合作者对草稿的反馈作斗争。 GUM引入了一种架构,从多模态观察中推断出有关用户的新命题,检索上下文的相关命题,并不断修改现有命题。为了说明GUM启用的应用程序的广度,我们展示了它们如何通过上下文来增强基于聊天的助手,管理操作系统通知以选择性地呈现重要信息,并启用交互式代理,以适应跨应用程序的偏好。我们还实例化主动助手(GUMBOs),使用他们的GUM发现并执行代表用户的有用建议。在我们的评估中,我们发现GUM对用户进行了校准和准确的推断,并且基于GUM构建的助手主动识别和执行用户不会认为明确请求的操作。总之,GUM引入了利用多模态模型来理解非结构化环境的方法,实现了HCI的长期愿景和预测用户需求的全新的交互式系统。

Human-computer interaction has long imagined technology that understands us-from our preferences and habits, to the timing and purpose of our everyday actions. Yet current user models remain fragmented, narrowly tailored to specific apps, and incapable of the flexible reasoning required to fulfill these visions. This paper presents an architecture for a general user model (GUM) that learns about you by observing any interaction you have with your computer. The GUM takes as input any unstructured...

人机交互人工智能计算与语言

View Source