AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。
图形用户界面(Graphical User Interface, GUI)作为数字时代最具代表性的创新之一,大幅简化了人机交互的复杂度。从简单的图标、按钮、窗口到复杂的多应用工作流程,GUI 为用户提供了直观、友好的操作体验。然而,在自动化和智能化升级的过程中,传统的 GUI 操控方式始终面临诸多技术挑战。以往的脚本化或规则驱动方法在特定场景下确实有所帮助,但随着现代应用环境的日益复杂和动态化,它们的局限性愈发凸显。
近年,人工智能与大语言模型(Large Language Models, LLMs)的快速发展为此领域带来了变革性机遇。
近日,微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出,通过将大语言模型(LLMs)与多模态模型(Visual Language Models, VLMs)相结合,GUI 智能体可以根据自然语言指令自动操作图形界面,并完成复杂的多步骤任务。这一突破不仅超越了传统 GUI 自动化的固有瓶颈,更推动了人机交互方式从「
点击 + 输入」向「
自然语言 + 智能操作」的跃迁。
链接:https://arxiv.org/abs/2411.18279
过去数十年中,GUI 自动化技术主要依靠两大途径:
-
脚本化方法:如 Selenium、AutoIt 等工具依赖预先编写的固定脚本,以模拟点击、输入等操作。这类方法适用于相对稳定的界面和流程,但当界面频繁更新或布局动态变化时,脚本易失效且维护成本高。
-
规则驱动方法:根据预设规则识别 GUI 组件(如按钮、输入框)并执行相应操作。这类方法缺乏灵活性,难以应对复杂或非标准化的工作流程。
这些传统方法在面对高度动态、跨应用的复杂任务时显得力不从心。例如:
- 如何让自动化系统理解网页内容并从中提取用户所需的关键信息?
- 如何适应不同设备、操作系统上的多样化 GUI 界面?
微软的综述指出,大语言模型(LLM)在解决上述问题中发挥着关键作用,其优势主要体现在以下三个方面:
以 GPT 系列为代表的大模型拥有出色的自然语言理解与生成能力。它们能够将用户简单直观的指令(如「打开文件,提取关键信息,然后发送给同事」)自动解析为一系列可执行的操作步骤。通过多步推理(Chain-of-Thought)和任务分解,智能体可逐步完成极为复杂的流程。
引入多模态技术后,视觉语言模型(VLM)可处理文本与视觉信息。通过分析 GUI 截图或 UI 结构树,智能体可以理解界面元素(按钮、菜单、文本框)的布局和含义。这为智能体提供了类似人类的视觉理解能力,使其能够在动态界面中执行精准操作。如自动在网页中定位搜索栏并输入关键词,或在桌面应用中找到特定按钮进行复制、粘贴操作。
相较传统脚本方法,使用大模型的 GUI 智能体能对实时反馈做出响应,并动态调整策略。当界面状态变化或出现错误提示时,智能体可以尝试新的路径与方案,而不再依赖固定的脚本流程。
在大模型的加持下,GUI 智能体为人机交互带来了质变的提升。用户仅需自然语言指令,智能体即可完成原本需要繁琐点击和复杂操作才能达成的目标。这不仅降低了用户的操作和学习成本,也减少了对特定软件 API 的依赖,提升了系统通用性。如图 2 所示,自 2023 年以来,以大模型驱动的 GUI 智能体为主题的研究层出不穷,逐渐成为前沿热点。
微软的综述指出,一个大模型驱动的 GUI 智能体通常包括以下关键组件,如图 3 所示:
输入数据包括 GUI 截图、UI 结构树、元素属性(类型、标签、位置)以及窗口层级信息。通过 Windows UI Automation、Android Accessibility API 等工具,智能体可有效捕获界面信息。
2. 提示工程(Prompt Engineering)
智能体将用户指令与当前 GUI 状态相结合,构建输入提示(Prompt),并利用大语言模型生成下一步操作计划。例如:「用户指令 + 界面截图 + UI 元素属性」 经过 LLM 处理后,智能体将输出明确的操作步骤(点击、输入、拖拽等)。
将构建好的 Prompt 输入 LLM 后,模型会预测后续的执行动作和计划步骤。
智能体根据 LLM 输出的高层指令进行实际操作,如鼠标点击、键盘输入或触摸操作,从而在网页、移动应用或桌面系统中完成任务。
为应对多步骤复杂任务,GUI 智能体设计了短期记忆(STM)与长期记忆(LTM)机制,用于跟踪任务进度和历史操作,确保上下文的一致性与连贯性。
此外,更高阶的技术(如基于计算机视觉的
GUI 解析、多智能体协同、自我反思与进化、强化学习等)也在不断探索中。这些技术将使 GUI 智能体日益强大和完善。微软的综述已对这些前沿方向进行了详细论述。
GUI 智能体框架、数据、模型与测评:全面梳理与实践指南
微软的综述对该领域的发展路径进行了系统性总结,涵盖框架设计、数据采集、模型优化和性能测评,为研究者与开发者提供了完整的指导框架。
当下 GUI 智能体的框架设计根据应用场景和平台特性,可分为:
- Web 平台智能体:如 WebAgent 与 SeeAct 基于 HTML DOM 或可视化特征,执行网页导航、数据抓取、表单填写等多步骤操作。
- 移动平台智能体:通过 iOS 和 Android 的 Accessibility API 获取 UI 层级结构,如 AppAgent、AutoDroid 可应对移动端复杂 UI 布局与多种手势操作。
- 桌面平台智能体:如微软的 UFO 智能体,通过分析 Windows、macOS 的 GUI 层级树和 API 调用来模拟键鼠操作,完成跨软件的任务执行。
- 跨平台智能体:如 AGUVI,通用框架可适应多种设备与系统,为跨平台自动化奠定基础。这类智能体具备更强的泛化能力,可自由迁移于不同平台之间。
这些框架的提出与验证,为 GUI 智能体在各类应用场景中落地提供了可能性,并为跨平台自动化打造了坚实基础。
高效精准的 GUI 操作离不开丰富、真实的数据支撑,包括:
- GUI 环境数据:截图、UI 元素属性(类型、标签、位置)、窗口层级信息等,为智能体提供视觉与结构化信息基础。
- 操作数据:用户真实交互记录,如点击、输入、手势等,为模型学习人类操作规律提供样本。
这些数据为训练与测试提供了基础,也为领域标准化评估奠定了坚实的根基。图 4 展示了训练 GUI agent 的数据采集流程。
综述提出了「大行动模型」(Large Action Model, LAM)的概念,在 LLM 的基础上进行微调,以解决 GUI 智能体任务执行中的核心难题:
- 高效推理:在海量操作数据上进行微调后,LAM 可快速生成精准的操作指令,降低推理延迟。
- 精确执行:拥有高度泛化能力,可适应不同平台的 GUI 环境。
- 多步骤任务规划:支持复杂任务拆解与动态执行,连续完成多项操作,无需预定义脚本流程。
如图 5 所示,通过在真实环境中微调 LAM,智能体在执行效率与适应性上显著提升。
测评是衡量智能体能力的重要手段。如图 6 所示,通过观察智能体执行任务的轨迹和日志记录,可以测评智能体各方面的能力。主要测评指标主要包括:
-
执行效率:考察完成任务所需时间与步骤,尤其在资源受限硬件上的表现。
-
在特定规则下完成率:测试智能体在遵循用户提供的特定规则和策略下完成任务的能力。
领域内已出现一系列标准化 Benchmark,为 GUI 智能体的性能评价与对比提供了客观依据和平台。
1. 软件测试:从繁琐脚本到自然语言驱动的智能探索
传统的软件 GUI 测试常依赖冗长的脚本编写与重复的人工验证,既费时又容易遗漏关键场景。如今,借助大型语言模型(LLM)赋能的 GUI 智能体,我们迎来了一场测试领域的革新。这些智能体不再只是简单地重复固定脚本,而是能通过自然语言描述直接生成测试用例,对界面元素进行「自主探索」,并动态应对各种变化的用户界面。研究显示(如 GPTDroid、VisionDroid 和 AUITestAgent 等工具所展现的),智能体可在不需专业软件工程师深度介入的情况下,高效地捕捉潜在缺陷、追踪复杂交互路径,实现从输入生成、bug 重现到功能验证的全面自动化测试流程。
以字体大小调试为例,只需一句「请测试系统设置中更改字体大小的流程」,GUI 智能体便可自主导航界面、模拟用户点击、滑动选项,并在结果界面中精准确认字体调整是否生效。这样的自然语言驱动测试不但有效提高测试覆盖率与效率,即使非技术人员也能轻松参与质量保障过程。这意味着软件产品迭代速度的加快,以及开发与质量保证团队从重复劳动中解放,从而更专注于创新与优化。
2. 智能助手:从被动响应到多平台、多步骤的全能执行官
虚拟助手不再局限于简单的闹钟设定或天气查询。当 LLM 赋能的 GUI 智能体成为虚拟助手的「大脑」时,我们得到的是一位真正的「多面手」—— 可跨越桌面、手机、Web 浏览器和企业应用,以自然语言命令为指引,自动完成从文档编辑、数据表格分析,到复杂手机操作流程的各种任务。
这些智能体不仅能响应指令,还能根据上下文理解用户需求,并灵活适配不同界面元素。例如,它们可在移动端应用中自主查找隐藏的功能入口,为新用户演示如何截图;或在办公环境下,将一组跨平台数据整理后自动生成报告。在这类应用中,用户不必再为记忆繁琐的操作步骤烦恼,也不必面对复杂的流程而左右为难,只需以自然语言描述目标,智能体便能迅速解析上下文、定位界面组件并完成指令。通过持续学习与优化,这些智能助手还能越来越「懂你」,有效提升你的生产力与体验满意度。
综上,GUI 智能体在现实应用中已不仅仅是 “工具”,而更像一位全天候的 “数字助理” 和 “质量专家”。在测试领域,它们为软件品质保驾护航,大幅降低人力和时间成本;在日常与商务操作中,它们成为跨平台的多功能帮手,让用户能以更直观、更人性化的方式,与数字世界轻松互动。未来,随着技术的不断迭代升级,这些智能体将持续拓展应用边界,并为各行各业的数字化转型注入新的活力。
尽管 GUI 智能体前景广阔,但微软的综述也明确指出目前的挑战所在:
-
隐私与安全:智能体需要访问用户界面内容,数据安全与隐私保护亟待完善。
-
推理延迟与硬件受限:大模型推理开销较大,需在性能与实时性间取得平衡。
-
安全与可信:确保智能体可靠执行任务,避免误操作与安全风险。
-
人机协同与交互策略:在复杂任务中平衡用户与智能体的决策与执行关系。
-
个性化与定制化:智能体如何学习用户偏好和习惯,从而更精确地满足用户需求。
-
通用泛化性:面对不同设备、操作系统与复杂非标准界面元素的适配仍是难题。
展望未来,随着大语言模型与多模态技术的持续进化,GUI 智能体将在更多领域落地,为生产力与工作流程带来深刻变革。
大模型的兴起为 GUI 自动化打开了全新空间。当 GUI 智能体不再仅依赖固化的脚本与规则,而是借由自然语言与视觉理解来决策和执行操作时,人机交互方式发生了质的转变。这不仅简化了用户操作,更为智能助手、自动化测试等应用场景提供了强大支持。
随着技术的不断迭代与生态的日趋成熟,GUI 智能体有望成为日常工作与生活中的关键工具,让复杂的操作愈加智能、高效,并最终引领人机交互走向全新的智能化时代。