AIxiv专栏是人工智能站发布学术、技术内容的栏目。过去数年,人工智能站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
论文标题:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects 论文地址:https://www.preprints.org/manuscript/202501.0413/v1
手机 GUI 自动化旨在通过编程模拟人类与手机界面的交互,以完成复杂任务,传统方法包括自动化测试、快捷指令和机器人流程自动化(RPA),但存在通用性、灵活性、维护成本、意图理解和屏幕感知等方面的挑战。 大语言模型(LLM)的出现为手机自动化带来了新的范式,基于 LLM 的手机 GUI 智能体能够理解自然语言指令,感知界面并执行任务,有望实现更智能、自适应的自动化操作。
系统总结 LLM 驱动的手机 GUI 智能体的研究成果,包括框架、模型、数据集和评估方法。 分析 LLM 在手机自动化中的应用现状,探讨其优势和面临的挑战。 指出未来研究的方向,为相关领域的研究人员和从业者提供参考。
对 LLM 驱动的手机 GUI 智能体进行全面系统的综述,涵盖发展轨迹、核心技术和应用场景。 提出多视角的方法论框架,包括框架设计、模型选择与训练、数据集与评估指标。 深入分析 LLM 赋能手机自动化的原因,探讨其在自然语言理解、推理和决策等方面的优势。 介绍和评估最新进展、数据集和基准,为研究提供资源支持。 识别关键挑战并提出未来研究的新视角,如数据集多样性、设备端部署效率和安全问题。
自动化测试:为解决手机应用复杂度增加带来的测试难题,经历了从随机测试到基于模型的测试、基于学习的测试,再到强化学习测试的发展,但仍面临测试覆盖范围、效率、成本和模型泛化能力等挑战。 快捷指令:如 Tasker 和 iOS Shortcuts,通过预定义规则或触发条件实现任务自动化,但范围和灵活性有限。 机器人流程自动化(RPA):在手机上模拟人类执行重复性任务,但在处理动态界面和脚本更新方面存在困难。
通用性有限:传统方法针对特定应用和界面,难以适应不同应用和动态环境,缺乏灵活性和上下文适应能力。 维护成本高:编写和维护自动化脚本需要专业知识,且随着应用更新,脚本需频繁修改,耗时费力,入门门槛高限制了用户使用。 意图理解能力差:基于规则和脚本的系统只能执行预定义任务,难以理解复杂自然语言指令,无法满足用户多样化需求。 屏幕 GUI 感知能力弱:传统方法难以准确识别和交互不同应用中的各种 GUI 元素,对动态内容和复杂界面的处理能力有限。
发展历程与里程碑:LLM 在手机自动化中的应用不断演进,通过自然语言理解、多模态感知和推理决策能力的提升,逐步实现更复杂任务的自动化。
LLM 解决传统挑战的方式
上下文语义理解:从大量文本语料库学习,理解复杂语言结构和领域知识,准确解析多步骤命令。 屏幕 GUI 多模态感知:利用多模态感知能力,统一文本和视觉感知信息,实现对屏幕元素的准确定位和交互。 推理和决策制定:基于语言、视觉上下文和历史交互进行复杂推理、多步骤规划和上下文感知适应,提高任务执行成功率。
Apple Intelligence:2024 年 6 月推出,集成 AI 能力到 iOS、iPadOS 和 macOS,通过智能总结、优先级通知和上下文感知回复增强通信、生产力和专注功能,保障用户隐私和安全。 vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 操作系统中的个人 AI 助手,具备自主拆解需求、主动规划路径、实时环境识别和动态反馈决策的能力,能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢等任务。 Honor YOYO Agent:2024 年 10 月发布,适应用户习惯和复杂指令,通过语音或文本命令自动化多步骤任务,如购物比价、自动填表、定制饮品和会议静音,提升用户体验。 Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智能体能像人类一样操作计算机,观察屏幕、移动光标、点击按钮和输入文本,改变人机交互范式。 Zhipu.AI AutoGLM:2024 年 10 月推出,通过简单命令模拟人类操作智能手机,如点赞评论、购物、订票和点餐,能导航界面、解读视觉线索并执行任务,展示 LLM 驱动的手机自动化在商业应用中的潜力。
感知模块 UI 信息:包括 UI 树(如 DroidBot - GPT 将其转换为自然语言句子)、截图(如 AutoUI 依赖截图进行 GUI 控制)、Set - of - Marks(用于标注截图,如 MM - Navigator)和 Icon & OCR 增强(如 Mobile - Agent - v2 集成 OCR 和图标数据)。 手机状态:如键盘状态和位置数据,用于上下文感知操作。
大脑模块 存储:包括记忆(如记录历史屏幕任务相关内容)和知识(来自预训练知识、领域特定训练和知识注入)。 决策制定:包括规划(如 Mobile - Agent - v2 的规划智能体生成任务进度)、推理(可以利用 Chain - of - thought 增强推理能力)和反思(如 Mobile - Agent - v2 的反思智能体评估决策并调整)。
行动模块:通过执行触摸交互、手势操作、输入文本、系统操作和媒体控制等类型的动作,实现与手机 UI 和系统功能的交互,确保决策转化为设备上的实际操作。
角色协调多智能体框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多个具有不同功能的智能体协作,包括规划、决策、记忆管理、反思和工具调用等,通过预定义工作流程共同完成任务。 基于场景的任务执行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根据特定任务场景动态分配任务给专家智能体,每个智能体可以具有针对特定场景(如购物、编码、导航)的能力,提高任务成功率和效率。
如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了该框架的有效性,通过先生成动作描述,再根据动作描述定位到要操作的控件位置,提高了任务执行的清晰度、可靠性和适应性,允许独立改进规划和 UI 定位模块。
纯文本提示词(Text-Based Prompt):主要架构为单文本模态 LLM,通过解释 UI 树信息进行决策,如 DroidBot - GPT、Enabling Conversational 等,在不同应用中有一定进展,但存在对屏幕的全局信息理解利用不足等问题。 多模态提示词(Multimodal Prompt):多模态大语言模型(MLLM)集成视觉和文本信息,通过截图和补充 UI 信息进行决策,包括基于 SoM 输出索引方法(如 MM - Navigator、AppAgent)和直接坐标输出方法(如 VisionTasker、Mobile - Agent 系列),提高了准确性和鲁棒性,但在 UI 定位准确性方面仍面临挑战。
GUI 任务专用模型架构(Task Specific Model Architectures)
通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增强直接 GUI 交互、高分辨率视觉识别、全面环境感知和条件行动预测能力,以应对不同应用和界面的任务。
特定领域:专注于屏幕理解任务,包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和屏幕问答(如 ScreenAI、WebVLN、UI - Hawk),通过特定技术提升智能体在复杂用户界面中的交互能力。
监督微调(Supervised Fine-Tuning)
通用目的:通过在特定任务数据集上微调,增强模型在 GUI 定位、OCR、跨应用导航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。 特定领域:应用于特定任务,如 ReALM 解决参考分辨率问题,IconDesc 用于生成 UI 图标替代文本,提高了模型在特定领域的性能。
强化学习(Reinforcement Learning)
手机智能体:如 DigiRL、DistRL 和 AutoGLM,通过强化学习训练智能体适应动态手机环境,提高决策能力和成功率,AutoGLM 还实现了跨平台应用。 网页智能体:ETO、Agent Q 和 AutoWebGLM 利用强化学习使智能体适应复杂网页环境,通过学习交互和改进决策,提高在网页导航和操作任务中的性能。 Windows 智能体:ScreenAgent 通过强化学习使智能体在 Windows 环境中与真实计算机屏幕交互,完成多步骤任务,展示了在桌面 GUI 自动化中的潜力。
早期数据集:如 PixelHelp 将自然语言指令映射到 UI 动作,UIBert 通过预训练提升 UI 理解,Meta - GUI 收集对话与 GUI 操作痕迹,UGIF 解决多语言 UI 指令跟随问题,MoTIF 引入任务可行性和不确定性。 大规模数据集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量设备交互数据,GUI Odyssey 用于跨应用导航训练和评估,AndroidControl 研究数据规模对智能体性能的影响,AMEX 提供详细注释增强智能体对 UI 元素的理解。
评估方法(Evaluation Pipelines):MobileEnv 提供通用训练和评估平台,AndroidArena 评估 LLM 智能体在复杂 Android 环境中的性能,LlamaTouch 实现移动 UI 任务的设备端执行和评估,B - MoCA 评估不同配置下的移动设备控制智能体,AndroidWorld 提供动态可参数化任务环境,MobileAgentBench 为移动 LLM 智能体提供高效基准,AUITestAgent 实现自动 GUI 测试,AndroidLab 提供系统框架和基准。
评估指标(Evaluation Metrics)
任务完成指标:如任务完成率、子目标成功率和端到端任务完成率,评估智能体完成任务的有效性。 行动执行质量指标:包括行动准确性、正确步骤、正确轨迹、操作逻辑和推理准确性,衡量智能体行动的精确性和逻辑性。 资源利用和效率指标:如资源消耗、步骤效率和反向冗余比,评估智能体资源利用效率。 任务理解和推理指标:如 Oracle 准确性、点准确性、推理准确性和关键信息挖掘能力,考察智能体的理解和推理能力。 格式和合规性指标:验证智能体输出是否符合格式约束。 完成意识和反思指标:评估智能体对任务边界的识别和学习能力。 评估准确性和可靠性指标:确保评估过程的一致性和可靠性。 奖励和整体性能指标:如任务奖励和平均奖励,综合评估智能体性能。
现有数据集缺乏多样性,未来需开发大规模、多模态且涵盖广泛应用、用户行为、语言和设备类型的数据集。 解决微调在域外性能方面的挑战,探索混合训练方法、无监督学习、迁移学习和辅助任务,以减少对大规模数据的依赖。
克服移动设备在计算和内存方面的限制,采用模型剪枝、量化和高效 transformer 架构等方法,如 Octopus v2 和 Lightweight Neural App Control 的创新。 利用专门硬件加速器和边缘计算解决方案,减少对云的依赖,增强隐私保护并提高响应速度。
提高智能体对用户意图的理解能力,减少手动干预,支持语音命令、手势和持续学习用户反馈。 实现智能体的个性化适应,通过集成多种学习技术,使其快速适应新任务和用户特定上下文,无需大量重新训练。
改进语言指令到 UI 元素的精确映射,集成先进视觉模型、大规模注释和有效融合技术,提升多模态定位能力。 增强智能体在复杂场景中的推理、长程规划和适应性,开发新架构、内存机制和推理算法,超越当前 LLM 能力。
建立统一的基准,覆盖多种任务、应用类型和交互模态,提供标准化指标、场景和评估协议,促进公平比较和全面评估。
开发强大的安全协议、错误处理技术和隐私保护方法,防范对抗攻击、数据泄露和意外行为,保护用户信息和信任。 实施持续监测和验证过程,实时检测和缓解风险,确保智能体行为可预测、尊重隐私并在各种条件下保持稳定性能。
综述了 LLM 驱动的手机自动化技术发展,包括多种框架(单智能体、多智能体、计划 - 然后 - 行动)、模型方法(提示工程、基于训练)和数据集 / 基准。 分析了 LLM 在提升手机自动化效率、智能性和适应性方面的作用,以及面临的挑战和未来发展方向。 强调了标准化基准和评估指标对推动领域发展的重要性,有助于公平比较不同模型和方法。