开源的跨语言GUI元素理解8B大模型:AgentCPM-GUI

发布于:2025-05-16 ⋅ 阅读:(16) ⋅ 点赞:(0)

一、模型概述

AgentCPM-GUI 是由清华大学自然语言处理实验室 (THUNLP) 和 ModelBest 联合开发的开源大模型。该模型基于 MiniCPM-V 架构,拥有 80 亿参数规模,是一个能够直接在终端设备上运行的轻量化智能体。它创新性地将多模态输入与 GUI 操作相结合,主要面向移动终端应用交互场景,通过接收智能手机屏幕截图作为输入,自动执行用户指定的各类任务。这标志着智能体技术在移动端 GUI 操作领域迈出了重要一步,为后续研究和应用开发提供了新的思路。

二、关键特性

  1. 高质量 GUI 定位能力 :AgentCPM-GUI 在大规模双语 Android 数据集上进行了预训练,有效提升了对常见 GUI 元素(如按钮、输入框、标签、图标等)的识别与理解精度,使其能更精准地定位界面中的操作目标。

  2. 中文应用适配优势 :作为首个面向中文应用精细调优的开源 GUI 智能体,它支持包括高德地图、大众点评、哔哩哔哩、小红书等 30 多款热门应用,打破了语言壁垒,拓展了智能体在中文移动应用生态中的应用范围。

  3. 强化推理规划能力 :借助强化精调(RFT)技术,模型在执行操作前能够进行深度 “思考”,模拟人类的决策过程,从而在复杂任务场景下显著提高了任务执行的成功率,增强了智能体应对多步操作任务的能力。

  4. 紧凑的动作空间设计 :对动作空间进行了优化,采用简洁的 JSON 格式表示操作指令,将平均动作长度压缩至 9.7 个标记,大幅提升了在终端设备上的推理效率,降低了计算资源消耗,使模型更易于在移动设备端部署和运行。

三、性能评估

(一)基准测试对比

在接地基准测试中,AgentCPM-GUI 在多个评估指标上均展现出优异性能。例如,在 fun2point、text2point、bbox2text 以及平均指标上,AgentCPM-GUI-8B 分别取得了 79.1、76.5、58.2、71.3 的成绩,全面超越了其他对比模型如 Qwen2.5-VL-7B、Intern2.5-VL-8B 等,这表明其在将功能描述映射到具体 GUI 元素坐标点、文本内容与坐标点关联、边界框文本提取等任务上具有更精准的表现,能够更可靠地完成基于 GUI 的任务指令。

(二)智能体基准测试表现

在智能体基准测试涵盖的 Android 控制低 TM、Android 控制低 EM、Android 控制高 TM、Android 控制高 EM、GUI Odyssey TM、GUI Odyssey EM、AITZ TM、AITZ EM 等多个子数据集评估中,AgentCPM-GUI 同样取得了领先地位。以 Android 控制高 TM 数据集为例,AgentCPM-GUI 达到了 90.85 的高分,相较于其他模型如 UI-TARS-7B 的 78.79、OS-Atlas-7B 的异常值 91.83* 等,整体表现更加稳定且优秀,充分证明了其在复杂 GUI 场景下的高效控制能力和任务执行能力。此外,与其他大型模型如 GPT-4o、Gemini 2.0 等相比,AgentCPM-GUI 在特定 GUI 任务场景中也展现出了强大的竞争力,有力地缩小了与封闭式大型模型在 GUI 智能体应用领域的差距。

四、技术细节

(一)模型架构

AgentCPM-GUI 以 MiniCPM-V 为基础架构进行扩展和优化,继承了其高效的多模态融合处理能力,并针对 GUI 操作任务特点进行了适应性调整。该架构能够有效整合文本和图像信息,为模型理解屏幕截图中的 GUI 元素布局和内容提供了坚实的技术支撑,使其能够基于多模态输入生成精准的操作指令。

(二)训练方法

  1. 预训练阶段 :利用大规模双语 Android 数据集对模型进行预训练,涵盖了丰富的 GUI 界面样式和操作场景,使模型初步具备了对不同 GUI 元素的识别和理解能力,为后续的精细调优奠定了基础。

  2. 强化精调(RFT)阶段 :通过强化学习算法对模型进行进一步优化,重点提升了模型在复杂任务场景下的推理规划能力。在这一阶段,模型学习如何根据当前 GUI 状态和任务目标,合理地规划操作步骤,模拟人类的思考过程,从而提高任务执行的成功率和准确性。

(三)数据集

AgentCPM-GUI 的开发依赖于高质量的数据集支持。其中,预训练所使用的双语 Android 数据集包含了大量不同应用的界面截图及相关操作记录,涵盖了多种语言和文化背景下的 GUI 设计风格,为模型的跨语言 GUI 操作能力提供了丰富的训练素材。此外,为了更好地适配中文应用,还专门针对 30 多款热门中文应用进行了数据收集和标注,用于模型的精细调优,确保其在中文移动应用生态中的有效性和实用性。

五、应用案例与演示

论文提供了一个直观的演示案例,展示了 AgentCPM-GUI 如何根据用户指令操作移动应用。例如,当给定 “请点击屏幕上的‘会员’按钮” 这一指令,并输入相应的屏幕截图后,模型能够准确识别截图中的 “会员” 按钮位置,并生成相应的点击操作指令。通过实际的视频演示链接,研究人员和开发者可以更清晰地了解模型在真实移动应用环境中的操作效果和性能表现,这为模型的实际应用推广提供了有力的示范。

六、快速上手指南

(一)环境搭建

  1. 首先,通过 git 克隆项目仓库,获取 AgentCPM-GUI 的源代码。

  2. 创建名为 gui_agent 的 conda 虚拟环境,并指定 Python 版本为 3.11,为模型运行提供稳定的依赖环境。

  3. 从 Hugging Face 下载 AgentCPM-GUI 模型文件,并将其放置在项目的 model/AgentCPM-GUI 目录下。

  4. 激活 gui_agent 虚拟环境后,执行 pip install -r requirements.txt 命令安装项目所需的各种依赖包,包括 transformers、torch、PIL 等,确保模型能够正常运行和调用相关功能。

(二)代码示例与调用说明

  1. 模型加载与推理代码示例 :展示了如何使用 PyTorch 和 transformers 库加载 AgentCPM-GUI 模型和分词器,并对输入的屏幕截图和指令进行处理,生成操作指令的代码流程。包括图像预处理(如调整图像大小以节省计算和内存资源)、构建输入消息格式以及调用模型的 chat 方法进行推理等关键步骤,为开发者提供了清晰的代码参考。

  2. vLLM 推理服务调用示例 :介绍了如何启动 vLLM 服务器,并通过发送 HTTP 请求的方式调用 AgentCPM-GUI 模型进行推理。具体包括图像的 Base64 编码、构建符合要求的请求消息格式以及发送请求并获取响应的代码实现,拓宽了模型的应用调用方式,方便在不同系统环境中集成和使用模型。

七、未来展望

AgentCPM-GUI 的开源为 GUI 智能体领域带来了新的活力和机遇。其在跨语言 GUI 操作、复杂任务推理规划等方面的技术突破,为后续的研究和应用开发提供了宝贵的经验和参考。未来,随着移动应用的不断发展和用户需求的日益增长,AgentCPM-GUI 有望在更多的应用领域得到拓展和深化,如智能办公助手、移动游戏自动化操作、跨平台应用交互等场景。同时,研究人员可以在此基础上进一步优化模型性能、拓展模型功能,推动 GUI 智能体技术向更加智能化、高效化的方向发展,为人们提供更加便捷、智能的移动应用交互体验。

八、核心技术汇总

在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到