UI-TARS: 基于视觉语言模型的多模式代理

发布于:2025-05-14 ⋅ 阅读:(14) ⋅ 点赞:(0)

GitHubhttps://github.com/bytedance/UI-TARS

更多AI开源软件发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。

该应用支持跨平台运行,适用于 Windows 和 MacOS 系统。通过实时反馈和状态显示,用户可以直观地看到指令的执行情况,确保操作的精准性和高效性。

主要功能

  • 自然语言控制:通过自然语言指令控制电脑操作,简化用户交互。
  • 视觉识别支持:支持截图和视觉识别功能,能够识别屏幕内容并执行相应操作。
  • 精准控制:提供精确的鼠标和键盘控制,确保操作的准确性。
  • 跨平台支持:支持 Windows 和 MacOS 系统,满足不同用户的需求。
  • 实时反馈:提供实时反馈和状态显示,帮助用户了解指令执行情况。

性能

Online Benchmark Evaluation

Benchmark type Benchmark UI-TARS-1.5 OpenAI CUA Claude 3.7 Previous SOTA
Computer Use OSworld (100 steps) 42.5 36.4 28 38.1 (200 step)
Windows Agent Arena (50 steps) 42.1 - - 29.8
Browser Use WebVoyager 84.8 87 84.1 87
Online-Mind2web 75.8 71 62.9 71
Phone Use Android World 64.2 - - 59.5

Grounding Capability Evaluation

Benchmark UI-TARS-1.5 OpenAI CUA Claude 3.7 Previous SOTA
ScreenSpot-V2 94.2 87.9 87.6 91.6
ScreenSpotPro 61.6 23.4 27.7 43.6

Poki Game

Model 2048 cubinko energy free-the-key Gem-11 hex-frvr Infinity-Loop Maze:Path-of-Light shapes snake-solver wood-blocks-3d yarn-untangle laser-maze-puzzle tiles-master
OpenAI CUA 31.04 0.00 32.80 0.00 46.27 92.25 23.08 35.00 52.18 42.86 2.02 44.56 80.00 78.27
Claude 3.7 43.05 0.00 41.60 0.00 0.00 30.76 2.31 82.00 6.26 42.86 0.00 13.77 28.00 52.18
UI-TARS-1.5 100.00 0.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00 100.00

Minecraft

Task Type Task Name VPT DreamerV3 Previous SOTA UI-TARS-1.5 w/o Thought UI-TARS-1.5 w/ Thought
Mine Blocks (oak_log) 0.8 1.0 1.0 1.0 1.0
(obsidian) 0.0 0.0 0.0 0.2 0.3
(white_bed) 0.0 0.0 0.1 0.4 0.6
200 Tasks Avg. 0.06 0.03 0.32 0.35 0.42
Kill Mobs (mooshroom) 0.0 0.0 0.1 0.3 0.4
(zombie) 0.4 0.1 0.6 0.7 0.9
(chicken) 0.1 0.0 0.4 0.5 0.6
100 Tasks Avg. 0.04 0.03 0.18 0.25 0.31

模型对比

Here we compare performance across different model scales of UI-TARS on the OSworld benchmark.

Benchmark Type Benchmark UI-TARS-72B-DPO UI-TARS-1.5-7B UI-TARS-1.5
Computer Use OSWorld 24.6 27.5 42.5
GUI Grounding ScreenSpotPro 38.1 49.6 61.6

🚀 安装和使用

为了帮助您快速开始使用我们的模型,我们建议您按顺序执行以下步骤。这些步骤将指导您完成部署、预测后处理,以使模型在您的环境中执行作。

✅ 步骤1:部署和推理

👉 部署和推理。 这包括使用 huggingface 终端节点部署模型和运行第一个预测的说明。

✅ 第 2 步:后处理

👉 预测后处理。 这包括将模型预测解析为可执行的 pyautogui 代码。 为了帮助您更好地了解坐标处理,我们还提供了坐标处理可视化指南

提示使用指南

为了适应不同的设备环境和任务复杂性,codes/prompts.py 中的以下三个提示模板。旨在指导 GUI 代理生成适当的作。选择最适合您的使用案例的模板:

🖥️COMPUTER_USE​

建议用于:桌面环境(如 Windows、Linux 或 macOS)上的 GUI 任务。

特征:

  • 支持常见的桌面作:鼠标单击(单击、双击、右键单击)、拖动作、键盘快捷键、文本输入、滚动等。
  • 非常适合浏览器导航、办公软件交互、文件管理和其他基于桌面的任务。
📱MOBILE_USE​

建议用于:移动设备或 Android 仿真器上的 GUI 任务。

特征:

  • 包括特定于移动设备的作:、、、 .long_pressopen_apppress_homepress_back​
  • 适用于启动应用程序、滚动视图、填充输入字段以及在移动应用程序中导航。
📌GROUNDING​

推荐用于:仅专注于作输出的轻量级任务,或用于模型训练和评估。

特征:

  • 仅输出 ,无需任何推理 ()。ActionThought​
  • 用于评估接地能力。

实战演习

步骤 1:初始化:UI-TARS 首先使用 PyAutoGUI 初始化交互环境以与 GUI 元素交互。

步骤 2:观察和思考过程

  • 观察:UI-TARS 识别桌面上的 Word 图标。
  • 思考:“Word 图标存在;我需要双击它才能打开 Word 程序。”
  • 操作:在 Word 图标上执行左键双击操作。

步骤 3:等待程序启动

  • 观察:UI-TARS 检测到 Word 程序正在加载。
  • 想法:“我应该等到 Word 完全启动以避免交互错误。”
  • 操作:执行等待操作以确保环境已准备好进行下一步。

步骤 4:输入文本并保存

  • 观察:UI-TARS 观察到 Word 文档界面已准备好进行交互。
  • 想法:“现在我可以添加文本‘hello’并使用 Ctrl+S 保存文档。”
  • 操作:执行输入(type("hello"))并保存文件(Ctrl+S)。

网站公告

今日签到

点亮在社区的每一天
去签到