首先是惯例强调一下自己的工作是基于视觉的,不是那种拿一个html文件或者UI结构树给模型让他操作的工作。然后提出了一个很有意思的观点,认为Grounding能力(定位能力)对模型表现的影响非常大。
主要novelty就这几个:
我们的主要贡献如下:•我们开发了一个统一的可视化GUI代理SeeClick,它仅依靠界面截图在不同的GUI平台上执行点击和打字操作。
•我们前瞻性地探索了可视化GUI代理的GUI基础,并通过提出的GUI基础预培训策略增强了SeeClick。
•我们创建了一个逼真的GUI基础基准ScreenSpot,包含来自各种GUI平台的1200多条指令。
•ScreenSpot和三个代理任务的实验结果表明,增强代理的接地能力是提高下游代理任务性能的关键。
接下来文章提到了grounding能力的一些细节。文章提到从前的很多工作会把图像分成很多部分然后训练模型识别目标在哪一个块里。本文则要求模型直接用自然语言方式输出目标,然后计算与真实结果的交叉熵。
至于项目中构建的数据集ScreenSpot,作者是网络爬取了web数据,从开源数据集中充足了一部分手机的轨迹数据,还照搬了一部分开源数据(LLAVA的常规数据)。
“Web UI具有跨网站的各种布局和设计风格,是训练LVLM在不同GUI上下文中的一般识别和基础能力的理想选择。我们从最新的Common Crawl存储库中收集了大约30万个网页,作为我们的web UI培训数据。对于每个网页,我们从HTML代码中收集两种类型的元素,如图3所示:(1)显示可见文本内容的元素;以及(2)具有特殊“title”属性的元素,在悬停时显示描述性文本。这种方法确保我们收集一系列可交互的元素y及其相应的指令x,同时包含广泛的文本和图标元素。除了基础任务p(y|s,x)外,我们还包括基于坐标预测文本描述的web OCR任务p(x|s,y)。”
“移动数据。对于移动UI,我们包括三种类型的数据:小部件字幕、移动UI基础和移动UI摘要。小部件字幕数据集为移动UI元素提供语言描述;例如,音乐播放器界面上播放按钮的描述“播放音乐”。”
最后还照搬了一部分开源数据(LLAVA的常规数据)
模型训练方面,文章的基础模型是Qwen-VL,在上面的数据集训练了1个epoch,用了LoRA。
实验部分,首先实验定位能力,与各种模型battle 巴拉巴拉,然后又是在三大件上面进行传统功夫GUI agent实力比拼,结果如下:
接下来是一些训练细节,做ppt的时候再看