今天小编分享的科技经验:谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电腦时代来临,欢迎阅读。
【新智元导读】科幻中的贾维斯,已经离我们不远了。Claude 3.5 接管人类电腦掀起了人机互動全新范式,爆料称谷歌同类 Project Jarvis 预计年底亮相。AI 操控电腦已成为微软、苹果等巨头,下一个发力的战场。
AI 接管人类电腦,就是下一个未来!
几天前,Anthropic 向所有人展示了,Claude 3.5 自主看螢幕操作游標完成复杂任务,足以惊掉下巴。
刚刚,Information 独家爆料称,谷歌正开发同类新项目「Project Jarvis」,能将 Chrome 网页任务自动化。
谷歌「贾维斯」将由未来版 Gemini 2.0 驱动,预计在 12 月亮相。
起这个名字,是为了向钢铁侠中的 J.A.R.V.I.S 致敬。
无独有偶,微软团队悄悄放出的 OmniParser,也在笃定 AI 智能体操控螢幕的未来。
论文地址:https://arxiv.org/pdf/2408.00203
OmniParser 主要是一个螢幕解析的工具,可以将截图转化为结构化数据,帮助 AI 精准理解用户意图。
不仅如此,OpenAI 内部已有了 AI 智能体雏形,可以操控计算机完成在线订餐、自动查询解决编程难题等任务。
包括苹果在内,预计在明年发布跨多个 APP 螢幕识别能力。最新迭代的 Ferret-UI 2,就是通用 UI 模型。
可见,「Computer use」已经成为科技大厂们,重点发力的下一个战场。
谷歌「贾维斯」年底出世,最强 Gemini 2 加持
代号为 Jarvis Project 项目,本质上是一个大动作模型(LAM),也是谷歌一直以来在做的大模型方向。
它专门针对谷歌 Chrome 浏览器,进行了优化。
具体操作原理,与 Claude 3.5 类似,通过截屏、解析螢幕内容,然后自动点击按钮,或输入文本,最终帮助人们完成基于网页的日常任务。
不论是收集研究信息、购物,或是预定班機等任务,谷歌「贾维斯」均可实现。
不过,它在执行不同操作时,中间会有几秒钟的思考时间。
因此,在终端设备中运行还不太现实,仍然需要云上操作。
5 月的谷歌 I/O 大会上,谷歌 CEO 劈柴曾展示了,Gemini 和 Chrome 如何协同工作的样貌。
如前所述,谷歌「贾维斯」将由 Gemini 2.0 加持,也就意味着年底我们可以看到进步版 Gemini 模型。
尽管 Sam Altman 否认了 Orion 模型的发布,但外媒猜测,预计年底 OpenAI 也将放出新核弹
微软 OmniParser 也下场了
紧接着 Claude「计算机使用」发布之后,微软就开源了 AI 框架 OmniParser。
假设你想要去布赖斯峡谷国家公园,不知是否需要订票入园,这时 OmniParser 可以带你查询。
它会解析螢幕后,自动点击「permits」按钮,然后再截屏找到「布赖斯峡谷国家公园」,最后就可以完成用户任务。
可见,想要把类似 GPT-4V 的多模态大模型应用于作業系統上,模型还需要具备强大的螢幕解析能力,主要包括两方面:
1、准确地识别用户界面中的可互動圖示;
2、理解螢幕截图中各种元素的语义,并准确将预期动作与螢幕上的相应区網域关联起来。
基于上述思路,微软最新提出的 OmniParser 模型,可以将用户界面截图解析为结构化元素,显著增强了 GPT-4V 在对应界面区網域预测行动的能力。
方法
一个复杂的操作任务通常可以分解成多个子行动步骤,在执行过程中,模型需要具备以下能力:
1、理解当前步骤的用户界面,即分析螢幕内容中大体上在展示什么、检测到的圖示功能是什么等;
2、预测当前螢幕上的下一个动作,来帮助完成整个任务。
研究人员发现,将这两个目标分解开,比如在螢幕解析阶段只提取语义信息等,可以减轻 GPT-4V 的负担;模型也能够从解析后的螢幕中利用更多信息,动作预测准确率更高。
因此,OmniParser 结合了微调后的可互動圖示检测模型、微调后的圖示描述模型以及光学字元识别(OCR)模块的输出,可以生成用户界面的结构化表示,类似于文档对象模型(DOM),以及一个叠加潜在可互動元素边界框的螢幕截图。
可互動区網域检测(Interactable Region Detection)
从用户界面螢幕中识别出「可互動区網域」非常关键,也是预测下一步行动来完成用户任务的基础。
研究人员并没有直接提示 GPT-4V 来预测螢幕中操作范围的 xy 坐标值,而是遵循先前的工作,使用标记集合方法在用户界面截图上叠加可互動圖示的边界框,并要求 GPT-4V 生成要执行动作的边界框 ID。
为了提高准确性,研究人员构造了一个用于可互動圖示检测的微调数据集,包含 6.7 万个不重复的螢幕截图,其中所有影像都使用从 DOM 树派生的可互動圖示的边界框进行标记。
为了构造数据集,研究人员首先从网络上公开可用的网址中提取了 10 万个均匀样本,并从每个 URL 的 DOM 树中收集网页的可互動区網域的边界框。
除了可互動区網域检测,还引有一个 OCR 模块来提取文本的边界框。
然后合并 OCR 检测模块和圖示检测模块的边界框,同时移除重叠度很高的框(阈值为重叠超过 90%)。
对于每个边界框,使用一个简单的算法在边框旁边标记一个 ID,以最小化数字标签和其他边界框之间的重叠。
整合功能的局部语义(Incorporating Local Semantics of Functionality)
研究人员发现,在很多情况下,如果仅输入叠加了边界框和相关 ID 的用户界面截图可能会对 GPT-4V 造成误导,这种局限性可能源于 GPT-4V 无法「同时」执行「识别圖示的语义信息」和「预测特定圖示框上的下一个动作」的复合任务。
为了解决这个问题,研究人员将功能局部语义整合到提示中,即对于可互動区網域检测模型检测到的圖示,使用一个微调过的模型为圖示生成功能描述;对于文本框,使用检测到的文本及其标签。
然而,目前还没有专门为用户界面圖示描述而训练的公共模型,但这类模型非常适合目标场景,即能够为用户界面截图提供快速准确的局部语义。
研究人员使用 GPT-4o 构造了一个包含 7000 对「圖示 - 描述」的数据集,并在数据集上微调了一个 BLIP-v2 模型,结果也证明了该模型在描述常见应用圖示时更加可靠。
实验评估
SeeAssign 任务
为了测试 GPT-4V 模型正确预测边界框描述所对应的标签 ID 的能力,研究人员手工制作了一个名为 SeeAssign 的数据集,其中包含了来自 3 个不同平台(移动设备、桌面电腦和网络浏览器)的 112 个任务样本,每个样本都包括一段简洁的任务描述和一个螢幕截图。
根据难度,任务被分为三类:简单(少于 10 个边界框)、中等(10-40 个边界框)和困难(超过 40 个边界框)。
GPT-4V 不带局部语义的提示:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [ xx ] ‘‘‘
带局部语义的提示:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [ xx ] ‘‘‘
从结果来看,GPT-4V 经常错误地将数字 ID 分配给表格,特别是当螢幕上有很多边界框时;通过添加包括框内文本和检测到的圖示的简短描述在内的局部语义,GPT-4V 正确分配圖示的能力从 0.705 提高到 0.938
ScreenSpot 评估
ScreenSpot 数据集是一个基准测试数据集,包含了来自移动设备(iOS、Android)、桌面电腦(macOS、Windows)和网络平台的 600 多个界面截图,其中任务指令是人工创建的,以确保每个指令都对应用户界面螢幕上的一个可操作元素。
结果显示,在三个不同的平台上,OmniParser 显著提高了 GPT-4V 的基线性能,甚至超过了专门在图形用户界面(GUI)数据集上微调过的模型,包括 SeeClick、CogAgent 和 Fuyu,并且超出的幅度很大。
还可以注意到,加入局部语义(表中的 OmniParser w. LS)可以进一步提高整体性能,即在文本格式中加入用户界面截图的局部语义(OCR 文本和圖示边界框的描述),可以帮助 GPT-4V 准确识别要操作的正确元素。
Mind2Web 评估
测试集中有 3 种不同类型的任务:跨领網域、跨网站和跨任务,可以测试 OmniParser 在网页导航场景中的辅助能力。
结果显示,即使没有使用网页的 HTML 信息,OmniParser 也能大幅提高智能体的性能,甚至超过了一些使用 HTML 信息的模型,表明通过解析螢幕截图提供的语义信息非常有用,特别是在处理跨网站和跨领網域任务时,模型的表现尤为出色。
AITW 评估
研究人员还在移动设备导航基准测试 AITW 上对 OmniParser 进行了评估,测试包含 3 万条指令和 71.5 万条轨迹。
结果显示,用自己微调的模型替换了原有的 IconNet 模型,并加入了圖示功能的局部语义信息后,OmniParser 在大多数子类别中的表现都有了显著提升,整体得分也比之前最好的 GPT-4V 智能体提高了 4.7%。
这表明了,模型能够很好地理解和处理移动设备上的用户界面,即使在没有额外训练数据的情况下也能表现出色。
参考资料:
https://microsoft.github.io/OmniParser/
https://x.com/Prashant_1722/status/1850265364158124192