今天小編分享的科技經驗:谷歌版賈維斯即将問世,最強Gemini 2.0加持!AI自主操控電腦時代來臨,歡迎閱讀。
【新智元導讀】科幻中的賈維斯,已經離我們不遠了。Claude 3.5 接管人類電腦掀起了人機互動全新範式,爆料稱谷歌同類 Project Jarvis 預計年底亮相。AI 操控電腦已成為微軟、蘋果等巨頭,下一個發力的戰場。
AI 接管人類電腦,就是下一個未來!
幾天前,Anthropic 向所有人展示了,Claude 3.5 自主看螢幕操作遊標完成復雜任務,足以驚掉下巴。
剛剛,Information 獨家爆料稱,谷歌正開發同類新項目「Project Jarvis」,能将 Chrome 網頁任務自動化。
谷歌「賈維斯」将由未來版 Gemini 2.0 驅動,預計在 12 月亮相。
起這個名字,是為了向鋼鐵俠中的 J.A.R.V.I.S 致敬。
無獨有偶,微軟團隊悄悄放出的 OmniParser,也在笃定 AI 智能體操控螢幕的未來。
論文地址:https://arxiv.org/pdf/2408.00203
OmniParser 主要是一個螢幕解析的工具,可以将截圖轉化為結構化數據,幫助 AI 精準理解用戶意圖。
不僅如此,OpenAI 内部已有了 AI 智能體雛形,可以操控計算機完成在線訂餐、自動查詢解決編程難題等任務。
包括蘋果在内,預計在明年發布跨多個 APP 螢幕識别能力。最新迭代的 Ferret-UI 2,就是通用 UI 模型。
可見,「Computer use」已經成為科技大廠們,重點發力的下一個戰場。
谷歌「賈維斯」年底出世,最強 Gemini 2 加持
代号為 Jarvis Project 項目,本質上是一個大動作模型(LAM),也是谷歌一直以來在做的大模型方向。
它專門針對谷歌 Chrome 浏覽器,進行了優化。
具體操作原理,與 Claude 3.5 類似,通過截屏、解析螢幕内容,然後自動點擊按鈕,或輸入文本,最終幫助人們完成基于網頁的日常任務。
不論是收集研究信息、購物,或是預定班機等任務,谷歌「賈維斯」均可實現。
不過,它在執行不同操作時,中間會有幾秒鍾的思考時間。
因此,在終端設備中運行還不太現實,仍然需要雲上操作。
5 月的谷歌 I/O 大會上,谷歌 CEO 劈柴曾展示了,Gemini 和 Chrome 如何協同工作的樣貌。
如前所述,谷歌「賈維斯」将由 Gemini 2.0 加持,也就意味着年底我們可以看到進步版 Gemini 模型。
盡管 Sam Altman 否認了 Orion 模型的發布,但外媒猜測,預計年底 OpenAI 也将放出新核彈
微軟 OmniParser 也下場了
緊接着 Claude「計算機使用」發布之後,微軟就開源了 AI 框架 OmniParser。
假設你想要去布賴斯峽谷國家公園,不知是否需要訂票入園,這時 OmniParser 可以帶你查詢。
它會解析螢幕後,自動點擊「permits」按鈕,然後再截屏找到「布賴斯峽谷國家公園」,最後就可以完成用戶任務。
可見,想要把類似 GPT-4V 的多模态大模型應用于作業系統上,模型還需要具備強大的螢幕解析能力,主要包括兩方面:
1、準确地識别用戶界面中的可互動圖示;
2、理解螢幕截圖中各種元素的語義,并準确将預期動作與螢幕上的相應區網域關聯起來。
基于上述思路,微軟最新提出的 OmniParser 模型,可以将用戶界面截圖解析為結構化元素,顯著增強了 GPT-4V 在對應界面區網域預測行動的能力。
方法
一個復雜的操作任務通常可以分解成多個子行動步驟,在執行過程中,模型需要具備以下能力:
1、理解當前步驟的用戶界面,即分析螢幕内容中大體上在展示什麼、檢測到的圖示功能是什麼等;
2、預測當前螢幕上的下一個動作,來幫助完成整個任務。
研究人員發現,将這兩個目标分解開,比如在螢幕解析階段只提取語義信息等,可以減輕 GPT-4V 的負擔;模型也能夠從解析後的螢幕中利用更多信息,動作預測準确率更高。
因此,OmniParser 結合了微調後的可互動圖示檢測模型、微調後的圖示描述模型以及光學字元識别(OCR)模塊的輸出,可以生成用戶界面的結構化表示,類似于文檔對象模型(DOM),以及一個疊加潛在可互動元素邊界框的螢幕截圖。
可互動區網域檢測(Interactable Region Detection)
從用戶界面螢幕中識别出「可互動區網域」非常關鍵,也是預測下一步行動來完成用戶任務的基礎。
研究人員并沒有直接提示 GPT-4V 來預測螢幕中操作範圍的 xy 坐标值,而是遵循先前的工作,使用标記集合方法在用戶界面截圖上疊加可互動圖示的邊界框,并要求 GPT-4V 生成要執行動作的邊界框 ID。
為了提高準确性,研究人員構造了一個用于可互動圖示檢測的微調數據集,包含 6.7 萬個不重復的螢幕截圖,其中所有影像都使用從 DOM 樹派生的可互動圖示的邊界框進行标記。
為了構造數據集,研究人員首先從網絡上公開可用的網址中提取了 10 萬個均勻樣本,并從每個 URL 的 DOM 樹中收集網頁的可互動區網域的邊界框。
除了可互動區網域檢測,還引有一個 OCR 模塊來提取文本的邊界框。
然後合并 OCR 檢測模塊和圖示檢測模塊的邊界框,同時移除重疊度很高的框(阈值為重疊超過 90%)。
對于每個邊界框,使用一個簡單的算法在邊框旁邊标記一個 ID,以最小化數字标籤和其他邊界框之間的重疊。
整合功能的局部語義(Incorporating Local Semantics of Functionality)
研究人員發現,在很多情況下,如果僅輸入疊加了邊界框和相關 ID 的用戶界面截圖可能會對 GPT-4V 造成誤導,這種局限性可能源于 GPT-4V 無法「同時」執行「識别圖示的語義信息」和「預測特定圖示框上的下一個動作」的復合任務。
為了解決這個問題,研究人員将功能局部語義整合到提示中,即對于可互動區網域檢測模型檢測到的圖示,使用一個微調過的模型為圖示生成功能描述;對于文本框,使用檢測到的文本及其标籤。
然而,目前還沒有專門為用戶界面圖示描述而訓練的公共模型,但這類模型非常适合目标場景,即能夠為用戶界面截圖提供快速準确的局部語義。
研究人員使用 GPT-4o 構造了一個包含 7000 對「圖示 - 描述」的數據集,并在數據集上微調了一個 BLIP-v2 模型,結果也證明了該模型在描述常見應用圖示時更加可靠。
實驗評估
SeeAssign 任務
為了測試 GPT-4V 模型正确預測邊界框描述所對應的标籤 ID 的能力,研究人員手工制作了一個名為 SeeAssign 的數據集,其中包含了來自 3 個不同平台(移動設備、桌面電腦和網絡浏覽器)的 112 個任務樣本,每個樣本都包括一段簡潔的任務描述和一個螢幕截圖。
根據難度,任務被分為三類:簡單(少于 10 個邊界框)、中等(10-40 個邊界框)和困難(超過 40 個邊界框)。
GPT-4V 不帶局部語義的提示:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, your task is {task}. Which icon box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [ xx ] ‘‘‘
帶局部語義的提示:
Here is a UI screenshot image with bounding boxes and corresponding labeled ID overlayed on top of it, and here is a list of icon/text box description: {parsed_local_semantics}. Your task is {task}. Which bounding box label you should operate on? Give a brief analysis, then put your answer in the format of ‘‘‘ Box with label ID: [ xx ] ‘‘‘
從結果來看,GPT-4V 經常錯誤地将數字 ID 分配給表格,特别是當螢幕上有很多邊界框時;通過添加包括框内文本和檢測到的圖示的簡短描述在内的局部語義,GPT-4V 正确分配圖示的能力從 0.705 提高到 0.938
ScreenSpot 評估
ScreenSpot 數據集是一個基準測試數據集,包含了來自移動設備(iOS、Android)、桌面電腦(macOS、Windows)和網絡平台的 600 多個界面截圖,其中任務指令是人工創建的,以确保每個指令都對應用戶界面螢幕上的一個可操作元素。
結果顯示,在三個不同的平台上,OmniParser 顯著提高了 GPT-4V 的基線性能,甚至超過了專門在圖形用戶界面(GUI)數據集上微調過的模型,包括 SeeClick、CogAgent 和 Fuyu,并且超出的幅度很大。
還可以注意到,加入局部語義(表中的 OmniParser w. LS)可以進一步提高整體性能,即在文本格式中加入用戶界面截圖的局部語義(OCR 文本和圖示邊界框的描述),可以幫助 GPT-4V 準确識别要操作的正确元素。
Mind2Web 評估
測試集中有 3 種不同類型的任務:跨領網域、跨網站和跨任務,可以測試 OmniParser 在網頁導航場景中的輔助能力。
結果顯示,即使沒有使用網頁的 HTML 信息,OmniParser 也能大幅提高智能體的性能,甚至超過了一些使用 HTML 信息的模型,表明通過解析螢幕截圖提供的語義信息非常有用,特别是在處理跨網站和跨領網域任務時,模型的表現尤為出色。
AITW 評估
研究人員還在移動設備導航基準測試 AITW 上對 OmniParser 進行了評估,測試包含 3 萬條指令和 71.5 萬條軌迹。
結果顯示,用自己微調的模型替換了原有的 IconNet 模型,并加入了圖示功能的局部語義信息後,OmniParser 在大多數子類别中的表現都有了顯著提升,整體得分也比之前最好的 GPT-4V 智能體提高了 4.7%。
這表明了,模型能夠很好地理解和處理移動設備上的用戶界面,即使在沒有額外訓練數據的情況下也能表現出色。
參考資料:
https://microsoft.github.io/OmniParser/
https://x.com/Prashant_1722/status/1850265364158124192