今天小編分享的科學經驗:Claude自動玩崩鐵清日常,NUS新論文完整測評AI電腦操控:GUI智能體的黎明,歡迎閲讀。
Claude操控電腦,究竟可以做到什麼程度?
新加坡國立大學團隊在 20 多個場景下做了全面測試,其中最引人矚目的是:AI 可以自動玩手遊清日常任務了!
研究中選用了米哈遊《崩壞:星穹鐵道》,可以跟它説 " 幫我完成今天的模拟宇宙 ",然後,Claude 就會立即依次打開遊戲菜單、找到星穹裏的 " 黃金花萼 "、自動設定 6 次挑戰次數:
甚至還可以啓動自動戰鬥、等待戰鬥結束後退出,這一套組合操作簡直行雲流水……
而且注意哦,這不僅是傳統遊戲外挂那樣的機械操作,Claude 還能智能理解遊戲規則和目标,根據界面上不同的任務進行調整。
這下好了,人類只能在一旁幹瞪眼了。
除了更多測試場景外,論文還提出了一個開箱即用的自動 GUI 框架。
有網友看到視頻後評論説:以後我去上學的時候,就可以讓 Claude 幫我玩每日任務了。
還可以自動完成很多辦公任務
Claude Computer Use 的潛能還遠遠沒有被人類發掘——
研究團隊還測試了很多日常辦公場景下它的性能:
1. 網頁搜索
它可以在 Amazon 和 Apple 官方網站上成功完成下單購物的任務,選擇顏色配置、填寫地址都輕松拿捏。
2. 工作流程
模型還成功完成了在 Apple Music 添加歌曲、編輯 Excel 數據、在 App Store 安裝應用等自動任務。
雖然界面設計和跳轉邏輯更加復雜,它還是能智能地理解任務的最終目标,真是一個成熟的好 AI(欣慰)!
3.. 辦公生產力軟體
此外,它還可以在 Outook 中轉發郵件、調整 Word 布局、設定 PowerPoint 背景設定和插入三角形形狀等等,這下真的可以大大增強生產力了(AI 無用論 -1)。
4. 還可以玩其他遊戲
除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳説》,包括創建和重命名牌組、使用英雄技能等等。
Claude Computer Use API + 自動化 GUI 框架
你可能會好奇,強如 Claude Computer Use,是怎麼做到自動完成任務的呢?
下面我們就一起來看看背後的框架設計——
具體來説,團隊基于 Claude Computer Use 的 API 設計了一個自動化 GUI 框架,主要分為以下 6 個部分:
1. 系統提示
Claude Computer Use 的系統提示包括環境概述、可用函數和參數描述。用户可以通過編寫 塊來調用這些函數,例如計算機互動、Bash Shel 命令和檔案編輯工具。
2. 狀态觀察
Claude Computer Use 通過實時截圖觀察環境,不依賴元數據或 HTML。每個時間步長過後,模型都會保留歷史截圖,幫助生成下一步的動作。
3. 推理範式
Claude Computer Use 采用了一種推理 - 行動範式,通過觀察環境來決定下一步的動作。這種範式可以讓模型在高度動态的 GUI 環境中生成更可靠的動作。
4. 工具使用
Claude Computer Use 提供了三種工具:計算機工具、文本編輯器工具和 Bash 工具,它們可以幫助模型與計算機進行互動,執行各種任務。
5.GUI 動作空間
GUI 動作空間内置了所有原始的滑鼠和鍵盤動作,如滑鼠移動、點擊、按鍵組合、拖放和截圖等。模型會根據需要自行組合。
6. 歷史視覺上下文維護
模型在每個時間步長都會保留歷史截圖,以輔助動作生成過程。具體公式如下:
性能測試
為了更加廣泛地測試 Claude Computer Use 和 GUI 框架聯合後的性能效果,團隊還設計了詳盡的測試實驗,包括
1. 數據收集:實驗設計包括在 Windows 和 macOS 上通過 ComputerUse Out-of-the-Box 平台進行評估。評估任務覆蓋了廣泛的應用領網域,包括網頁搜索、工作流程、辦公生產力軟體和視頻遊戲等。
2. 樣本選擇:選擇了 20 個任務,涵蓋 12 個軟體或網站,分為以下三個領網域:網頁搜索、工作流程、辦公生產力和視頻遊戲。具體的任務可以查看下表:
3. 參數配置:系統分辦率設定為 Windows 的(1366,768)和 macOS 的(1344,756)。過程中還加入了人類評審和評估用于監控和審查過程,确保任務的順利完成。
雖然 Claude Computer Use 在之前的例子中表現都非常厲害,但當網頁或軟體的頁面過于復雜時,模型也出現了一些失敗案例:
1. 精細網頁操作失敗:在 Fox Sports 訂閲任務中失敗,錯誤原因主要在于模型沒有正确導航到 "Account" 選項卡。
2. 辦公軟體失敗:在 Word 中更新簡歷模板、和在 PPT 中插入編号符号兩個任務中失敗,錯誤原因在于模型未能準确選擇和定位文本資料欄。
不過整體來説,Claude Computer Use 已經很棒了,而且這功能也剛剛發布沒多久,未來可期!
團隊還公開了所有測試用例的具體信息,感興趣的小夥伴可以點 GitHub 項目鏈接查看更多消息~
Claude 老師,以後我的 PPT 和 Steam 就拜托你了(bushi)
參考資料:
https://arxiv.org/pdf/2411.10323
https://github.com/showlab/computer_use_ootb