大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

一次示範就能終身掌握!讓手機AI輕松搞定復雜操作

2025-05-01 简体 HK SG TW

今天小編分享的科學經驗:一次示範就能終身掌握!讓手機AI輕松搞定復雜操作,歡迎閱讀。

想讓手機 AI 像人類一樣快速學習?

浙大與 vivo 聯手突破!全新LearnAct框架僅需一次示範,就能教會 AI 完成復雜操作。

研究同步發布的 LearnGUI 基準,首次構建了面向移動端示範學習的評估體系,為 AI 智能體的實用化部署提供了關鍵技術支撐。

本文的作者來自浙江大學和 vivo AI lab。本文的共同第一作者為浙江大學碩士生劉廣義和趙鵬翔,主要研究方向為大語言模型驅動的 GUI 智能體技術。項目 leader 為 vivo AI lab 算法專家劉亮。本文的通信作者為浙江大學孟文超研究員。

手機 GUI 智能體:潛力與挑戰并存

随着大型語言模型(LLMs)的快速發展,手機圖形用戶界面(GUI)智能體作為一種能夠通過環境互動自主完成人類任務的前沿技術,正逐漸引發人們的關注。這些智能體通過觀察手機螢幕(截圖或 UI Tree)感知手機狀态,并生成相應的動作(如點擊、輸入、滑動等)來實現任務自動化。

然而,手機 GUI 智能體在實際部署場景中仍面臨重大挑戰。

移動應用和用戶界面的多樣性創造了許多長尾場景,截至 2025 年僅 Google Play 上就有 168 萬個應用,現有智能體在長尾場景中難以有效執行任務。

目前主流的智能體構建方法依賴通用 LLMs 的内在能力或通過大量數據微調,但面對以數百萬的移動應用及數十億用戶各自獨特的任務需求,這些方法難以覆蓋如此龐大的多樣性,導致在未見場景中表現不佳,阻礙了手機 GUI 智能體的廣泛應用。

從「示範中學習」的新範式

為解決上述限制,浙江大學和 vivo AI lab 聯合提出了LearnAct 多智能體框架和LearnGUI 基準致力于通過「少樣本示範學習」解決手機 GUI 智能體的「長尾問題」。

與傳統方法不同,這種基于示範的方法能夠在少量用戶提供的示例基礎上實現穩健性和個性化,從而彌合預訓練模型無法覆蓋的 " 個性化鴻溝 "。

實現結果表明,單個示範就能使 Gemini-1.5-Pro 的準确率從 19.3% 提升至 51.7%,UI-TARS-7B-SFT 的在線任務成功率從 18.1% 提升至 32.8%。LearnAct 多智能體框架和 LearnGUI 基準的提出為設計更加智能、更加個性化的手機 GUI 智能體開辟全新的方向,讓我們的手機操作變得更加便捷、高效。

△LearnAct 多智能體框架和 LearnGUI 基準致力于通過少樣本示範學習解決手機 GUI 智能體的長尾問題

研究團隊認識到,手機用戶通常有獨特且重復性的任務,同時具有内在變化性——例如智能家居控制、健康監測或企業軟體。

這些場景結合了穩定模式和可變元素,通過用戶特定的示範,該方法使智能體能夠學習一致模式和适應策略,獲取一般訓練數據集無法覆蓋的任務特定知識。

△LearnGUI 數據集示例 LearnGUI:首個專為研究示範學習設計的基準

為填補高質量示範數據的空白,研究團隊構建了LearnGUI基準。

這是首個專為研究移動 GUI 代理從少量示範中學習能力而設計的基準。基于AMEX和AndroidWorld構建,LearnGUI 包含 2,252 個離線少樣本任務和 101 個在線任務,均附帶高質量人類示範。

△LearnGUI 基準基本信息

該基準不僅支持對不同數量示範對代理性能影響的研究,還系統分析了示範任務與目标任務之間不同類型相似性(指令相似性、UI 相似性和動作相似性)對學習效果的影響。

△LearnGUI 基準中的示範任務數量以及與目标任務相似度的分布情況 LearnAct:多智能體框架自動理解和利用示範

研究團隊進一步提出了LearnAct 多智能體框架,能夠自動理解人類示範、生成指導性知識,并使用這些知識幫助手機 GUI 智能體推理未見場景。LearnAct 由 DemoParser、KnowSeeker 和 ActExecutor 三個專業智能體組成。

△LearnAct 框架的三個核心組件:DemoParser、KnowSeeker 和 ActExecutor

DemoParser 智能體将原始的人類示範轉化為結構化的示範知識。

它以原始動作序列(包括基于坐标的點擊、滑動和文本輸入等)以及相應的螢幕截圖和任務指令作為輸入。

随後,它利用視覺 - 語言模型生成具有語義描述性的動作描述,捕捉每個演示步驟的本質(例如," 在搜索頁面上,點擊搜索框,輸入關鍵詞 ")。

基于這些描述,它構建了一個結構化的知識庫,記錄了高層次的動作語義。

△DemoParser 工作流

KnowSeeker 智能體是 LearnAct 框架中的檢索組件,負責識别與當前任務上下文最相關的演示知識。

KnowSeeker 充當由 DemoParser 生成的知識庫與 ActExecutor 執行環境之間的橋梁,專精于高效地訪問和選擇針對特定任務最适用的知識。

△KnowSeeker 工作流程

ActExecutor 智能體是 LearnAct 框架中的執行組件,它将檢索到的演示知識轉化為目标環境中有效的操作。

ActExecutor 是 LearnAct 流程的最終環節,它整合了用戶指令、實時的圖形用戶界面感知信息以及演示知識,能夠熟練的操作長尾場景下的手機界面。

當 DemoParser 創建結構化知識,而 KnowSeeker 檢索到相關的演示後,ActExecutor 則運用這些知識來解決實際任務。

△ActExecutor 工作流

這種多智能體架構使 LearnAct 能夠系統地從人類示範中提取、檢索和利用知識,通過最少的示範實現對新場景的有效适應。

實驗結果:示範學習顯著提升性能

實驗結果揭示了示範學習對手機 GUI 智能體能力的顯著增強。

在離線評估中,單個示範就能大幅提升模型性能,最引人注目的是 Gemini-1.5-Pro 的準确率從 19.3% 提升至 51.7%(相對提升 198.9%)。

在復雜應用如 CityMapper 和 To-Do 應用中,性能提升尤為明顯,分别從 14.1% 提升至 69.4% 和從 17.4% 提升至 69.2%。

△不同模型在 LearnGUI-Offline 基準上的性能比較

在真實世界的在線評估中,LearnAct 框架表現出色。

下表展示了在 LearnGUI-Online 基準上的在線評估結果,LearnAct 框架顯著提升了所評估的兩種模型的性能,其中 Qwen2-VL-7B 從 9.9% 提升至 21.1%(+11.2%),UI-TARS-7B-SFT 從 18.1% 提升至 32.8%(+14.7%)。

這些顯著的提升表明,基于示範的學習方法能夠有效地轉化為現實互動場景中的優勢。

△不同模型在 LearnGUI-Online 基準上的性能比較

下圖中給出了 LearnAct 和 Baseline 方法在 ExpenseDeleteMultiple 任務上的表現。

在這樣的長尾場景下,Baseline 方法中 GUI 智能體無法正确規劃任務執行路徑最終以失敗告終。

相比之下只需要給出一個演示案例,LearnAct 框架就能自動識别 ExpenseDeleteMultiple 任務中的執行模式并進行學習,面對相似的任務與不同的 UI 界面,順利完成了操作任務。

△Qwen2-VL-7B 作為基模型,LearnAct 和 Baseline 在 ExpenseDeleteMultiple 任務上的表現結論:示範學習引領手機 GUI 智能體發展新方向

這項研究提出的基于示範學習的新範式,為應對手機 GUI 智能體的長尾挑戰開辟了新路徑。

作為首個全面的示範學習研究基準,LearnGUI 與 LearnAct 多智能體框架,有力證明了示範學習在開發更具适應性、個性化和實用性的手機 GUI 智能體方面的巨大潛力。

随着移動設備在現代生活中的廣泛應用,這種能夠從少量示範中高效學習的方法,為打造真正智能的手機助手奠定了堅實基礎,讓我們在現實世界中距離科幻電影中 "J.A.R.V.I.S." 般的智能體驗更近一步。

論文地址:

https://arxiv.org/abs/2504.13805

項目地址:

https://lgy0404.github.io/LearnAct/

GitHub:

https://github.com/lgy0404/LearnAct

HuggingFace:

https://huggingface.co/datasets/lgy0404/LearnGUI

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們