今天小編分享的科學經驗:一次示範就能終身掌握!讓手機AI輕松搞定復雜操作,歡迎閱讀。
想讓手機 AI 像人類一樣快速學習?
浙大與 vivo 聯手突破!全新LearnAct框架僅需一次示範,就能教會 AI 完成復雜操作。
研究同步發布的 LearnGUI 基準,首次構建了面向移動端示範學習的評估體系,為 AI 智能體的實用化部署提供了關鍵技術支撐。
本文的作者來自浙江大學和 vivo AI lab。本文的共同第一作者為浙江大學碩士生劉廣義和趙鵬翔,主要研究方向為大語言模型驅動的 GUI 智能體技術。項目 leader 為 vivo AI lab 算法專家劉亮。本文的通信作者為浙江大學孟文超研究員。
手機 GUI 智能體:潛力與挑戰并存
随着大型語言模型(LLMs)的快速發展,手機圖形用戶界面(GUI)智能體作為一種能夠通過環境互動自主完成人類任務的前沿技術,正逐漸引發人們的關注。這些智能體通過觀察手機螢幕(截圖或 UI Tree)感知手機狀态,并生成相應的動作(如點擊、輸入、滑動等)來實現任務自動化。
然而,手機 GUI 智能體在實際部署場景中仍面臨重大挑戰。
移動應用和用戶界面的多樣性創造了許多長尾場景,截至 2025 年僅 Google Play 上就有 168 萬個應用,現有智能體在長尾場景中難以有效執行任務。
目前主流的智能體構建方法依賴通用 LLMs 的内在能力或通過大量數據微調,但面對以數百萬的移動應用及數十億用戶各自獨特的任務需求,這些方法難以覆蓋如此龐大的多樣性,導致在未見場景中表現不佳,阻礙了手機 GUI 智能體的廣泛應用。
從「示範中學習」的新範式
為解決上述限制,浙江大學和 vivo AI lab 聯合提出了LearnAct 多智能體框架和LearnGUI 基準致力于通過「少樣本示範學習」解決手機 GUI 智能體的「長尾問題」。
與傳統方法不同,這種基于示範的方法能夠在少量用戶提供的示例基礎上實現穩健性和個性化,從而彌合預訓練模型無法覆蓋的 " 個性化鴻溝 "。
實現結果表明,單個示範就能使 Gemini-1.5-Pro 的準确率從 19.3% 提升至 51.7%,UI-TARS-7B-SFT 的在線任務成功率從 18.1% 提升至 32.8%。LearnAct 多智能體框架和 LearnGUI 基準的提出為設計更加智能、更加個性化的手機 GUI 智能體開辟全新的方向,讓我們的手機操作變得更加便捷、高效。
△LearnAct 多智能體框架和 LearnGUI 基準致力于通過少樣本示範學習解決手機 GUI 智能體的長尾問題
研究團隊認識到,手機用戶通常有獨特且重復性的任務,同時具有内在變化性——例如智能家居控制、健康監測或企業軟體。
這些場景結合了穩定模式和可變元素,通過用戶特定的示範,該方法使智能體能夠學習一致模式和适應策略,獲取一般訓練數據集無法覆蓋的任務特定知識。
△LearnGUI 數據集示例 LearnGUI:首個專為研究示範學習設計的基準
為填補高質量示範數據的空白,研究團隊構建了LearnGUI基準。
這是首個專為研究移動 GUI 代理從少量示範中學習能力而設計的基準。基于AMEX和AndroidWorld構建,LearnGUI 包含 2,252 個離線少樣本任務和 101 個在線任務,均附帶高質量人類示範。
△LearnGUI 基準基本信息
該基準不僅支持對不同數量示範對代理性能影響的研究,還系統分析了示範任務與目标任務之間不同類型相似性(指令相似性、UI 相似性和動作相似性)對學習效果的影響。
△LearnGUI 基準中的示範任務數量以及與目标任務相似度的分布情況 LearnAct:多智能體框架自動理解和利用示範
研究團隊進一步提出了LearnAct 多智能體框架,能夠自動理解人類示範、生成指導性知識,并使用這些知識幫助手機 GUI 智能體推理未見場景。LearnAct 由 DemoParser、KnowSeeker 和 ActExecutor 三個專業智能體組成。
△LearnAct 框架的三個核心組件:DemoParser、KnowSeeker 和 ActExecutor
DemoParser 智能體将原始的人類示範轉化為結構化的示範知識。
它以原始動作序列(包括基于坐标的點擊、滑動和文本輸入等)以及相應的螢幕截圖和任務指令作為輸入。
随後,它利用視覺 - 語言模型生成具有語義描述性的動作描述,捕捉每個演示步驟的本質(例如," 在搜索頁面上,點擊搜索框,輸入關鍵詞 ")。
基于這些描述,它構建了一個結構化的知識庫,記錄了高層次的動作語義。
△DemoParser 工作流
KnowSeeker 智能體是 LearnAct 框架中的檢索組件,負責識别與當前任務上下文最相關的演示知識。
KnowSeeker 充當由 DemoParser 生成的知識庫與 ActExecutor 執行環境之間的橋梁,專精于高效地訪問和選擇針對特定任務最适用的知識。
△KnowSeeker 工作流程
ActExecutor 智能體是 LearnAct 框架中的執行組件,它将檢索到的演示知識轉化為目标環境中有效的操作。
ActExecutor 是 LearnAct 流程的最終環節,它整合了用戶指令、實時的圖形用戶界面感知信息以及演示知識,能夠熟練的操作長尾場景下的手機界面。
當 DemoParser 創建結構化知識,而 KnowSeeker 檢索到相關的演示後,ActExecutor 則運用這些知識來解決實際任務。
△ActExecutor 工作流
這種多智能體架構使 LearnAct 能夠系統地從人類示範中提取、檢索和利用知識,通過最少的示範實現對新場景的有效适應。
實驗結果:示範學習顯著提升性能
實驗結果揭示了示範學習對手機 GUI 智能體能力的顯著增強。
在離線評估中,單個示範就能大幅提升模型性能,最引人注目的是 Gemini-1.5-Pro 的準确率從 19.3% 提升至 51.7%(相對提升 198.9%)。
在復雜應用如 CityMapper 和 To-Do 應用中,性能提升尤為明顯,分别從 14.1% 提升至 69.4% 和從 17.4% 提升至 69.2%。
△不同模型在 LearnGUI-Offline 基準上的性能比較
在真實世界的在線評估中,LearnAct 框架表現出色。
下表展示了在 LearnGUI-Online 基準上的在線評估結果,LearnAct 框架顯著提升了所評估的兩種模型的性能,其中 Qwen2-VL-7B 從 9.9% 提升至 21.1%(+11.2%),UI-TARS-7B-SFT 從 18.1% 提升至 32.8%(+14.7%)。
這些顯著的提升表明,基于示範的學習方法能夠有效地轉化為現實互動場景中的優勢。
△不同模型在 LearnGUI-Online 基準上的性能比較
下圖中給出了 LearnAct 和 Baseline 方法在 ExpenseDeleteMultiple 任務上的表現。
在這樣的長尾場景下,Baseline 方法中 GUI 智能體無法正确規劃任務執行路徑最終以失敗告終。
相比之下只需要給出一個演示案例,LearnAct 框架就能自動識别 ExpenseDeleteMultiple 任務中的執行模式并進行學習,面對相似的任務與不同的 UI 界面,順利完成了操作任務。
△Qwen2-VL-7B 作為基模型,LearnAct 和 Baseline 在 ExpenseDeleteMultiple 任務上的表現結論:示範學習引領手機 GUI 智能體發展新方向
這項研究提出的基于示範學習的新範式,為應對手機 GUI 智能體的長尾挑戰開辟了新路徑。
作為首個全面的示範學習研究基準,LearnGUI 與 LearnAct 多智能體框架,有力證明了示範學習在開發更具适應性、個性化和實用性的手機 GUI 智能體方面的巨大潛力。
随着移動設備在現代生活中的廣泛應用,這種能夠從少量示範中高效學習的方法,為打造真正智能的手機助手奠定了堅實基礎,讓我們在現實世界中距離科幻電影中 "J.A.R.V.I.S." 般的智能體驗更近一步。
論文地址:
https://arxiv.org/abs/2504.13805
項目地址:
https://lgy0404.github.io/LearnAct/
GitHub:
https://github.com/lgy0404/LearnAct
HuggingFace:
https://huggingface.co/datasets/lgy0404/LearnGUI
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見