大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

智能體絲滑玩手機,決策延遲0.7秒!MSRA等提出驗證器架構,不直接依賴大模型生成最終操作

2025-04-03 简体 HK SG TW

今天小編分享的科學經驗:智能體絲滑玩手機,決策延遲0.7秒!MSRA等提出驗證器架構,不直接依賴大模型生成最終操作,歡迎閱讀。

随着人工智能和大語言模型(LLMs)的不斷突破,如何将其優勢賦能于現實世界中可實際部署的高效工具,成為了業界關注的焦點。

近期,由微軟亞洲研究院、南洋理工大學、清華大學、香港科技大學等多家機構聯合推出移動圖形用戶界面(GUI)任務自動化智能體——V-Droid。

憑借其全新 " 驗證器驅動 " 架構,V-Droid 不僅在任務成功率上刷新記錄,同時在決策響應速度上實現了接近實時的表現,為移動端自動化控制開辟了全新局面。

演示視頻 1:

" 請從 Broccoli 應用中删除以下食譜:雞肉阿爾弗雷多意大利面、番茄羅勒烤面包以及番茄羅勒烤奶酪三明治 ",V-Droid 約使用 20 步操作完成此任務。視頻無加速處理。

演示視頻 2:

" 發送短信息 ",V-Droid 約使用 8 步操作完成此任務。視頻無加速處理。

V-Droid 與其他移動 GUI 智能體在 AndroidWorld 上的任務成功率與決策響應時間對比如下:

對于 V-Droid 以及其他 7B,8B 基準模型,決策時間在雙卡 4090 上測試得出;對于 72B 基準模型,決策時間在四卡 A100 上測試得出。

長期以來,移動設備上的任務自動化一直面臨兩大難題:一是如何在復雜、多變的 GUI 環境中準确識别和操作界面元素 , 并以多步驟成功完成任務;二是如何在保證任務成功率的前提下降低決策延遲。

以往依靠 LLM 直接生成操作指令的方法,由于生成過程往往需要連續輸出大量信息,導致在實際應用中既不夠高效,又容易出現決策偏差。

在決策過程中,将 LLM 用作生成器與用作驗證器的智能體架構的關鍵區别在于:驗證器驅動的智能體不會直接根據任務狀态直接生成動作,而是在作出最終決策之前,明确地對每個候選都動作進行評估。

V-Droid 創新性地提出 " 驗證器驅動 " 的思路。該方法不再直接依賴大語言模型生成最終操作,而是首先通過對 UI 界面的深入解析構建出詳盡的動作集合,再利用經過精細訓練的基于大語言模型的驗證器對每個候選動作進行評估,最終選出得分最高的動作執行。

這種做法将操作生成與決策判斷有效解耦:一方面,與從零開始直接生成所需操作相比,該方案使智能體能夠在一個離散且有限的動作空間内高效地進行驗證,從而大大降低了決策的復雜度;同時,由于每次驗證僅輸出極簡的信息(僅一個 Token),并且可以對多個候選動作實現并行驗證,從而顯著縮短了每一步決策所需的時間。

V-Droid 在多個公共移動任務自動化基準上均取得了顯著提升,例如在 AndroidWorld 基準上任務成功率達 59.5%,比現有智能體提高了近 10 個百分點,而決策延遲在消費級硬體上(如 4090)則降至僅 0.7 秒左右。

△V-Droid 的工作流程:① 從用戶界面中提取動作并補充默認動作;② 針對每個候選動作使用模板構建驗證提示;③ 利用前綴緩存對候選動作進行批量打分;④ 完成并執行所選動作;⑤ 更新工作記憶。

V-Droid 的核心突破主要體現在以下幾個方面:

動作空間離散化與構建

由于移動設備螢幕尺寸有限,每個界面上可互動的元素數量本就較少,V-Droid 充分利用這一特性,從當前界面的 XML 描述中提取所有可點擊、長按、滾動、文本輸入等基本操作,将它們映射到一個有限的動作空間中。

同時,為了應對界面上未直接呈現的操作(例如返回首頁或模拟系統操作),系統還預置了一系列默認動作。通過這種方式,原本無限的操作可能性被精細劃分為一個可枚舉的集合,在這個集合上進行驗證,大大降低了決策難度。

驗證器驅動的決策機制與流程

不同于傳統依賴生成式模型直接輸出操作指令的方案,V-Droid 将 LLM 的角色重新定位為驗證器。系統首先根據當前任務狀态構造出候選操作列表,并為每個候選動作生成一個預定義格式的驗證提示(Prompt),其中包含任務目标、當前界面狀态、歷史操作記錄以及具體的驗證問題。

經過預先微調的驗證器(基于 Llama-3.1-8B 等小語言模型)會對每個候選動作進行評分,最終系統選擇評分最高的動作執行。由于驗證過程只需要生成 "Yes" 或 "No" 這類簡短回復。更重要是的,多組候選驗證可被高效并行,且此過程中只涉及 Prefilling 階段,從而極大地減少了計算時間,實現了近實時的決策響應。

對比式過程偏好(P3)訓練

為了提升 LLM 作為驗證器的決策能力,V-Droid 提出 P3 訓練策略:對比式過程偏好訓練策略(Pairwise Process Preference)。在每個任務步驟中,通過構建正負操作對(即标記正确操作為正樣本,其他操作為負樣本),系統能夠利用大量細粒度的訓練數據對驗證器進行優化,使其更準确地區分正确與錯誤的操作。這種方法不僅提高了模型對相似界面元素的辨别能力,也在一定程度上增強了系統的容錯與自我修正能力。

人機聯合标注的數據采集策略

由于針對移動 GUI 任務的細粒度标注數據極為稀缺,V-Droid 設計了一套人機聯合标注方案。系統初始階段由人工作業完成标注,随後利用經過初步訓練的驗證器自動生成操作标注,再由人工審核與修正。随着迭代訓練的進行,驗證器的準确性不斷提升,人工介入比例逐漸下降,從而高效構建起一個涵蓋上萬條任務軌迹的數據集,為後續大規模訓練提供了堅實基礎。

△V-Droid 的任務成功率與單步決策響應時間

V-Droid 在多個移動任務自動化基準測試中均表現出色。

例如,在 AndroidWorld 基準上,V-Droid 的任務成功率達到 59.5%,相比傳統代理有明顯優勢;在 AndroidLab 和 MobileAgentBench 上,其任務成功率分别為 38.3% 和 49%,均超過先前系統約 2% 至 9% 的絕對提升。此外,決策響應時間僅為 0.7 秒,使得該系統在實時性要求較高的移動場景中具有顯著應用潛力。

V-Droid 所采用的驗證器驅動架構為移動端自動化任務帶來全新思路。

通過将智能體的動作生成過程解耦為動作空間構建與驗證,該系統不僅在任務成功率上取得了顯著提升,還在決策延遲方面實現突破。未來,這一技術有望推廣至更多實際應用中,如自動化測試等領網域。随着大語言模型技術的不斷進步,以及高效訓練與數據采集策略的成熟,驗證器驅動的移動 GUI 智能體或将成為智能互動領網域的突破口。

論文标題:Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

論文作者:Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

鏈接:https://arxiv.org/abs/2503.15937

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們