智能體絲滑玩手機，決策延遲0.7秒！MSRA等提出驗證器架構，不直接依賴大模型生成最終操作

今天小編分享的科學經驗：智能體絲滑玩手機，決策延遲0.7秒！MSRA等提出驗證器架構，不直接依賴大模型生成最終操作，歡迎閱讀。

随着人工智能和大語言模型（LLMs）的不斷突破，如何将其優勢賦能于現實世界中可實際部署的高效工具，成為了業界關注的焦點。

近期，由微軟亞洲研究院、南洋理工大學、清華大學、香港科技大學等多家機構聯合推出移動圖形用戶界面（GUI）任務自動化智能體——V-Droid。

憑借其全新 " 驗證器驅動 " 架構，V-Droid 不僅在任務成功率上刷新記錄，同時在決策響應速度上實現了接近實時的表現，為移動端自動化控制開辟了全新局面。

演示視頻 1：

" 請從 Broccoli 應用中删除以下食譜：雞肉阿爾弗雷多意大利面、番茄羅勒烤面包以及番茄羅勒烤奶酪三明治 "，V-Droid 約使用 20 步操作完成此任務。視頻無加速處理。

演示視頻 2：

" 發送短信息 "，V-Droid 約使用 8 步操作完成此任務。視頻無加速處理。

V-Droid 與其他移動 GUI 智能體在 AndroidWorld 上的任務成功率與決策響應時間對比如下：

對于 V-Droid 以及其他 7B，8B 基準模型，決策時間在雙卡 4090 上測試得出；對于 72B 基準模型，決策時間在四卡 A100 上測試得出。

長期以來，移動設備上的任務自動化一直面臨兩大難題：一是如何在復雜、多變的 GUI 環境中準确識别和操作界面元素 , 并以多步驟成功完成任務；二是如何在保證任務成功率的前提下降低決策延遲。

以往依靠 LLM 直接生成操作指令的方法，由于生成過程往往需要連續輸出大量信息，導致在實際應用中既不夠高效，又容易出現決策偏差。

在決策過程中，将 LLM 用作生成器與用作驗證器的智能體架構的關鍵區别在于：驗證器驅動的智能體不會直接根據任務狀态直接生成動作，而是在作出最終決策之前，明确地對每個候選都動作進行評估。

V-Droid 創新性地提出 " 驗證器驅動 " 的思路。該方法不再直接依賴大語言模型生成最終操作，而是首先通過對 UI 界面的深入解析構建出詳盡的動作集合，再利用經過精細訓練的基于大語言模型的驗證器對每個候選動作進行評估，最終選出得分最高的動作執行。

這種做法将操作生成與決策判斷有效解耦：一方面，與從零開始直接生成所需操作相比，該方案使智能體能夠在一個離散且有限的動作空間内高效地進行驗證，從而大大降低了決策的復雜度；同時，由于每次驗證僅輸出極簡的信息（僅一個 Token），并且可以對多個候選動作實現并行驗證，從而顯著縮短了每一步決策所需的時間。

V-Droid 在多個公共移動任務自動化基準上均取得了顯著提升，例如在 AndroidWorld 基準上任務成功率達 59.5%，比現有智能體提高了近 10 個百分點，而決策延遲在消費級硬體上（如 4090）則降至僅 0.7 秒左右。

△V-Droid 的工作流程：① 從用戶界面中提取動作并補充默認動作；② 針對每個候選動作使用模板構建驗證提示；③ 利用前綴緩存對候選動作進行批量打分；④ 完成并執行所選動作；⑤ 更新工作記憶。

V-Droid 的核心突破主要體現在以下幾個方面：

動作空間離散化與構建

由于移動設備螢幕尺寸有限，每個界面上可互動的元素數量本就較少，V-Droid 充分利用這一特性，從當前界面的 XML 描述中提取所有可點擊、長按、滾動、文本輸入等基本操作，将它們映射到一個有限的動作空間中。

同時，為了應對界面上未直接呈現的操作（例如返回首頁或模拟系統操作），系統還預置了一系列默認動作。通過這種方式，原本無限的操作可能性被精細劃分為一個可枚舉的集合，在這個集合上進行驗證，大大降低了決策難度。

驗證器驅動的決策機制與流程

不同于傳統依賴生成式模型直接輸出操作指令的方案，V-Droid 将 LLM 的角色重新定位為驗證器。系統首先根據當前任務狀态構造出候選操作列表，并為每個候選動作生成一個預定義格式的驗證提示（Prompt），其中包含任務目标、當前界面狀态、歷史操作記錄以及具體的驗證問題。

經過預先微調的驗證器（基于 Llama-3.1-8B 等小語言模型）會對每個候選動作進行評分，最終系統選擇評分最高的動作執行。由于驗證過程只需要生成 "Yes" 或 "No" 這類簡短回復。更重要是的，多組候選驗證可被高效并行，且此過程中只涉及 Prefilling 階段，從而極大地減少了計算時間，實現了近實時的決策響應。

對比式過程偏好（P3）訓練

為了提升 LLM 作為驗證器的決策能力，V-Droid 提出 P3 訓練策略：對比式過程偏好訓練策略（Pairwise Process Preference）。在每個任務步驟中，通過構建正負操作對（即标記正确操作為正樣本，其他操作為負樣本），系統能夠利用大量細粒度的訓練數據對驗證器進行優化，使其更準确地區分正确與錯誤的操作。這種方法不僅提高了模型對相似界面元素的辨别能力，也在一定程度上增強了系統的容錯與自我修正能力。

人機聯合标注的數據采集策略

由于針對移動 GUI 任務的細粒度标注數據極為稀缺，V-Droid 設計了一套人機聯合标注方案。系統初始階段由人工作業完成标注，随後利用經過初步訓練的驗證器自動生成操作标注，再由人工審核與修正。随着迭代訓練的進行，驗證器的準确性不斷提升，人工介入比例逐漸下降，從而高效構建起一個涵蓋上萬條任務軌迹的數據集，為後續大規模訓練提供了堅實基礎。

△V-Droid 的任務成功率與單步決策響應時間

V-Droid 在多個移動任務自動化基準測試中均表現出色。

例如，在 AndroidWorld 基準上，V-Droid 的任務成功率達到 59.5%，相比傳統代理有明顯優勢；在 AndroidLab 和 MobileAgentBench 上，其任務成功率分别為 38.3% 和 49%，均超過先前系統約 2% 至 9% 的絕對提升。此外，決策響應時間僅為 0.7 秒，使得該系統在實時性要求較高的移動場景中具有顯著應用潛力。

V-Droid 所采用的驗證器驅動架構為移動端自動化任務帶來全新思路。

通過将智能體的動作生成過程解耦為動作空間構建與驗證，該系統不僅在任務成功率上取得了顯著提升，還在決策延遲方面實現突破。未來，這一技術有望推廣至更多實際應用中，如自動化測試等領網域。随着大語言模型技術的不斷進步，以及高效訓練與數據采集策略的成熟，驗證器驅動的移動 GUI 智能體或将成為智能互動領網域的突破口。

論文标題：Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

論文作者：Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

鏈接：https://arxiv.org/abs/2503.15937

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見