大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作

2025-04-03 简体 HK SG TW

今天小编分享的科学经验:智能体丝滑玩手机,决策延迟0.7秒!MSRA等提出验证器架构,不直接依赖大模型生成最终操作,欢迎阅读。

随着人工智能和大语言模型(LLMs)的不断突破,如何将其优势赋能于现实世界中可实际部署的高效工具,成为了业界关注的焦点。

近期,由微软亚洲研究院、南洋理工大学、清华大学、香港科技大学等多家机构联合推出移动图形用户界面(GUI)任务自动化智能体——V-Droid。

凭借其全新 " 验证器驱动 " 架构,V-Droid 不仅在任务成功率上刷新记录,同时在决策响应速度上实现了接近实时的表现,为移动端自动化控制开辟了全新局面。

演示视频 1:

" 请从 Broccoli 应用中删除以下食谱:鸡肉阿尔弗雷多意大利面、番茄罗勒烤面包以及番茄罗勒烤奶酪三明治 ",V-Droid 约使用 20 步操作完成此任务。视频无加速处理。

演示视频 2:

" 发送短信息 ",V-Droid 约使用 8 步操作完成此任务。视频无加速处理。

V-Droid 与其他移动 GUI 智能体在 AndroidWorld 上的任务成功率与决策响应时间对比如下:

对于 V-Droid 以及其他 7B,8B 基准模型,决策时间在双卡 4090 上测试得出;对于 72B 基准模型,决策时间在四卡 A100 上测试得出。

长期以来,移动设备上的任务自动化一直面临两大难题:一是如何在复杂、多变的 GUI 环境中准确识别和操作界面元素 , 并以多步骤成功完成任务;二是如何在保证任务成功率的前提下降低决策延迟。

以往依靠 LLM 直接生成操作指令的方法,由于生成过程往往需要连续输出大量信息,导致在实际应用中既不够高效,又容易出现决策偏差。

在决策过程中,将 LLM 用作生成器与用作验证器的智能体架构的关键区别在于:验证器驱动的智能体不会直接根据任务状态直接生成动作,而是在作出最终决策之前,明确地对每个候选都动作进行评估。

V-Droid 创新性地提出 " 验证器驱动 " 的思路。该方法不再直接依赖大语言模型生成最终操作,而是首先通过对 UI 界面的深入解析构建出详尽的动作集合,再利用经过精细训练的基于大语言模型的验证器对每个候选动作进行评估,最终选出得分最高的动作执行。

这种做法将操作生成与决策判断有效解耦:一方面,与从零开始直接生成所需操作相比,该方案使智能体能够在一个离散且有限的动作空间内高效地进行验证,从而大大降低了决策的复杂度;同时,由于每次验证仅输出极简的信息(仅一个 Token),并且可以对多个候选动作实现并行验证,从而显著缩短了每一步决策所需的时间。

V-Droid 在多个公共移动任务自动化基准上均取得了显著提升,例如在 AndroidWorld 基准上任务成功率达 59.5%,比现有智能体提高了近 10 个百分点,而决策延迟在消费级硬體上(如 4090)则降至仅 0.7 秒左右。

△V-Droid 的工作流程:① 从用户界面中提取动作并补充默认动作;② 针对每个候选动作使用模板构建验证提示;③ 利用前缀缓存对候选动作进行批量打分;④ 完成并执行所选动作;⑤ 更新工作记忆。

V-Droid 的核心突破主要体现在以下几个方面:

动作空间离散化与构建

由于移动设备螢幕尺寸有限,每个界面上可互動的元素数量本就较少,V-Droid 充分利用这一特性,从当前界面的 XML 描述中提取所有可点击、长按、滚动、文本输入等基本操作,将它们映射到一个有限的动作空间中。

同时,为了应对界面上未直接呈现的操作(例如返回首页或模拟系统操作),系统还预置了一系列默认动作。通过这种方式,原本无限的操作可能性被精细划分为一个可枚举的集合,在这个集合上进行验证,大大降低了决策难度。

验证器驱动的决策机制与流程

不同于传统依赖生成式模型直接输出操作指令的方案,V-Droid 将 LLM 的角色重新定位为验证器。系统首先根据当前任务状态构造出候选操作列表,并为每个候选动作生成一个预定义格式的验证提示(Prompt),其中包含任务目标、当前界面状态、历史操作记录以及具体的验证问题。

经过预先微调的验证器(基于 Llama-3.1-8B 等小语言模型)会对每个候选动作进行评分,最终系统选择评分最高的动作执行。由于验证过程只需要生成 "Yes" 或 "No" 这类简短回复。更重要是的,多组候选验证可被高效并行,且此过程中只涉及 Prefilling 阶段,从而极大地减少了计算时间,实现了近实时的决策响应。

对比式过程偏好(P3)训练

为了提升 LLM 作为验证器的决策能力,V-Droid 提出 P3 训练策略:对比式过程偏好训练策略(Pairwise Process Preference)。在每个任务步骤中,通过构建正负操作对(即标记正确操作为正样本,其他操作为负样本),系统能够利用大量细粒度的训练数据对验证器进行优化,使其更准确地区分正确与错误的操作。这种方法不仅提高了模型对相似界面元素的辨别能力,也在一定程度上增强了系统的容错与自我修正能力。

人机联合标注的数据采集策略

由于针对移动 GUI 任务的细粒度标注数据极为稀缺,V-Droid 设计了一套人机联合标注方案。系统初始阶段由人工作业完成标注,随后利用经过初步训练的验证器自动生成操作标注,再由人工审核与修正。随着迭代训练的进行,验证器的准确性不断提升,人工介入比例逐渐下降,从而高效构建起一个涵盖上万条任务轨迹的数据集,为后续大规模训练提供了坚实基础。

△V-Droid 的任务成功率与单步决策响应时间

V-Droid 在多个移动任务自动化基准测试中均表现出色。

例如,在 AndroidWorld 基准上,V-Droid 的任务成功率达到 59.5%,相比传统代理有明显优势;在 AndroidLab 和 MobileAgentBench 上,其任务成功率分别为 38.3% 和 49%,均超过先前系统约 2% 至 9% 的绝对提升。此外,决策响应时间仅为 0.7 秒,使得该系统在实时性要求较高的移动场景中具有显著应用潜力。

V-Droid 所采用的验证器驱动架构为移动端自动化任务带来全新思路。

通过将智能体的动作生成过程解耦为动作空间构建与验证,该系统不仅在任务成功率上取得了显著提升,还在决策延迟方面实现突破。未来,这一技术有望推广至更多实际应用中,如自动化测试等领網域。随着大语言模型技术的不断进步,以及高效训练与数据采集策略的成熟,验证器驱动的移动 GUI 智能体或将成为智能互動领網域的突破口。

论文标题:Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

论文作者:Gaole Dai, Shiqi Jiang, Ting Cao, Yuanchun Li, Yuqing Yang, Rui Tan, Mo Li, Lili Qiu

链接:https://arxiv.org/abs/2503.15937

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們