今天小编分享的科学经验:Claude自动玩崩铁清日常,NUS新论文完整测评AI电腦操控:GUI智能体的黎明,欢迎阅读。
Claude操控电腦,究竟可以做到什么程度?
新加坡国立大学团队在 20 多个场景下做了全面测试,其中最引人瞩目的是:AI 可以自动玩手游清日常任务了!
研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说 " 帮我完成今天的模拟宇宙 ",然后,Claude 就会立即依次打开游戏菜单、找到星穹里的 " 黄金花萼 "、自动設定 6 次挑战次数:
甚至还可以启动自动战斗、等待战斗结束后退出,这一套组合操作简直行云流水……
而且注意哦,这不仅是传统游戏外挂那样的机械操作,Claude 还能智能理解游戏规则和目标,根据界面上不同的任务进行调整。
这下好了,人类只能在一旁干瞪眼了。
除了更多测试场景外,论文还提出了一个开箱即用的自动 GUI 框架。
有网友看到视频后评论说:以后我去上学的时候,就可以让 Claude 帮我玩每日任务了。
还可以自动完成很多办公任务
Claude Computer Use 的潜能还远远没有被人类发掘——
研究团队还测试了很多日常办公场景下它的性能:
1. 网页搜索
它可以在 Amazon 和 Apple 官方网站上成功完成下单购物的任务,选择颜色配置、填写地址都轻松拿捏。
2. 工作流程
模型还成功完成了在 Apple Music 添加歌曲、编辑 Excel 数据、在 App Store 安装应用等自动任务。
虽然界面设计和跳转逻辑更加复杂,它还是能智能地理解任务的最终目标,真是一个成熟的好 AI(欣慰)!
3.. 办公生产力軟體
此外,它还可以在 Outook 中转发邮件、调整 Word 布局、設定 PowerPoint 背景設定和插入三角形形状等等,这下真的可以大大增强生产力了(AI 无用论 -1)。
4. 还可以玩其他游戏
除了《崩坏:星穹铁道》,模型也可以自动玩《炉石传说》,包括创建和重命名牌组、使用英雄技能等等。
Claude Computer Use API + 自动化 GUI 框架
你可能会好奇,强如 Claude Computer Use,是怎么做到自动完成任务的呢?
下面我们就一起来看看背后的框架设计——
具体来说,团队基于 Claude Computer Use 的 API 设计了一个自动化 GUI 框架,主要分为以下 6 个部分:
1. 系统提示
Claude Computer Use 的系统提示包括环境概述、可用函数和参数描述。用户可以通过编写 块来调用这些函数,例如计算机互動、Bash Shel 命令和檔案编辑工具。
2. 状态观察
Claude Computer Use 通过实时截图观察环境,不依赖元数据或 HTML。每个时间步长过后,模型都会保留历史截图,帮助生成下一步的动作。
3. 推理范式
Claude Computer Use 采用了一种推理 - 行动范式,通过观察环境来决定下一步的动作。这种范式可以让模型在高度动态的 GUI 环境中生成更可靠的动作。
4. 工具使用
Claude Computer Use 提供了三种工具:计算机工具、文本编辑器工具和 Bash 工具,它们可以帮助模型与计算机进行互動,执行各种任务。
5.GUI 动作空间
GUI 动作空间内置了所有原始的滑鼠和键盘动作,如滑鼠移动、点击、按键组合、拖放和截图等。模型会根据需要自行组合。
6. 历史视觉上下文维护
模型在每个时间步长都会保留历史截图,以辅助动作生成过程。具体公式如下:
性能测试
为了更加广泛地测试 Claude Computer Use 和 GUI 框架联合后的性能效果,团队还设计了详尽的测试实验,包括
1. 数据收集:实验设计包括在 Windows 和 macOS 上通过 ComputerUse Out-of-the-Box 平台进行评估。评估任务覆盖了广泛的应用领網域,包括网页搜索、工作流程、办公生产力軟體和视频游戏等。
2. 样本选择:选择了 20 个任务,涵盖 12 个軟體或网站,分为以下三个领網域:网页搜索、工作流程、办公生产力和视频游戏。具体的任务可以查看下表:
3. 参数配置:系统分辦率設定为 Windows 的(1366,768)和 macOS 的(1344,756)。过程中还加入了人类评审和评估用于监控和审查过程,确保任务的顺利完成。
虽然 Claude Computer Use 在之前的例子中表现都非常厉害,但当网页或軟體的页面过于复杂时,模型也出现了一些失败案例:
1. 精细网页操作失败:在 Fox Sports 订阅任务中失败,错误原因主要在于模型没有正确导航到 "Account" 选项卡。
2. 办公軟體失败:在 Word 中更新简历模板、和在 PPT 中插入编号符号两个任务中失败,错误原因在于模型未能准确选择和定位文本資料欄。
不过整体来说,Claude Computer Use 已经很棒了,而且这功能也刚刚发布没多久,未来可期!
团队还公开了所有测试用例的具体信息,感兴趣的小伙伴可以点 GitHub 项目链接查看更多消息~
Claude 老师,以后我的 PPT 和 Steam 就拜托你了(bushi)
参考资料:
https://arxiv.org/pdf/2411.10323
https://github.com/showlab/computer_use_ootb