AI学会发红包了！国产Agent一句话控制手机电腦，我看到了「摸鱼自由」的未来 - 大酷樂

今天小编分享的科技经验：AI学会发红包了！国产Agent一句话控制手机电腦，我看到了「摸鱼自由」的未来，欢迎阅读。

2024 年，AI 圈最火的关键词非 Agent 莫属。

从 OpenAI 的简单 GPTs 到 Anthropic 能够自主行动的 computer use，再到最近 AI 初创公司 /dev/agents 凭借 Agent 作業系統估值 5 亿美元，厂商们都在试图寻找 AI 下一个明确的落地方向。

而在国内，上个月智谱 AI 也带来了自己的答案—— AutoGLM。

如果掏出手机、打开应用、点击搜索、输入关键词 ... 完成这些操作往往要经过四五步，而有了 AI，这些操作变成了真就一句话的事儿。

到了今天，智谱 AI 在北京也推出了一系列囊括多终端的 Agent 产品。

用户只需输入指令，GLM 即可理解指令，规划任务，然后识别界面中的視窗、图形、文字等，并且实现自动操作，如同进入 AI 接管设备的大航海时代。

在 Agent OpenDay 现场，智谱 AI CEO 张鹏现场利用 AutoGLM 面对面建群，并且给在场数百位与会者发送了微信红包，以及线上的口令红包。有没有抢到红包的朋友，不妨在评论区分享你的喜悦。

AutoGLM：移动端（暂时向 Android 开放），可自主执行超 50 步的长步骤操作，适用于比价、导航、刷超话等复杂操作

GLM-PC：PC 端（暂时向 Mac 系统开放），适用于解放打工人双手的生产力工具，手机也能远程操作电腦

AutoGLM-Web：网页端，支持百度搜索、知乎、Github 等数十个网站的无人驾驶

最形象的注脚大概就是，从 Chat 走向 Act，AI 无处不在，但 Agent 同样也无处不在。换言之，从替我们「思考」替我们「做事」，Agent 正在重新定义智能设备。

附上体验跳转链接：

AutoGLM：https://agent.aminer.cn/

GLM-PC：https://cogagent.aminer.cn/home

AutoGLM-Web：https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

别人家的 AI 都在聊天，这些 AI 却能帮我摸鱼

AI 帮我摸鱼？AutoGLM 让我躺着刷超话、买咖啡

在之前的文章中，我们已经体验过智谱 AutoGLM 是如何接管我们的手机。

全自动发微信、逛淘宝……以往我们要自己动手的事情，现在都被 AutoGLM 包圆。并且，这位 AI 打工人今天还更新了，本事妥妥地见长。

我们也提前体验上了这些最新的 AI 工具。

我们的消费观是可以买贵的，但不能买贵了。

比如说，前不久，《人类简史》的作者尤瓦尔 · 赫拉利出版了最新著作《智人之上》，那我为什么不让 AI 帮我在拼多多和淘宝上逛逛，看看哪家划算。

我只需要动动嘴，AI 就帮我跑断腿，不过如果仔细看，把书名弄混还是有点小瑕疵的。

要是在嘈杂环境不方便说话，别担心。

AutoGLM 还配了个「静音模式」，打字也能发号施令，而且在执行任务之前，AutoGLM 也给用户留了 3 秒的「后悔时间」，让你随时能喊停，并调整执行任务。

追星族有个好消息，全新更新的 AutoGLM 连超话签到打卡都能搞懂。

以给李行亮的超话打卡为例，只需对着 AutoGLM 悬浮窗输入我的指令，AI 就会全程代劳，而我只需要遇到敏感信息时「露个面」就行，一键告别「错过打卡」的焦虑。

对了，这些日常任务还能設定快捷指令，一键搞定。

可不要小看这个功能，作为天选打工人，下午定时点的咖啡堪称「续命神器」，不需要每天反复設定，只需要保留下单咖啡的指令，妥妥省去不少功夫。

选择随便模式，所有步骤则是让 AI 为你决策，开启咖啡盲盒，但当涉及到发送，下单付款等重要操作时，AutoGLM 会主动将选择权重新交回给你。

跨应用协作是本次更新的重大亮点。

苹果牌 AI 已经向我们展示了系统级 AI 打通应用墙的重要性，而现在借助 AutoGLM，我们同样能够实现类似的效果，比如我让 AI 去小红书搜个蒜蓉菜心的教程，并成功转发朋友圈。

新增的 AI 导航功能也很实用。想去广州塔？轻轻和 AutoGLM 说一声，AI 就把你安排得明明白白。

比较遗憾的是，AutoGLM 仅支持 Android 系统。

但智谱即日起也将放开 AutoGLM 的用户内测名额，并进一步优化功能以及使用上的体验，预计尽快上线成为真正面向广大 C 端用户开放的产品。

智谱清言的插件 AutoGLM-Web 即日也同样起新上线 AutoGLM 功能。

据悉，AutoGLM-Web 支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。

在官方演示的 demo 中，AutoGLM-Web 自动完成了「在百度搜索芒果 TV，打开再见爱人，播放最新一集，发弹幕」。全程没有用户的干预。

▲ image description. 图片来自：xxx

从手机到电腦，让 AI 替我当打工人

与 AutoGLM 相比，GLM-PC 则在电腦端提供了更多面向职场场景的功能体验。

GLM-PC 当前专为搭载 M 系列芯片的 Mac 电腦打造，其中以 M1 和 M3 系列设备最为推荐。在对话框中输入你想进行的操作，GLM-PC 就会评估工具并决定操作计划。

当然，遇到敏感操作时，GLM-PC 就会自动暂停，等待用户操作或者进行确认。

想了解 B 站热门内容？GLM-PC 三下五除二就帮你找到「入站必刷」第一条，帮你省去不少漫无目的的划水时间。

要约张三开会？发条微信的事儿，交给 AI。甚至在有页面的遮挡的情况下，也能精准定位到微信的搜索框里。

它还能帮你预定腾讯会议，顺带把会议邀请发给参会人。建议完事后，把这套「操作秘籍」收藏起来，通过流程化来提升工作效率。

作为编辑，我个人最爱的功能是让它帮我梳理海外的 AI 新闻。发出指令后，AI 就会打开浏览器，输入网址，然后一份清晰的新闻总结就能到手。

对了，如果你是刚从 Win 转到 Mac 系统的新人，你多少会因为系统的变化弄到手忙脚乱。

现在 GLM-PC 就是你的「救命稻草」，无论是调整显示模式，还是其他設定，将你的诉求通通交给它。把麻烦的事情甩给 AI，把快乐留给自己，这才是人生赢家的正确打开方式。

GLM-PC 还有一个堪称「王炸」的功能。

先在 GLM-PC 設定中打开「挂起模式」，然后在手机上通过验证码登陆「https://cogagent.aminer.cn/m」，你的手机甚至可以远程遥控电腦。

具体来说，你可以远程给 GLM-PC 发指令消息，让 GLM-PC 进行电腦操作。GLM-PC 每执行一步就会返回操作时的螢幕截图，而如果有敏感操作，则会等用户进行确认后再操作。

在现场的演示中，张鹏也通过手机上 GLM-PC 网页对 cogagent 发布指令，成功通过电腦端的微信发送檔案。

实际上，当 AI 开始真正「干活」而不只是「对话」，也标志着 AI 应用进入了「接地气」的务实阶段。可以说，当 AI 真正开始解决日常琐事，它就从玩具变成了一个实实在在的生产力工具。

这或许才是 AI 技术最该有的样子。

Phone Use 时刻

在这两个月手机圈密集发布了多款新品，其中有一个趋势值得留意，虽然 AI 手机还没得到消费者的广泛认同，系统级 AI 成了各家厂商 OS 主打的亮点，其实这也是一种 Agent 落地普及的前兆。

无论是 vivo 的蓝心小 V 和发布会展示可以 AI 订餐的「Phone GPT」，华为鸿蒙的小艺和意图框架，还是荣耀的 YOYO 智能体，都和智谱今天发布的 Agent 的本质一样：

让 AI 模仿人类的 Plan-Do-Check-Act（计划 - 执行 - 检查 - 行动）循环，从而像人类那样去操作设备。

就像智谱 AI CEO 张鹏今天的发布会提到，目前的 Agent 能力更像是在用户和应用之间，增加一个智能的调度层，链接所有应用甚至是所有设备。

这可以看做是大模型通用作業系統 LLM-OS 的一种雏形，智谱也将这套 Agent 互動称为 GLM-OS 的构建，将对人机互動形式产生极大的影响。

OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型作業系統（LLM OS），他认为大模型某种程度来说就是一种新的计算机和作業系統，它可以连接各种軟體和硬體，以及所有模态信息组成的外设，并通过函数调用执行各种任务。

传统作業系統中，你需要围绕 CPU 构建一堆外设，比如滑鼠和键盘、磁盘存储、以及缓存空间等。

而在 LLM OS 中，大模型本身就是中央处理器。I/O 外设也不再是滑鼠和键盘，因为 LLM 可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统軟體更新为智能体工具。

其中跨应用的操作是非常关键的一环，这意味着 Agent 能实现更加复杂的自主连贯操作，也可能走向真正的商业化落地。

我们在年初曾判断大模型将成为智能手机新的作業系統，自然用户界面（Natural user interface， NUI ）将逐步替代现有的图形用户界面（GUI）。

至于各家互联网公司提供的服务能否打通，可能是未来实现这种互動最大的障碍。但无论是智能手机还是应用，都终将是人类发展史上一个阶段性产物。

目前的 Agent 互動还在早期阶段，在行业内 Scaling Law 遭遇瓶颈的背景下， Agent 要怎么能成为真正的生产力工具，承担更高比例的工作决策？

智谱 AutoGLM 技术负责人刘潇在接受 APPSO 采访时表示，预训练肯定还要继续，但对于算法和数据的训练会有一套新的逻辑。

智谱 AI CEO 张鹏也告诉 APPSO，团队对于 Scaling Laws 的空间相对乐观，希望在新的范式和生态下去探索更多可能性。

今年很多厂商不约而同用自动驾驶来形容 AI 终端的智能程度， OpenAI 也将 AI 划分为 L1-L5 五个等级。

与 OpenAI 有所不同，智谱将大模型发展的五个阶段定义为：L1 语言能力、L2 逻辑能力（多模态能力）、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

张鹏认为，大模型已经初步具备了人类与现实物理世界互动的部分能力。「Agent 将极大地提升 L3 使用工具能力，同时开启对 L4 自我学习能力的探索」。

从 Phone Use、Computer Use、Car Use 到 All Device Use，大模型的思考能力和 Agent 互動逐步影响我们使用智能设备的方式。

让 AI 发微信和点赞现在看起来实用意义有限，但如同 AlphaGo 无论下棋多强都不会对社会带来多少影响，Google DeepMind 的 AlphaFold 可以预测几乎所有蛋白质结构，帮助大量疾病的治疗和研究。

背后的范式改变才是撬动人类生活方式更新的杠杆，Agent 让大模型从 Chat 走向 Act，下所谓 AI 终端的形态才逐渐浮现，而非只是一个命名的改变。

作者：李超凡、莫崇宇