今天小编分享的科技经验:AI学会发红包了!国产Agent一句话控制手机电腦,我看到了「摸鱼自由」的未来,欢迎阅读。
2024 年,AI 圈最火的关键词非 Agent 莫属。
从 OpenAI 的简单 GPTs 到 Anthropic 能够自主行动的 computer use,再到最近 AI 初创公司 /dev/agents 凭借 Agent 作業系統估值 5 亿美元,厂商们都在试图寻找 AI 下一个明确的落地方向。
而在国内,上个月智谱 AI 也带来了自己的答案—— AutoGLM。
如果掏出手机、打开应用、点击搜索、输入关键词 ... 完成这些操作往往要经过四五步,而有了 AI,这些操作变成了真就一句话的事儿。
到了今天,智谱 AI 在北京也推出了一系列囊括多终端的 Agent 产品。
用户只需输入指令,GLM 即可理解指令,规划任务,然后识别界面中的視窗、图形、文字等,并且实现自动操作,如同进入 AI 接管设备的大航海时代。
在 Agent OpenDay 现场,智谱 AI CEO 张鹏现场利用 AutoGLM 面对面建群,并且给在场数百位与会者发送了微信红包,以及线上的口令红包。有没有抢到红包的朋友,不妨在评论区分享你的喜悦。
AutoGLM:移动端(暂时向 Android 开放),可自主执行超 50 步的长步骤操作,适用于比价、导航、刷超话等复杂操作
GLM-PC:PC 端(暂时向 Mac 系统开放),适用于解放打工人双手的生产力工具,手机也能远程操作电腦
AutoGLM-Web:网页端,支持百度搜索、知乎、Github 等数十个网站的无人驾驶
最形象的注脚大概就是,从 Chat 走向 Act,AI 无处不在,但 Agent 同样也无处不在。换言之,从替我们「思考」替我们「做事」,Agent 正在重新定义智能设备。
附上体验跳转链接:
AutoGLM:https://agent.aminer.cn/
GLM-PC:https://cogagent.aminer.cn/home
AutoGLM-Web:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday
别人家的 AI 都在聊天,这些 AI 却能帮我摸鱼
AI 帮我摸鱼?AutoGLM 让我躺着刷超话、买咖啡
在之前的文章中,我们已经体验过智谱 AutoGLM 是如何接管我们的手机。
全自动发微信、逛淘宝……以往我们要自己动手的事情,现在都被 AutoGLM 包圆。并且,这位 AI 打工人今天还更新了,本事妥妥地见长。
我们也提前体验上了这些最新的 AI 工具。
我们的消费观是可以买贵的,但不能买贵了。
比如说,前不久,《人类简史》的作者尤瓦尔 · 赫拉利出版了最新著作《智人之上》,那我为什么不让 AI 帮我在拼多多和淘宝上逛逛,看看哪家划算。
我只需要动动嘴,AI 就帮我跑断腿,不过如果仔细看,把书名弄混还是有点小瑕疵的。
要是在嘈杂环境不方便说话,别担心。
AutoGLM 还配了个「静音模式」,打字也能发号施令,而且在执行任务之前,AutoGLM 也给用户留了 3 秒的「后悔时间」,让你随时能喊停,并调整执行任务。
追星族有个好消息,全新更新的 AutoGLM 连超话签到打卡都能搞懂。
以给李行亮的超话打卡为例,只需对着 AutoGLM 悬浮窗输入我的指令,AI 就会全程代劳,而我只需要遇到敏感信息时「露个面」就行,一键告别「错过打卡」的焦虑。
对了,这些日常任务还能設定快捷指令,一键搞定。
可不要小看这个功能,作为天选打工人,下午定时点的咖啡堪称「续命神器」,不需要每天反复設定,只需要保留下单咖啡的指令,妥妥省去不少功夫。
选择随便模式,所有步骤则是让 AI 为你决策,开启咖啡盲盒,但当涉及到发送,下单付款等重要操作时,AutoGLM 会主动将选择权重新交回给你。
跨应用协作是本次更新的重大亮点。
苹果牌 AI 已经向我们展示了系统级 AI 打通应用墙的重要性,而现在借助 AutoGLM,我们同样能够实现类似的效果,比如我让 AI 去小红书搜个蒜蓉菜心的教程,并成功转发朋友圈。
新增的 AI 导航功能也很实用。想去广州塔?轻轻和 AutoGLM 说一声,AI 就把你安排得明明白白。
比较遗憾的是,AutoGLM 仅支持 Android 系统。
但智谱即日起也将放开 AutoGLM 的用户内测名额,并进一步优化功能以及使用上的体验,预计尽快上线成为真正面向广大 C 端用户开放的产品。
智谱清言的插件 AutoGLM-Web 即日也同样起新上线 AutoGLM 功能。
据悉,AutoGLM-Web 支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。
在官方演示的 demo 中,AutoGLM-Web 自动完成了「在百度搜索芒果 TV,打开再见爱人,播放最新一集,发弹幕」。全程没有用户的干预。
▲ image description. 图片来自:xxx
从手机到电腦,让 AI 替我当打工人
与 AutoGLM 相比,GLM-PC 则在电腦端提供了更多面向职场场景的功能体验。
GLM-PC 当前专为搭载 M 系列芯片的 Mac 电腦打造,其中以 M1 和 M3 系列设备最为推荐。在对话框中输入你想进行的操作,GLM-PC 就会评估工具并决定操作计划。
当然,遇到敏感操作时,GLM-PC 就会自动暂停,等待用户操作或者进行确认。
想了解 B 站热门内容?GLM-PC 三下五除二就帮你找到「入站必刷」第一条,帮你省去不少漫无目的的划水时间。
要约张三开会?发条微信的事儿,交给 AI。甚至在有页面的遮挡的情况下,也能精准定位到微信的搜索框里。
它还能帮你预定腾讯会议,顺带把会议邀请发给参会人。建议完事后,把这套「操作秘籍」收藏起来,通过流程化来提升工作效率。
作为编辑,我个人最爱的功能是让它帮我梳理海外的 AI 新闻。发出指令后,AI 就会打开浏览器,输入网址,然后一份清晰的新闻总结就能到手。
对了,如果你是刚从 Win 转到 Mac 系统的新人,你多少会因为系统的变化弄到手忙脚乱。
现在 GLM-PC 就是你的「救命稻草」,无论是调整显示模式,还是其他設定,将你的诉求通通交给它。把麻烦的事情甩给 AI,把快乐留给自己,这才是人生赢家的正确打开方式。
GLM-PC 还有一个堪称「王炸」的功能。
先在 GLM-PC 設定中打开「挂起模式」,然后在手机上通过验证码登陆「https://cogagent.aminer.cn/m」,你的手机甚至可以远程遥控电腦。
具体来说,你可以远程给 GLM-PC 发指令消息,让 GLM-PC 进行电腦操作。GLM-PC 每执行一步就会返回操作时的螢幕截图,而如果有敏感操作,则会等用户进行确认后再操作。
在现场的演示中,张鹏也通过手机上 GLM-PC 网页对 cogagent 发布指令,成功通过电腦端的微信发送檔案。
实际上,当 AI 开始真正「干活」而不只是「对话」,也标志着 AI 应用进入了「接地气」的务实阶段。可以说,当 AI 真正开始解决日常琐事,它就从玩具变成了一个实实在在的生产力工具。
这或许才是 AI 技术最该有的样子。
Phone Use 时刻
在这两个月手机圈密集发布了多款新品,其中有一个趋势值得留意,虽然 AI 手机还没得到消费者的广泛认同,系统级 AI 成了各家厂商 OS 主打的亮点,其实这也是一种 Agent 落地普及的前兆。
无论是 vivo 的蓝心小 V 和发布会展示可以 AI 订餐的 「Phone GPT」,华为鸿蒙的小艺和意图框架,还是荣耀的 YOYO 智能体,都和智谱今天发布的 Agent 的本质一样:
让 AI 模仿人类的 Plan-Do-Check-Act(计划 - 执行 - 检查 - 行动)循环 ,从而像人类那样去操作设备。
就像智谱 AI CEO 张鹏今天的发布会提到,目前的 Agent 能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。
这可以看做是大模型通用作業系統 LLM-OS 的一种雏形,智谱也将这套 Agent 互動称为 GLM-OS 的构建,将对人机互動形式产生极大的影响。
OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型作業系統(LLM OS),他认为大模型某种程度来说就是一种新的计算机和作業系統,它可以连接各种軟體和硬體,以及所有模态信息组成的外设,并通过函数调用执行各种任务。
传统作業系統中,你需要围绕 CPU 构建一堆外设,比如滑鼠和键盘、磁盘存储、以及缓存空间等。
而在 LLM OS 中,大模型本身就是中央处理器。I/O 外设也不再是滑鼠和键盘,因为 LLM 可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统軟體更新为智能体工具。
其中跨应用的操作是非常关键的一环,这意味着 Agent 能实现更加复杂的自主连贯操作,也可能走向真正的商业化落地。
我们在年初曾判断大模型将成为智能手机新的作業系統,自然用户界面(Natural user interface, NUI )将逐步替代现有的图形用户界面(GUI)。
至于各家互联网公司提供的服务能否打通,可能是未来实现这种互動最大的障碍。但无论是智能手机还是应用,都终将是人类发展史上一个阶段性产物。
目前的 Agent 互動还在早期阶段,在行业内 Scaling Law 遭遇瓶颈的背景下, Agent 要怎么能成为真正的生产力工具,承担更高比例的工作决策?
智谱 AutoGLM 技术负责人刘潇在接受 APPSO 采访时表示,预训练肯定还要继续,但对于算法和数据的训练会有一套新的逻辑。
智谱 AI CEO 张鹏也告诉 APPSO,团队对于 Scaling Laws 的空间相对乐观,希望在新的范式和生态下去探索更多可能性。
今年很多厂商不约而同用自动驾驶来形容 AI 终端的智能程度, OpenAI 也 将 AI 划分为 L1-L5 五个等级。
与 OpenAI 有所不同,智谱将大模型发展的五个阶段定义为:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。
张鹏认为,大模型已经初步具备了人类与现实物理世界互动的部分能力。「Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索」。
从 Phone Use、Computer Use、Car Use 到 All Device Use,大模型的思考能力和 Agent 互動逐步影响我们使用智能设备的方式。
让 AI 发微信和点赞现在看起来实用意义有限,但如同 AlphaGo 无论下棋多强都不会对社会带来多少影响,Google DeepMind 的 AlphaFold 可以预测几乎所有蛋白质结构,帮助大量疾病的治疗和研究。
背后的范式改变才是撬动人类生活方式更新的杠杆,Agent 让大模型从 Chat 走向 Act,下所谓 AI 终端的形态才逐渐浮现,而非只是一个命名的改变。
作者:李超凡、莫崇宇