今天小编分享的科学经验:注意!AI学会自己发红包了,欢迎阅读。
刚刚,智谱来了一波大的——
你的手机、PC 等设备,统统都是可以让 AI 来自动驾驶了。
在现场,智谱 CEO张鹏直接来了一个 live demo。
只见他掏出荣耀手机,仅仅是说了三句话,就让 AI 给现场和线上的观众发了两个大红包:
帮我创建一个面对面群聊,数字为 1129,并将群聊名字改成智谱开放日。
帮我在智谱开放日的群聊里发个一万的红包,数量为一百个,名字为"AI 给你发的第一个红包 "。
帮我在支付宝发八百八十八个,总额为一万的口令红包。
比较有意思的是,AutoGLM 现场 " 翻车 " 了,但这个小插曲不是因为自身能力……而是因为现场观众手速太快,AI 挤不进去群。
除了手机之外,张鹏在现场还展示手机和 PC 联动的自动驾驶。
例如群发檔案:
微信给智谱开放日,发送檔案:智谱开放日新闻稿 .pdf。
再如给微博点赞:
打开微博,帮我给王心凌的微博点赞并发布评论。
嗯,在 PC 上执行这些任务,现在统统都变成发个指令就可以的事情了,然后 AI 就会像人一样,一步一步帮你去做。
由此可见,大模型的输出已不再局限于文本、影像、音频或视频这样的多模态;现在,它可以是一种动作(Action)。
正如张鹏在发布会中所述:
这一应用展现了大模型从对话(Chat)走向操作(Act),从生成式 AI(GenAI)迈向代理式 AI(Agentic AI)的演进趋势。
但纵观整场发布会,智谱不仅仅是 " 发布 " 这个动作,AI 自动驾驶的能力也有了相应的提升。
外卖能比价,54 个步骤不带断的
智谱此次在 Auto 这件事儿上,一共发布了三大产品,分别对应的是手机、Web 和 PC。
接下来,我们就逐个来看下。
手机:可自动驾驶更复杂的任务
AutoGLM,作为智谱在手机上的自动驾驶,其实在一个月前就已经开启内测。
而从今天的发布来看,是可以处理更加复杂的工作,例如跨 APP" 货比三家 "。
在下面的这个案例中,AutoGLM 就先打开了美团、再打开饿了么,对同一个商品的价格做了对比:
即使面对多达54 个步骤的超长任务,AutoGLM 也能不间断 " 唰唰唰 " 地自主执行。
在下面这个例子中,用户仅需说一句:
帮我在小红书上看下准备火锅都需要哪些食材,去小象超市采购回来。
张鹏表示,他们还亲自测算了一下,AutoGLM 处理时间要比人类还快一些。
除此之外,AutoGLM 还推出了2 个新玩法。
第一个就是快捷短口令,对于经常提的要求,例如 " 在最近的店铺点一杯瑞幸橙 C 冰美式 ",以后不用每次都说这么多字了。
现在可以把它設定为 " 每日咖啡 " 这四个字即可:
第二个新玩法就是随便模式——遇事不决,让 AI 来做选择。
还是点咖啡这个例子,在随便模式下,AI 会随机咖啡品牌和种类,直到关键的付款界面才需要用户来操作。
Web:全自动上网
除了手机端之外,现在的 Web 端也可以 Auto 了。
在下面这个例子中,AutoGLM-Web 自动完成了 " 在百度搜索芒果 TV,打开再见爱人,播放最新一集,发弹幕 "。全程没有人的干预。
据悉,这个功能目前已经支持百度搜索、微博、知乎、GitHub 等数十个网站的自动驾驶。
PC:琐碎工作交给 AI
GLM-PC是智谱这次新发布的电腦端的自动驾驶。
例如这样的任务:
查询浏览并总结 Geoffrey Hinton 的百度百科,发给微信联系人。
再如淘宝购物:
在淘宝上买 XL 的羽绒服并购买。
还有仅是把聊天截图丢给 GLM-PC,它就直接能帮你预定会议:
据悉,目前智谱开放第一阶段的内测体验场景整体包括:
信息:适配微信、飞书、钉钉,可向联系人或群聊发送发信息
参与会议:适配腾讯会议、飞书会议等,可定会议日程、发送会邀;可定时加入指定会议
网页总结:可打开浏览器,在平百度、公众号、知乎、小红书等平台搜索关键词,进行阅读总结或者翻译等
总而言之,以往诸多琐碎的事务,都可以交给 AI 来自动完成了。
背后是全球首个 UI Agent 视觉基座模型。
对于 AI 自动驾驶背后的原理,其实智谱也已经发布过相关的论文。
而此次发布的 GLM-PC 是一种拟人的多模态的感知,正是基于这篇智谱自研模型CogAgent。
值得一提的是,这也是全球首个UI Agent 视觉基座模型。
CogAgent 是一种视觉语言模型(VLM),专门用于理解和导航 GUI。
与仅能处理文本输入的语言模型不同,CogAgent 可以处理截屏影像,通过视觉输入来识别页面元素,如按钮、圖示和文本位置。
因此,它不仅能理解页面上的内容,还能直接模拟人类用户的操作进行互動。
CogAgent 的特别之处在于它结合了低分辨率和高分辨率的影像编码器,以便更好地理解 GUI 页面中不同类型的信息。
其输入影像分辨率高达 1120 × 1120,能够准确识别页面上较小的圖示和文本,使其在复杂的 GUI 任务中表现优异。
而 CogAgent 的核心可以归结为两大部分:
一个视觉编码器
一个语言解码器
视觉编码器用于处理输入的 GUI 截屏,将其转换为适合模型理解的特征表示。
为了平衡计算复杂度和输入分辨率,CogAgent 使用了一种称为高分辨率交叉模块的新设计,使得模型可以在高分辨率下仍然保持较低的计算开销。
这一模块的引入,使得 CogAgent 可以在无需显著增加计算资源的情况下,获得更精细的影像特征。
具体来说,CogAgent 利用一种跨注意力机制,将高分辨率影像特征与语言特征进行融合,从而在不同层次上理解页面元素的关系。
这样的设计,使得 CogAgent 在理解和操作网页和移动设备的 GUI 任务上远超基于语言模型的其他方法。
作为一种通用视觉语言模型,CogAgent 在包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 在内的五个文本密集型和四个通用视觉问答基准任务上达到了最先进水平。
仅通过截图作为输入,CogAgent 在 PC 和 Android 的 GUI 导航任务上超越了基于 LLM 的方法(例如 Mind2Web 和 AITW)所使用的 HTML 提取文本输入,大幅提升了当前技术水平。
为什么 Auto 这件事很重要?
若是观察近期业内的发展趋势,Auto 已然成为较为前沿的那一个。
例如苹果的 Apple Intelligence,Anthropic的 Computer Use、谷歌的 Jarvis,再到传闻的 OpenAI 即将发布的 Operator。
顶尖企业,纷纷剑指 Auto。那么为何会如此?
先看技术发展。
在大模型技术出现之前,人们只能通过键盘、滑鼠、多点触控等物理方式与机器互動,始终是人在适应机器。
而用户至今仍需花费大量时间学习各种軟體操作,尤其是复杂的企业軟體界面,频繁跨多个应用执行工作流,充满了重复的机械操作,必须手动完成。
大模型正在改变这一点,让机器适应人。这得益于大模型在自然语言、多模态感知和逻辑推理等方面的突破。
因此,现在的大模型可以理解界面、规划任务、使用工具,甚至实现自我改进,初步具备了模仿人类与物理世界互动的能力。
一言蔽之,Agent 带来了更符合直觉的人机互動。
再来看市场趋势。
Gartner 已将代理式 AI 列为 2025 年十大技术趋势之一,据其预测:
到 2028 年,至少有 15% 的日常工作决策将由代理式 AI 自主完成。
至于智谱对此的理解,张鹏在现场也给出了解释。
智谱将大模型的发展分为五个阶段:L1 语言能力、L2 逻辑能力(多模态)、L3 工具使用能力、L4 自我学习能力和 L5 探究科学规律。目前:
L1 语言能力:已达 80%
L2 逻辑能力:已达 60%
L3 工具使用能力:还在初期阶段
L4 自我学习能力和 L5 科学探究能力:正在探索中
在 L3 阶段,尽管取得了明显进展,但大模型在一些基本操作上仍存在挑战,例如滚动、拖动和缩放,这些对人类来说是轻而易举的。
并且智谱对于 Agent 技术的发展并非是一蹴而就。
从 2023 年 4 月的 AgentBench 开始,到 8 月的 CogAgent 模型,2024 年的多项成果,智谱针对于 AutoGLM 和 GLM-PC 的模型 CogAgent 的研发工作,也进行了一年半的时间。
智谱还表示,未来将继续加速对 Agent 模型产品的研发。
One More Thing
AI 要想 Auto 起来,技术能力固然是一方面,但生态亦然也是重要。
为此,智谱已经在芯片、作業系統 、模型侧和应用 APP 侧,进行了一段时间的探索,和诸多手机、PC 厂商实现了深度合作。
在现场,包括荣耀、小鹏、华硕、高通、英特尔等合作伙伴也纷纷来站台。
智谱 COO 张帆还表示:
Agent 不仅在作業系統和 APP 上可以实现用户体验变革,还将会推广到各类智能设备上,实现基于大模型的互联互通。
这种扩展,具体到当下的各种设备,从手机到电腦,再到汽车、眼镜、家居和各种边端设备,理论上是没有边界限制的。
对于万物皆可 Auto 的未来,你期待了吗?
内测地址放下面了,感兴趣的小伙伴可以去申请哦 ~
清言插件:
https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday
AutoGLM- 安卓:
https://agent.aminer.cn/
GLM-PC:
https://www.wjx.top/vm/mOs9cHw.aspx
— 完 —
「MEET2025 智能未来大会」
火热报名中
定档 12 月 11 日!李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025 智能未来大会探讨行业破局之道了!
,观众报名通道已开启!欢迎来到 MEET 智能未来大会,期待与您一起预见智能科技新未来
左右滑动查看最新嘉宾阵容
点这里关注我,记得标星哦~
一键三连「点赞」、「分享」和「在看」
科技前沿进展日日相见 ~
>