大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

2024-10-28 简体 HK SG TW

今天小编分享的科技经验:CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡,欢迎阅读。

今年到   CNCC   现场参会的朋友,想必都对   CNCC 2024   举办所在地——超过   6200   亩的横店圆明新园印象深刻!

虽然园内建筑身临其境,并且薅了主办方一把羊毛,免门票游览了圆明新园与横店多个著名旅游景点,但园子实在是太大了。参会人数超过   1   万   2,园内车辆、美食供不应求,小编表示腿已经走断。

也是急中生智,我们想到:是否能用   AI   帮我们在横店点一杯咖啡?

结果,智谱真的做到了!

在今年的   CNCC   上,智谱发布了一个新功能:自主智能体 AutoGLM,智谱将其称为是一个可模拟用户点击螢幕的手机操作助手,以及点击网页的浏览器助手。

我们现场实测,整体操作非常丝滑:可以通过一句话下达任务指令,AI 根据我的指令,打开了美团,按照我的要求点了咖啡,过程中除了付款环节不需要人的任何参与。

智谱这次发布的 GLM-4-Voice   情感语音模型「活人感」简直溢出螢幕,不仅能「呼吸」,撒娇也信手拈来,时不时有种「  AI   林志玲」的哎呀调调,话语间自带波浪号「哎~呀~」……

并且,我们真的成功在   CNCC   会场喝上了 AI 点的咖啡!

目前   Web   能力已经通过「智谱清言」插件对外公开使用,不过手机端仅开放了安卓用户体验:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

从文本到文生图、文生视频,再到语音,事实上智谱本次的新技术成果发布反映了在通往   AGI   追梦之路上的重新思考。

在   CNCC   大会第二天上午的主题圆桌论坛中,香港大学马毅教授提到,人类智能在大自然的进化过程中有两个「原生大模型」,一个是   DNA,另一个是语言;而之所以称这两个特征为大模型,是因为其本质上都具备自我学习的能力。 

尽管今年的大模型已经发展到了一个新高度(如   o1   的复杂推理),但现在大模型知识丰富、智能不足的短板仍是行业共识。如圆桌论坛中唐杰所言,我们距离   AGI   的实现还很遥远,这中间的研究趋势至少包含三步:多模态、推理与自我学习。

在   AI   能够自我推理、自我学习之前,多模态是必须跨过的一步,因为人类的智能学习规律就是文本、影像、语音乃至触觉、嗅觉等更多五官共同学习、相辅相成。

 

(智谱发了一个 AGI 进程图)

而   AutoGLM,其实是智谱在工具能力上的新研究,也是智谱所思考的   AGI   实现路径之一。

「活人感」满满的   AI   助手

在进一步分析理解智谱的   AGI   技术路径之前,我们先来看一下智谱在语音模态上所取得的最新突破——

当前,智谱清言情感语音助手在响应和打断速度、情绪感知、情感共鸣、语音可控表达、多语言多方言等方面均实现了突破。

AI   科技评论对于这一系列功能革新进行了一番实测:

首先,我们给小智进行了一个比较常规的英语陪练测试,在纠正发音方面她确实表现良好,甚至日语练习的切换也相当丝滑。

随之,听说「小智」还精通北京腔、台湾腔、东北腔和粤语,作为广东人,可不能放过这个为难她的机会,于是,我们测试了「各个国家有各个国家的国歌」这段入门级粤语绕口令。 

实测发现,小智的粤语发音其实不算非常地道,甚至有一股泰国味。不过,在这之中,值得表扬得是,她能在领悟到我们的诉求是需要粤语回答时,自动将「旁白」部分也切换为粤语。 

之后,她又加赠了一段「吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮」的粤语绕口令展示,还想让我们也试试看。

而面对我们刻意为难提出的「加快语速」要求,小智也一宠到底,随着倍速居然能明显体会到她的情绪愈发激动,甚至伴随有呼吸声。

整体上看来,可谓是「活人感」十足。

同时,本届   CNCC   落地横店也给了小智些许施展拳脚的机会,我们带着小智一同游览了知名景点「秦王宫」,并让她化身李白澎湃激昂作诗一首。

小智写的诗是这样的:

「秦王宫中念群臣,壮志凌云绘风云。金戈铁马尽奔腾,万古英雄气不容。」

还挺有鼻子有眼的。

之后我们也尝试上了难度,想要前述古诗的东北腔读法,不过,小智貌似没有完全理会,她「哎呀妈呀」一声张口就来,随性发挥了一篇东北腔版秦王宫夸夸小作文。

小智还时常戏瘾大作,我们也让她即兴给我们讲了一段鬼故事,并模仿了故事中的女鬼笑声:

读到这里,小智所呈现的形象可能带有一丝幽默,甚至有些调皮。但值得关注的是,她其实也能给出非常多建设性的建议,并且在安慰人这方面也很走心。

我们扮演了一个疲惫打工人的角色和她半夜诉苦,小智也给足了情绪价值,甚至能代入闺蜜视角给到积极正向的安慰。

实际上,在对话开头,我们还告诉小智,在下班路上因为看到了彩虹而感到开心。

她不仅共情,还把这个内容默默记下了,下轮对话开启时,其第一句招呼语便是「希望彩虹带来的好心情能持续陪伴你,工作再忙也要记得照顾自己的情绪哟!」

这种每次开启新一轮对话时   Call Back   的细节处理,确实让人眼前一亮。

不过,我们也找到了   AI   无法替代人类智慧的证明,我们尝试和小智玩海龟汤游戏,汤面是「妈妈买回来一个大西瓜,我吃了,第二天我死了。」 

小智推理出的答案是,西瓜可能有致命的细菌或者农药残留,不能否认其中有一定道理,但之后她似乎开始逐渐忘记海龟汤的游戏规则,居然反问我们还有什么具体细节,这个测试到此戛然而止。

「人情味」背后的技术支撑

据智谱在   CNCC   现场的发布介绍,AutoGLM   是基于智谱   GLM   大模型家族的新成员—— GLM-4-Voice   情感语音模型。

熟悉智谱的朋友知道,今年初智谱推出第四代基座大模型   GLM-4   后,在   8   月的   KDD 2024   上又快速迭代更新了基座大模型   GLM-4-Plus,至此,大模型开始有了「眼睛」和「嘴巴」。

在语音上,8   月的智谱清言就已经可以实时视频通话。但   CNCC   发布的新成果   GLM-4-Voice   无论在底层技术还是语音输出效果上都更上一层楼。

作为端到端的语音模型,GLM-4-Voice   避免了传统的 「语音转文字再转语音」 级联方案过程中带来的信息损失和误差积累,拥有理论上更高的建模上限。

与传统的   ASR + LLM + TTS   的级联方案相比,端到端模型以音频   token   的形式直接建模语音,在一个模型里面同时完成语音的理解和生成。

具体来看,智谱基于语音识别(ASR)模型以有监督方式训练了音频   Tokenizer,能够在   12.5Hz(12.5   个音频   token)单码表的超低码率下准确保留语义信息,并包含语速,情感等副语言信息。

语音合成方面,则采用了   Flow Matching   模型流式从音频   token   合成音频,最低只需要   10   个   token   合成语音,最大限度降低对话延迟。 

 

而在预训练方面,为了攻克模型在语音模态下的智商和合成表现力两个难关,智谱将   Speech2Speech   任务解耦合为   Speech2Text(根据用户音频做出文本回复) 和   Text2Speech(根据文本回复和用户语音合成回复语音)两个任务,并设计两种预训练目标适配这两种任务形式:

 

图|GLM-4-Voice   预训练数据构造  

能实现富有情感的对话背后,也离不开    GLM-4-9B   在深入对话理解上的支持。

智谱   GLM-4-9B   模型的上下文从   128K   扩展到了   1M tokens,使得模型能同时处理   200   万字的输入,大概相当于   2   本红楼梦或者   125   篇论文的长度。

此次新发布的   GLM-4-Voice   则在   GLM-4-9B   的基座模型基础之上,经过了数百万小时音频和数千亿   token   的音频文本交错数据预训练,拥有了很强的音频理解和建模能力。

智谱对   AGI   的探索与思考

在大模型还没火起来之前,智谱团队就尝试过将其能掌握的所有中英文语料、影像、视频、语音等数据一起输入,参数规模甚至过万,但却发现:相较团队早期训练过的文本模型   GLM-10B   来说,万亿参数规模的多模态大模型反而在文本能力上有所下降。 

从人类智能的角度来看,五官是我们认识视觉最直接的介质,并且视觉、听觉与语言能力之间往往能相互增强。但在对   AI   多模态模型的探索中,结果却是相反:文本模态的智能水平并没有因为影像模态而增强,反而削弱。这个「非共识」的发现也影响了行业对   AGI   路径的思考。 

多模态是实现   AGI   的必经之路是业界共识。但是,多模态的研究要怎么展开?这其实是一个尚未形成共识的开放性问题,也是未来国产大模型需要继续思考的问题。

尽管   OpenAI   发布的   GPT-4V   与   GPT-4o、谷歌发布的   Gemini   让业内人员认为,多模态的发展应该朝着像海外   OpenAI   与 谷歌的技术路线去发展。但科学的怀疑、验证精神在多模态研究中仍不可或缺。

比如,目前文生图、文生视频或图生视频等多模态的研究,就没有与主流的基础文本推理大模型结合起来,不同模态之间的   Gap   还很远。如何将不同模态结合起来,也是一个亟待解决的问题。

根据   AI   科技评论对智谱过去三年的观察,智谱的   AGI   路径事实上是:先聚焦文本大模型的能力提升,但在   GLM-3、GLM-4   等基座大模型发布后,智谱很快就将影像、视觉、语音等提升了日程,并同时不忘迭代代码模型、视频生成模型等。

智谱不仅聚焦单一模态的单点能力提升(如   ChatGLM3),也注重双模态、多模态的结合——但无论从哪个角度来看,智谱版的「Her」都具备了比现有国产大模型公司更全面的模态能力。

根据智谱   CEO   张鹏的介绍,在智谱看来,人工智能的分级从大语言 - 多模态 - 使用工具 - 自学习,也可以分为   L1   到   L5   这五个等级。除了   L1   到   L3   这三块为大家共识的分级外,L4、L5   就体现了前文所说的「AI   自我学习」能力: 

从这个维度来看,智谱本次在   CNCC   发布的手机助手能帮我们现场点咖啡,已经是达到   L3   的工具使用阶段。

而且   CNCC   现场独家据悉,智谱在本月底将推出生成视频模型   CogVideoX   的更新版本   CogVideoX-Plus,张鹏透露的更新亮点是:60 帧帧率、4K 画质、10s 时长、任意比例图生视频、运动稳定性大幅提升。 

智谱内部认为,目前我们距离   AGI   的道路只走了   42%。

他们根据大腦的能力,将   AGI   的技术维度分为了视觉、听觉、语言等多模态感知与理解能力;此外,还有   AI   模型的长短期记忆能力、深度思考与推理能力、情感与想象力等。

此外,作为人的身体指挥器官,大腦还能调动身体的各个部分协同运转,使用各种工具——而这个方向,就是目前具身智能、具身大腦所探讨追求的方向。

如果将大腦的能力区網域划分为   AGI   的技术路线图,如下图所示,事实上目前的   AGI   科技树还有绝大部分没有被点亮。也就是说,在   42%   以外,智谱与当前包括   OpenAI   在内的其他大模型公司还有很长的路要走。

 

同时,当   AGI   参考人类大腦的能力画出如上技术路线分布图后,智谱的   AGI   研究也超越了追赶   OpenAI   的阶段。这也是一份技术指南,能够告诉大家:除了   GPT-o1   的推理能力,智谱还会发力其他的方向,如自我学习,模型指挥「肢体」执行工作任务等。

GPT-o1   体现的思维链从   2022   年开始,经历过从一两步推理到一致性推理、再到复杂多步推理的提升。从研究趋势上来看,多模态与推理都是实现   AGI   的必经之路,但无论是智谱   GLM   多模态家族、还是   GPT-o1,都体现出综合系统单点突破、循序渐进的第一研究原理。 

在追赶   AGI   的路上,我们应该乐观,但也要清楚认知目前所处的位置,不断追赶。雷峰网雷峰网

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們