今天小编分享的互联网经验:大模型竞赛,赛点在哪?,欢迎阅读。
AI 浪潮的席卷速度,超过了以往任何一场技术革命。
OpenAI 刚刚成立的时候,AGI(通用人工智能)仍是一个不切实际的理想。不少学者认为,与其花精力去研究一个如人类般通用的人工智能,不如去琢磨琢磨永动机,后者可能更现实点。
当时,连 OpenAI 的首席科学家伊利亚,都不敢和人聊这个话题,因为会在圈子里低人一等 [ 1 ] 。
仅仅过去了不到 10 年,AGI 已经成为了一种共识。前些天,奥特曼与黄仁勋都不约而同地表达了同一个观点:AGI 很有可能在 5 年内成为现实。
而在眼下的 2024 年,AI 将进一步加快重塑社会的脚步。
最后一道障碍
在中国的科技叙事中,AI 并不是一个新词。
2016 年,谷歌 AlphaGO 战胜李世石,登上了全球新闻媒体的头条,国内的创业者开始蠢蠢欲动。第二年,谷歌又跑来乌镇与柯洁下了场棋。
在这短短一年时间内,国内涌现了 528 家 AI 企业、371 起 AI 投融资、9000 多项 AI 专利 [ 2 ] 。
当年的互联网大会上,官方发表了一份题为 " 乌镇指数 " 的报告,方方面面介绍了人工智能创业的盛况。然而,人工智能热潮只持续了三四年,便偃旗息鼓。
因为在当时,AI 多为参数量较小的小模型,只能处理定制化任务。
面对某个具体任务,科技公司需要先收集并标注对应的数据,再用这些数据去训练,从而让 AI 获得特定的能力。
举个例子,许多中式快餐店,都有自动识别菜品并计算金额的 AI。为了打造这一系统,科技公司需要先收集小炒肉、番茄炒蛋等菜品的影像,并给每张圖示注好菜名与价格,再用这些数据去训练 AI。
尽管小模型的技术含量不低,落地方式却和施工队无异,这让 AI 失去了光环。
而打破这一瓶颈的,正是诞生于 2017 年的 Transformer 算法。
它最大的变革,是解决了过往的 RNN 等算法,难以处理大规模参数的问题,从而打造出具备通用能力的 AI。至此,大模型一词开始登上历史舞台。
随着底层技术取得突破,科技公司的大模型迭代,呈现出了一条非常陡峭的曲线。
外界对于大模型的认知,多始于 2022 年底发布的 ChatGPT。但在水面之下,相关研究早已如火如荼。
例如 2019 年,一批清华知识工程实验室的技术人员,走出象牙塔创办了智谱 AI。
从第二年开始,智谱 AI 开始专注于研究国产全自研、自主可控基座大模型,是国内第一批研究大模型算法的公司。
2021 年,智谱 AI 的 7 位研究员,共同发表了论文《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》,提出了一种不同于谷歌 BERT、OpenAI 的 GPT 的预训练架构 GLM。
在自然语言理解、无条件生成、条件生成这三个主要任务上,GLM 表现优异。
以 GLM 架构为基础,智谱 AI 于 2021 年发布了第一款模型 GLM-10B。此后三年间,GLM 又历经多次技术迭代。
2024 年 1 月,智谱 AI 推出了新一代基座大模型 GLM-4,在基础能力、指令跟随能力、中文对齐能力等方面全面看齐 GPT-4,模型能力实现质的飞跃。
不仅如此,GLM-4 还拥有强大的上下文能力,可以在 128k 文本长度内做到百分之百精准召回,并具备多模态的能力。
当然,智谱 AI 只是国内大模型研究的一个切面。
这些年,几乎全世界的科技公司都撸起了袖子大搞创新,OpenAI 的研究员甚至自发高强度内卷,每天研究到凌晨到 1 点多。
2024 年初,北京市人工智能产业投资基金参与智谱 AI 的新一轮融资,进一步加速大模型发展。
AGI 改变社会,不再是将来时,而是进行时。
造铁路更重要
纵观历史可以发现,波澜壮阔的技术革命,往往有这样一条规律:
技术革命的最大受益者,通常不是率先做出突破的开拓者,而是那些率先将技术扩散出去的一方。
当年的工业革命尤为明显:
许多创新都始于欧洲,然而美国却一跃成为工业强国;最重要的原因,莫过于美国率先建立起了庞大的铁路网络,将工业成果落地。
在 1870 年到 1900 年的短短三十年间,美国新造了 17 万英里的铁路,将原本的铁路系统延长了近 3 倍。
这一规律,在 AGI 时代同样适用。
去年,著名计算机科学家吴恩达曾在斯坦福做过一场题演讲。他同样认为,AI 其实和电力、互联网一样,是一项通用技术;更多的机会,在于大规模应用落地 [ 4 ] 。
然而,当下整个行业对于 " 造铁路 " 的探索,其实仍处于较浅层的阶段。
主流的聊天机器人产品,更多只是简单给通用大模型套了个壳儿,并没有与市场需求深度贴合。
这就导致大模型已经火了近一年半,但对普通人生活的影响,并没有想象中那么翻天覆地。
因此,以智谱为代表的 AI 公司,开始在商业化落地上做出更多尝试。
过去一年时间,智谱 AI 的 GLM 大模型,已经在智能汽车、金融、咨询等领網域取得了一定成果。目前,智谱对于大模型落地的探索,大致可以拆抽成三个方向:
一是革新传统的互動方式。
在消费电子、汽车等行业,对话互動并不是一个新物种,被广泛应用于智能音响、新能源汽车等产品上。
然而,传统的对话互動并不好用,其回复内容多根据给定的模板生成,较为生硬,且对于语音指令的理解率也较低。
因此,智己汽车尝试在车机系统中,部署了智谱 AI 的 GLM 大模型。
新版的对话互動功能,不仅大大提升了指令识别的能力,同时还能实现更多趣味性对话,例如切换聊天人设等等。
二是降低知识流动的边际成本。
众所周知,营养师、律师等专业人才的培养,需要耗费非常多时间成本,导致知识流动的边际成本较高。
相比之下,拥有大量知识储备的通用大模型,可以加速知识的流动。
例如蒙牛与智谱 AI 合作,打造了一个 AI 营养师助手,实现了健康测评、营养计划制定、运动计划制定等功能,仿佛一个贴身营养师。
三是减少重复性腦力劳作。
事实上,腦力劳动中有大量重复性劳作,例如整理会议纪要、PPT 排版等。
因此,WPS 与智谱 AI 合作,推出了智能办公助⼿产 WPS AI。
针对文字编辑、PPT 演示文档等场景,提供一系列辅助功能,例如生成会议纪要、公文等等,从而让更多人专注于创造性工作中。
智谱 AI 在 " 造铁路 " 上的探索,给业界提供了一个可供参考的模板。
过去几个月,不论是中国还是美国的 AI 公司,都加快了 " 造铁路 " 的脚步。
目前,业界已取得了一些阶段性成果。然而,商业落地只是技术革命的 A 面;水面之下,创新生态的建设同样重要。
谁来造铁路?
2016 年,谷歌大腦团队率先将深度学习技术应用于翻译軟體中,在中英文翻译上取得了巨大突破。
彼时,谷歌能够在 " 造铁路 " 上先行一步,背后其实是一整套创新生态在发挥作用。
当时谷歌翻译的理论基础,来自于人工智能泰斗辛顿的学生、现 OpenAI 首席科学家伊利亚的研究成果。
彼时,他在论文中介绍了改良版的 RNN 算法,并展示出了它在翻译等 NLP 任务上的潜力。
而这篇论文,发布于 2014 年的 NIPS 大会——它是全球最顶级的 AI 学术会议,许多创新都诞生于此。
在美国,高校、顶级学术会议、产业等环节,彼此高度相关,构成了一个活跃的创新生态。而在工业革命期间,美国能够更快建设起铁路,也是因为当时的创新氛围,培养了大批活跃的工程师。
事实证明,想要把 " 铁路 " 造好,光靠个人努力显然不够,需要发动更多人一起参与创新。
当下,智谱等科技公司也深知不能闭门造车,在大模型产业生态圈建设上付出了不少努力。从 2022 年开始,智谱开始着手于开源生态的建设。
这一年,智谱首次开源了具有 1300 亿参数的双语双向稠密模型 GLM-130B,深受开源社区欢迎。
自 8 月发布以来,GLM-130B 模型已经收到了来自 70 余个国家、1000 余个研究机构的使用需求。
开源的意义,在于 " 众人拾柴火焰高 ",是推动技术创新的一种重要方式。
因此,智谱继续延续了这一做法,开源了单卡版模型 ChatGLM-6B,对学术研究完全开放,企业在登记获得授权后,也可免费商业使用。
在这基础上,智谱 AI 也在努力构建学术生态,不仅赞助了包括 NIPS 在内的全球顶级学术会议,并且与 CCF(中国计算机学会),以及国内各大高校展开了合作,设立首届 CCF- 智谱大模型基金等赞助计划。
除此之外,智谱 AI 也鼓励更多创业者加入到大模型浪潮之中。
智谱 AI 推出了 ChatGLM 金融大模型挑战赛、大模型开源基金等扶持项目,共同建设繁荣的国产大模型生态圈。
建设创新生态,是一个打地基的过程,其实相当重要——毕竟,这直接关乎了 " 造铁路 " 的速度。
尾声
" 造铁路 " 这件事,其实并没有看上去那么简单。
去年 9 月,红杉资本曾发表过一篇文章,认为 AI 浪潮正转向 " 第二幕 ",即利用新技术端到端地解决现实社会中的问题。
但当时的红杉认为,进展效果并不理想,大模型仍需要证明价值 [ 5 ] 。
智谱 AI 在商业化落地的初期中,还遇到了不少现实问题。例如,国内的 SaaS 产业本就没有海外发达、不同公司对模型部署以及数据合规有不同的要求等等。
幸运的是,智谱 AI 很早就开始了商业化的探索,并找到了一条行之有效的解法。
3 月 14 日的智谱 AI 发布会上,公司 CEO 张鹏介绍了过去一年的商业化成果:2000+ 生态合作伙伴、1000+ 大模型规模化应用、与 200 多家企业深度共创。
智谱 AI CEO 张鹏
真正意义上的 "AI 第二幕 ",如今正以超乎预期的速度铺开。
某种意义上,眼下的盛况,其实与 19 世纪末的美国其实颇为相似,越来越多地人都开始投身于 " 造铁路 " 的事业当中。
如何将 " 铁路 " 造得又快又好,已是当下 AI 行业最重要的议题。因为将关系到未来中国的科技公司,能够在人工智能的产业分工中,掌握多少话语权。
参考资料
[ 1 ] 深度学习革命,凯德 · 梅茨
[ 2 ] 乌镇指数:全球人工智能发展报告(2017)
[ 3 ] The Key To Winning The Global AI Race,NOEMA
[ 4 ] Andrew Ng: Opportunities in AI - 2023,Stanford Online
[ 5 ] Generative AI ’ s Act Two,Sequoia
作者:陈彬
>