今天小编分享的科学经验:2年间AI大模型成本骤降万倍,商业化应用加速跑,欢迎阅读。
对于 AGI,大模型六小虎之一的智谱有自己的理解,他们把 AGI 分为五个等级:
第一级是语言,智谱 " 已经做得非常不错了 ";
第二级是对复杂问题的求解,可以看到 o1 水平模型能力出现;
第三级是使用工具,比如自主智能体不但能够通过 API,还可以像人一样操作手机、PC 甚至汽车的界面来获取信息;
第四级是自我学习;
第五级是超越人类,AI 将具备探究科学规律、世界起源等终极问题的能力所以通往 AGI 之路将是一个清晰和明确的链路。
本次量子位 MEET 2025 智能未来大会上,智谱 COO 张帆热情分享了智谱大模型的发展、应用、商业化发展、未来方向,以及企业和个人的科技战略构建。
为了完整体现张帆的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
MEET 2025 智能未来大会是由量子位主办的行业峰会,20 余位产业代表与会讨论。线下参会观众 1000+,线上直播观众 320 万 +,获得了主流媒体的广泛关注与报道。
核心观点梳理
大模型天然是一个应用导向的技术;
一条曲线是能力上升,一条曲线是成本下降,带来技术能力快速地落地和应用;
通往 AGI 之路将是一个清晰和明确的链路;
AI 开始变成基础生产要素;
意识到模型的技术效果不及预期不难,难的是找到 " 怎么能行 " 的一条路;
大模型的文本模型成为你的大腦,多模态模型成为你的眼睛,自主智能体模型成为你的双手
模型场景越来越从浅水区进入到深水区;
不管基座模型是国内的、国外的,开源的、闭源的,合适的才是最好的。
……
以下为张帆演讲全文:
2 年时光飞逝,铺开一个迅猛发展的大模型时代
大家好,非常高兴今天有机会能够跟大家做一些分享。
智谱算是在国内最早做大模型商业化的公司,我们在过去的一两年当中也走了很多弯路,踩了很多坑,有一些成绩。今天希望跟大家分享一下我们在商业上面的一些思考,大模型如何跟商业能够应用起来。
其实我觉得今天大家经常会有一个问题,大模型是不是变慢了?是不是已经到瓶颈了?是不是增长得不够快了?
我们在开始的时候可以简单做一个小的回顾,看看过去的两年间到底发生了什么。
首先一点,大家可以看到在早期的时候,ChatGPT 发布后只用了两个月的时间,全球用户就过亿。这是一个前所未有的现象级增速,比人类历史上所有技术进展速度都要快——电话用了 75 年才达到这个成就,这是一个直接进入到应用的技术。
它也不像其它很多技术,一般来说,技术往往都是先有一个概念,然后从这个概念出发,不停尝试让它一点一点落地,最后落实。
今天的大模型不太一样,我相信绝大多数的各位都不是先知道了这个概念,而是先知道了某一款应用。所以大模型天然是一个应用导向的技术。
很多分析都提出,生成式 AI 进入市场的速度远比互联网和 PC 要快,并且在过去两年间,整个模型带来了非常大的变化。
模型能力飞速提升
以一个计算基准来看,仅仅 2 年时间,整个模型的行业水平就从 60 分涨到了将近 90 分。通常而言,低分段涨分容易,高分段涨分不容易。但仅仅用了两年时间,智能就提升了这么多。
与 OpenAI 的折现轨迹相比,能看到智谱基本上跟紧上了国际步伐。
再说上下文視窗。我记得去年刚开始做模型商业化的时候,基本标配是 4K 基本,现在 100 万才是基本门槛,甚至很难算是合格的能力。今天很多模型視窗都达到了 100 万、200 万字,能装的东西已经非常多了。
我们也能看到一系列从单一模态到多模态、从文本模型到多模态模型,甚至是自主智能体模型等等的现象出现,模型的能力变得越来越丰富。
这一切仅仅用了 2 年时间。我们回想移动互联网时代,iPhone 发布两年之后,真正的杀手级的应用都还没有出现。
但是在今天,模型发展已经非常快,从各个方位上都全面得到了提升。
模型成本极速下降
与之相对应的是模型成本的下降,且无论是国内外。
连 OpenAI 也降低了几十倍,并且还在持续下降。
国内更是如此。记得去年刚刚开始做商业化的时候,智谱当时还是 5 毛钱 1000 个 tokens,但今天最低已经到了 5 分钱 100 万个 tokens ——这是 1 万倍。
也就是说,在过去两年间,这个市场降价降了 1 万倍,能力变得比原来更强。
一条曲线是能力上升,一条曲线是成本下降,带来的是什么?
带来技术能力快速地落地和应用,这是背景。
通往 AGI 共 5 级阶段,路径清晰,方向明确
这个过程当中,有这样一个背景。那么,未来往哪去?大家更常会问,我们今天到了哪一步。
之前 OpenAI 发布了对于 AGI 目标能力的分级,智谱也给出了一些自己的理解。
我觉得这个路径还是比较清楚的:
第一级是语言。我们已经做得非常不错了,基本上可以通过图灵测试。
第二级是对复杂问题的求解。可以看到 01 这样的能力出现,让我们对模型的应用类似从「大腦的系统 1」转化为「系统 2」,从简单直觉的回答,变成了能够深度性的思考和拆解。
第三级开始使用工具。过去回答复杂问题的时候,不但需要能直接做深度的思考,还需要能够跟外界持续地互動获取信息。我们之前做了很多像 Function calling(函数调用),如何在过程中把需求转化为一个请求,通过 API 的方式取外部的数据,类似于这样的方式补充内容。
也有包括像我们自己发布的自主智能体,不但能够通过 API,还可以像人一样操作手机、PC 甚至汽车的界面,从里面获取信息。
第四级是实现自我学习。AGI 已经不满足人们谈论和探索的空间了,已经开始讨论 ASI 了。如果把人类的智能作为基准,而技术机器的智能在逐步上升。
随着人给它标注数据,技术机器智能的曲线值逐步提升,某一天达到了人类的智能这条线,我们该怎么标数据?它怎么获取更多的知识?
今天还有很多谈论,已经看到了 ASI 和 Super Alignment 的初步进展,我觉得在今天看起来,这几步还是或多或少都有了一些进展的。
在这里面,智谱也不断地探索和丰富模型的能力,从最开始的语言能力,到 L2 的复杂问题的能力,到工具能力,以及现在正在试图去解决的第四级别的 GLM-zero 和 GLM-OS 等能力。
第五级还没有非常明确的定义,但是方向在那,是超越人类,AI 将具备探究科学规律、世界起源等终极问题的能力。
AI 开始变成基础生产要素,带来商业底层变化
这一次,大模型不只是带来了技术上的变革,与以往相比,也带来了更多在商业上的可能性。
在移动互联网时代,所有的任务都是独立的,你需要从很多种算法中挑一种做实验,解决一个小问题,比如分词、词性标注、实体识别等。
那个时候,使用 AI 的门槛的成本是很高的,所以只有那种高杠杆的业务才能应用,比如搜索引擎、推荐引擎。也就是说,只有那种上千万、上亿的人在应用,且边际成本几乎为零的应用,大家才能够去用 AI。那个时候基本上只有互联网大厂在应用 AI。
到 2013、2014 年神经网络成熟之后,某种程度上,算法层被统一了,大家不用学各种各样的算法了。
所以一定程度上门槛有了第一次普惠化,成本也下降。这样的结果就是 AI 能力开始进入到产业跟行业。
而今天,从算法到模型,到数据,再到任务,整个大模型几乎把一切都统一。
再加上有 Zero-shot 和 Few-shot 的能力,我们从针对一个任务去训一个模型,变成可以直接去应用模型了。
它不但带来了更强大的能力,还让我们模型的生产成本比原来下降了至少两个数量级,可能 100 倍。
原来做一个什么样的简历抽取,不搞上几个算法科学家,搞上半年,根本搞不定,但几百万经费就出去了;但是今天来讲,借助大模型,一个运营的人员,一个产品的人员,哪怕不会编程,基本上可以花上一周就能解决这个复杂的问题,并且效果还不差。
在这样的背景下,AI 开始变成基础生产要素,这就导致带来商业底层的很多变化,此外,上层的变化,包括工作方式、组织形式、商业模式甚至每个企业的壁垒,可能都会发生变化。
从智谱模型矩阵发展,看应用 AI 和 AI 应用的未来
接下来可以跟大家分享几个最新的模型方面的进展。
首先,今天的智谱有非常完备的模型矩阵,包括语言模型、代码模型、多模态模型、超拟人模型,到自主智能体。
语言模型方面,既有可以跑在 PC、汽车、手机等设备上的端侧的模型,也有开源或商用的模型。这一点代码大模型也是一样。
多模态模型方面,各种维度,从文生视频、视频理解、文生影像、影像理解等,智谱都有多方面的矩阵,能够满足用户不同需求。再包括智谱还有拟人大模型、心理大模型,以及自主智能体。
这两天 Sora Turbo 刚发布,大家都觉得里面有很多地方还不够完美,我觉得这非常正常,因为这是一个很早期的技术。
找到它哪不行,这件事不难,我们大家都可以批评它;很难的是找到怎么能行的那条路。
其实在 GPT-3 时代,就有像 Jasper 这样的公司,一年有几千万美金的 ARR。所以能够找到模型与业务的最大公约数,是我们今天做商业化里面的一个重要环节。
智谱最早的多模态模型,其实也是最不完善的版本,只是把莫奈的名画动起来,然后拼了一下,还是会有一些穿帮的地方。但是本质上来讲,已经足以帮助旅游局做一个小宣传片。
今天用大模型来做这样一个视频,成本就 10 块、20 块,成本极低;但如果用 CG 来做,没一两百万做不下来。
与此同时,我们看到了未来对于内容生成应用的可能性。
对于一段视频,以前用 CV 的方式,很难做泛化性理解,今天的大模型在几乎不训练的情况下,可以很好地回答视频里的人在干什么?有没有精彩时刻?精彩时刻在多少秒?
还有一些端侧模型方面的激战。之前在高通骁龙峰会上,智谱联合他们联合发布了 demo,在 8Gen4 手机上完全可以驱动一个多模态的模型实现很好的效果。并且,智谱构建了非常完备的端云一体化的同源解决方案,可以让用户在设备端很好地应用大模型的能力。
再比如视频通话,大家可以一边对话,一边在视频里跟 AI 做交流。最早是 OpenAI 在 5 月发布了这个功能,但其实没有真正让终端用户用起来。在今年 8 月,智谱已经把这个功能全量发布在智谱清言上了,大家可以去尝试。
而自主智能体,能够让 AI 自动化帮你完成多达几十步的,甚至跨应用的复杂任务。大模型的文本模型成为你的大腦,多模态模型成为你的眼睛,自主智能体模型成为你的双手,不但能够帮你做思考,还能帮你做执行。
智谱也提供了一整套的方案,可以帮助开发者更轻松地训练一个私有模型,也可以基于模型的能力快速开发一个智能应用,可以帮助大家来解决行业实践。
大家使用模型的场景越来越多,越来越从浅水区进入到深水区——
2 年间,大家的需求从 " 有一个模型 ",到 " 模型帮忙提升产品指标 ",到今天 " 模型就要带来业务结果 ",从各个方面来看,大家对模型的应用需求和实践变得越来越务实,确实让模型已经开始从智力生产变成生产力。
快速讲几个例子:
我们在汽车上可以非常好地重塑智能驾舱体验;一些非常复杂的垂直领網域,比如公积金相关的复杂的问答,或逻辑推理等很多场景里,或企业内部的 Chatbot 自动化的问数生成 Circle 的能力,用智谱模型都有做不错的效果。
最后跟大家探讨一下大模型时代,企业或者个人该如何去构建自己的科技战略。
我觉得这里面关键来讲四个要素:
选择合适的基座,要构建与战略目标和业务属性相匹配的组织,基于场景和 AI 的能力来重新定义数据资产,并且把这些能力无缝融入到业务当中,从而来形成飞轮。
这里面很多东西需要大家深度思考。
不管基座模型是国内的、国外的,开源的、闭源的,我觉得其实合适的才是最好的,所以这里面涉及每一个环节的每一个问题,都需要大家自己思考。
我们也希望借助四样能力,为每个企业构建自己科技战略新飞轮,随着每一轮的转动能够帮我们沉淀更多的能力,构建更多的壁垒。
谢谢大家!
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>