今天小编分享的互联网经验:张宏江消除“Scaling Law放缓”恐惧,直言未来将迎来“自主智能”的世界,欢迎阅读。
北京智源人工智能研究院创始理事长,美国国家工程院外籍院士 张宏江
12 月 6 日 -7 日,2024 T-EDGE 创新大会暨钛媒体财经年会在北京市大兴区举办,以 "ALL-in on Globalization ,ALL-in on AI" 为主题,汇聚全球科技和商业领导者,共同探讨人工智能对全球各行业的巨大影响,以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领網域的顶级盛会,T-EDGE 一直代表了钛媒体在科技与经济前瞻性,以及推动国际创新交流上的高质量追求。
12 月 7 日,T-EDGE 全球 AI 论坛:All-in On AI 会议上,北京智源人工智能研究院创始理事长,美国国家工程院外籍院士 张宏江,以 "ChatGPT 发布 24 个月后的 6 点观察 " 为主题,围绕 AI 大模型发展与应用展开深度演讲。
张宏江表示,随着 ChatGPT 风靡全球,世界迎来新的 AI 革命,模型参数规模形成指数级 "Scaling Law" 发展。在发布 24 个月后的今天,张宏江认为大模型领網域有六个比较重要的技术趋势:Scaling Law 没有全面放缓,AI 将创造新的作業系統、新平台、新生态,大模型推动存量和新增应用,多模态大模型是 AGI 的终极模型,多模态大模型赋能机器人,以及大模型的未来将迎来 " 自主智能 " 的世界。
张宏江指出,对于最近 "Scaling Law 放缓 "、大模型面临挑战等传闻和说法,他认为并不用担心 Scaling Law 放缓。" 即使在 pre-training(预训练)有放缓趋势,但 GPT-o1 的发布,让我们看到另外一个天地,就是相对于预训练模型的‘快思考’模式,推理模型 o1 可以给更多的思考时间,Scaling Law 的推理性能已出现‘拐点’,有一个指数级增长。"
在张宏江看来,未来,多模态大模型将是 AGI 的终极模型形态,形成从语音、图片、视频,到端到端统一的多模态大模型十分重要。同时,AI 应用层面将从 AI Infra(基础设施)、AI PC、AI 手机,到 AI 軟體、自动驾驶、(人形智能)机器人、AI for Science(科学智能)等领網域都将迎来新的机遇。
" 过去一年,美国有很多 ToB 应用爆发,但很遗憾,中国与美国在这点上有很大的差距,中国 To B 市场非常小,或者 To B 軟體公司收入规模远不如美国,所以 AI 大模型重写軟體服务依然需要时间进行落地。" 张宏江称。
张宏江强调,未来每个人都从 AI 助理走向 Agent,最后每个人都拥有一个 AutoPilot,大模型将迎来一个自主智能的世界。随着大模型发展,统一的多模态大模型有望实现 " 突破 ",这些新的技术变革,将让 AGI 奇点即将到来。
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)
以下是张宏江演讲全文,经整理:
各位钛媒体的嘉宾,大家下午好!
今天,我想用下面的时间,跟大家分享一下我对于大模型的发展与应用、过去 ChatGPT 发布的 24 个月的几点观察,我这边总结出 6 点:
1、Scaling Law(规模效应)还有效吗?
近日,OpenAI 发布了 o1 模型,其在推理方面很大程度上超过了人的平均 IQ(通常智商)。这也是我们第一次看到在推理上,过去这些模型,第一次超过了人类的 IQ 的平均值。
那么,先说我的第一个观察,因为最近大家这个聊得比较多的,就是说 Scaling Law 是不是发展 " 到头 " 了?
在此之前,我们先回答,为什么 Scaling Law 如此重要?
当 ChatGPT 这个几千亿参数的模型发布之时,自然语言处理的性能形成了指数级提高,就是我们所说的 Scaling Law,它是大模型的规模定律。Scaling Law 认为,模型的参数增大,到一定程度的时候,你才真正能看到模型的精度,有一个突飞猛进的增长,也就是出现 " 涌现 "。
如果我们从图上来看的话,这事实上是我们看到一个明确的拐点,从一开始现象的非常缓慢的增加,它的精度,突然到了一个拐点,当我们的规模到了一定程度以后,就出现一个拐点冲儿,它的性能有足够性的往上讲,那么在几个方面都出现了这样的拐点,那么这个拐点我们把它叫做 " 涌现 "。所以,我们过去的十几年来,看到模型越做越大,继而看到了这个 " 规模效应 "。
最近这种说法受到了一些挑战。
首先,我们看到,现在很多模型训练到一定规模以后,好像没有办法的往前走,主要有几个方面:一方面是说,数据是不是不够;另一方面是说,算力是不是还够。
其次,更重要的是,我好像很长时间没有看到大模型性能大的改善。比如,人们一直没有看到 GPT-5 的发布,大家是不是认为,这个模型到了某个规模的话,数据可能不够了训练不出来了。这些问题肯定是值得大家思考的。
然而,我想要说的是,其实我们不用担心 Scaling Law 放缓,因为其即使在 pre-training(预训练)有放缓趋势,但 GPT-o1 的发布,让我们看到另外一个天地,就是相对于预训练 " 快思考模式 ",推理模型 o1 可以给更多的思考时间,所以,我们看到 Scaling Law 的推理性能出现 " 拐点 ",有一个指数级增长。
01 模型的新方法:引入 " 思考时间 "(thinking time)的概念,允许模型在给定的计算预算内进行更多的计算迭代。推理计算可能随 " 思考时间 " 呈指数级增长,而不是线性增长。
最后,在推理模型领網域,Scaling Law 效应一直在持续而非放缓,这是我对此非常有信心的思考。
2、新作業系統、新平台、新生态
如果大家去年听过我的演讲的话,一定会对这张 PPT 不会陌生。
首先,大模型实际上是一个新的作業系統,从而会建立一个新的平台,那么,我们同样也需要建立一个新的生态。
我们看一下所谓的 AI 作業系統是什么,无非就是能够获取人的命令,能够执行人的命令,能够调用数据来进行计算。今天,大模型通过自然语言的互動,通过多模态的互動,就能够理解人们的需求,能够开始执行计算,所以我们说,大模型是新一代的作業系統。
其次,AI 大模型拥有如此强大的技术能力,它将会重写所有的軟體。
最后,既然是一个新的作業系統、一个新的平台,那一定会产生一个新的生态。如果我们看一下,如果把模型作为最核心的一块底层的话,实际上我们可以看到,云架构、数据中心底层是芯片。
这就是为什么我们看到,英伟达过去两年快速成长,云厂商和数据中心厂商过去两年也快速成长,这都是由于大模型训练、推理所拉动的。那同样,为了训练模型,我们在数据处理、数据存储、数据互動建立一个新生态,AI infra 也需要快速发展,才能让大模型应用落地。所以,这是一个非常丰富的生态,比传统的軟體生态要丰富的多,它能带来的创新、影响、技术变革时间,也会相当长。
作为生态的推动者,大模型不止要推动硬體、芯片厂商,而且还要推动数据中心相关的硬體厂商更进一步,带动能源的需求,带动能源的发展。所以,我相信,AI 大模型生态链会比之前 PC、手机的生态链要更加强大。
另外一点,基础模型训练成本如此之高,而端侧、推理模型需求才刚刚开始,AI PC、AI Phone 手机会慢慢发展。
未来,我相信大模型在数据中心、推理混合模式等方面,以及端侧和云端的结合,会带动产业链快速发展。
3、大模型推动存量和新增应用
第三个观察,我要分享,大模型将同时推动存量和新增应用。
过去两年,我们好像没有看到很多 AI " 杀手级 " 应用出来,所以大家担心这个 " 浪潮 " 是不是将会失去。但其实,在技术快速发展的时候一定有很多机会,而在技术平缓、成熟的时候,也同样存在一定的机会,AI 应用的需求和数据中心的昂贵成本将推动边缘 AI 快速发展。
我认为大模型应用可能分为四个阶段:
1)第一波增长的 AI Infra(基础设施)、芯片和数据中心、能源等;
2)第二部分是 PC、智能手机等硬體应用。
3)大规模 AI 应用。其实在美国,硬體端侧设备还没有起来之前,过去一年有很多 To B 应用爆发性成长,但很遗憾,中国与美国有很大的差距,中国 To B 軟體市场非常小,或者说 To B 軟體公司规模远不不如美国,所以 AI 重写大模型依然需要时间落地。
4)大模型在物理层面的爆发,比如自动驾驶、(人形智能)机器人、AI for Science(科学智能)都会越来越广泛、成熟发展。
所以,我们有理由相信,无论是自动编程,还是智能互動、客服、内容生成,大模型所推动的 AI 应用发展速度一定会超过早期的互联网、移动互联网时期。
4、多模态大模型是 AGI 的终极模型
我的第四点观察是,多模态生成大模型是 AGI(通用人工智能)的终极模型。
实际上,我们人与人交流是通过语言模型,但人与世界之间的互动,还需要视觉、语音等其他不同模型的形态。因此,统一的多模态大模型才能够解决所有理解的问题。
那么,我们过去一年就会看到多模态生成模型的快速发展,文生图、文生视频、图生视频等等,最有代表性的是 OpenAI Sora,具有产生非常漂亮、内容逼真视频的能力,以及理解、描述和,模拟现实世界能力,展现出世界模型的雏形。世界模型是一个重要方向,是我们达到通用人工智能的重要一环。
近期,李飞飞创立的公司 World Labs 日前分享了一项成果,也非常震撼:只需单张影像即可生成三维世界,团队研发的 AI 系统可以允许用户进入任何影像,并以三维方式进行探索其中的世界。这是非常非常重要的进步。
通向通用人工智能(AGI),我们希望把所有理解现实世界的能力、互動能力、和生成能力,建立在一个模型里面,这样才能真正接近我们人类思考的方式。要达到这个目标,形成端到端统一的多模态大模型十分重要。
比如,GPT-4o 的发布,给人们呈现了所谓的 "Her" Moment,即电影 "Here" 中的主角—— AI 私人助理,逐渐有情感,开始对人有依赖,能给有情感的与人互動,那么,GPT-4o 的演示恰恰表现出这种能力雏形,做到了生成、推理、语音、视觉等技术统一到一个模型当中的 " 第一步 "。智源研究院最近发布的 EMU3 大模型把统一的多模态大模型发展向前推进了非常重要的一步。
5、多模态大模型赋能机器人
为什么我们认为,多模态的发展如此重要?其实有一个点在于,有了多模态大模型的突破,我们才能够真正的赋能于机器人,才能真正开发出通用、能自我规划、自主的机器人。
实际上,传统机器人的模型完全是由人来设计的,把复杂任务分解变成 " 简单任务 ",然后对于每个简单任务进行人工设计,由规则来驱动运动的规划,这是非常原始的模型。那么,有了语言大模型和世界大模型之后,我们能够把复杂的任务通过多模态大模型抽成 " 简单任务 ",能够听懂人的这种命令,然后又能够进一步通过视觉模型分解成机器的动作,从而完成复杂 - 简单 - 机器动作的过程。
未来,多模态大模型驱动的 " 具身智能 " 模型,能给让复杂的任务一步到位,分解成机器的动作,这是我们的目标。
正是因为多模态大模型的迅速发展,过去一年迎来了通用、人形机器人 " 热潮 "。但有一点我们要特别注意,中国在机器人的 " 本体 " 走在世界前列,但是需要有多模态大模型、具身智能的能力,只有具备这些能力后才能看到通用机器人的 " 起飞 "(迅速发展)。
6、大模型的未来:自主智能的世界
最后一点我的观察就是,大模型的未来会带来一个自主智能的世界。
我们过去几十年看到 IT 产业不断进步,但 PC、互联网真正实现的是 " 信息系统 "。而我们今天真正进入的则是 AI 时代、模型时代。
那么未来,随着 AI 大模型的发展驱动,一定会让我们进入 " 自主智能 " 的时代。无论是軟體,还是机器人本体,都能够有自主决策和行为能力,从而真正进入所谓自主智能的世界。
无论是现有应用,还是新的应用层面,我们都可以看到大模型智能体(AI Agent)的广泛赋能,而 Agent 的这种方式广泛应用需要智力、AI 能力的迅速提升。那么,随着 AI 这一轮浪潮不断发展,未来所有应用都会像 Copilot 一样无处不在,而且会越来越智能,从而将 Copilot 变成 "AutoPilot"。
未来,我们每个人都将有一个 Agent。从助理、代理,再到 AutoPilot,意味着未来大模型会给整个产品设计、社会组织、就业变化、业务成长等方面带来巨大机遇,会迎来一个自主智能的世界。
而这意味着,我们需要增加更多的 GPU,训练更大模型、更强模型,以及更多的数据,这些都会成为企业的核心资产,大模型的未来对于我们生活和工作、企业组织、人员就业带来非常深刻的变化。
7、结语
讲了六点观察,最后是我的结束语:通用人工智能(AGI)奇点是不是已经来临?
如果你要问马斯克(Elon Musk),他说已经到了;如果问美国 AI 大模型独角兽 Anthropic CEO Dario Amodei,他说 2026 年;如果你要问谷歌 DeepMind CEO Demis Hassabis,他说可能还有十年;如果问辛顿(Geoffrey Hinton),他说还有 5-20 年。
所以这意味着,技术发展比人们学习 AI 的速度要快,人类进化的速度是一条直线,但 AI 技术发展的速度是一条指数级增长曲线,始终没有与人类学习能力的曲线相交叉。那么,一旦它们之间出现 " 交叉 ",那就是奇点的来临。
今天,我们有理由相信,随着大模型学习能力越来越强,Scaling Law 发展速度越来越快,AI 原生应用迅速落地和成长,统一的多模态大模型实现 " 突破 ",这些技术变革将让奇点很快到来,也就是所谓 " 自主智能 " 的时代很快到来。
好,谢谢大家!
更多嘉宾精彩分享,点击进入2024T-EDGE 创新大会官网查看。