今天小编分享的科技经验:口述全球大模型这一年,欢迎阅读。
「⼈类的千亿美元 AI bet
开启新摩尔时代。」
《张小珺 Jùn|商业访谈录》推出跨年特辑。我邀请拾象创始人和 CEO 李广密口述全球大模型这一年——当顶级商业领袖、顶尖科学家这些最聪明的腦袋,手握数以千万计的资本狂卷一年,2023 年全球大模型卷出了什么?
广密今年一整年全身心泡在大模型,一大半时间肉身在硅谷,参与相关投资。这集播客信息量非常密集。
他提到,人类这场以大模型为名的千亿美金级豪赌实验,能否将世界带到新的摩尔时代?简单说,模型发展规律会不会极类似于半导体与芯片:未来,模型能力每 1-2 年提升一代,模型训练成本每 18 个月是原来的 1/4、推理成本每 18 个月是原来的 1/10。
以下是我们的聊天 bullets:
(文字是节选,完整版本请移步 podcast)
1、过去一年,大模型的 secret 在硅谷,硅谷大模型的 secret 藏在这三家公司:OpenAI、Anthropic、Google。
2、回顾 2023 定义大模型产业的关键时刻:
to C 流量端:
ChatGPT 发布后,Chat=ChatGPT 占住⽤⼾⼼智,很快突破 100 万⽤⼾、1 亿⽤⼾,现在稳定 2 亿左右 MAU,10 亿美元 ARR(年度经常性收入)。
从模型能⼒看:
3 ⽉发布 GPT-4 是关键分⽔岭,GPT-4 代表 SOTA 最佳模型,谁能再复刻 GPT-4 是关键节点:
- Anthropic 是 7 ⽉发布 Claude-2,几乎复刻 GPT-4;
- Google 是 12 ⽉发布 Gemini 1.0 pro 版本和⼿机 nano 版本,pro 对标 GPT-3.5,对标 GPT-4 的 Ultra 版本下个⽉发布,也可以说 Google 追上了 GPT-4;
也就是说,OpenAI ⼀年前做出 GPT-4,Anthropic 半年前做出 GPT-4,Google 在下个⽉做出 GPT-4,全球其他团队可能还需要 6-12 个⽉。
开源:
开源最佳模型就出⾃ Llama(Meta 推出)和 Mistral(一家欧洲公司)。
多模态:
- Midjourney 从 V1-V6 影像⽣成的效果快速提升;
- Runway/Pika 视频⽣成的效果突然大幅提升,这是开端,可以预期,明年视频⽣成效果能像今年⽂⽣图⼀样迅速提升;
- Google Gemini 发的是多模态模型,⼏个模态数据从头训练,难度很⼤,GPT-4V 还不是。2024 年肯定卷多模态叙事,Google Gemini 打了一个新的开端。
3、硅⾕⼤模型的融资已经是巨头定价和主导了。如,AWS、Google ⼜给 Anthropic 投了 60 亿美元,⻢斯克的 X.AI 也要融⼏⼗亿美元。钱有限,卡有限,第⼆、第三梯队会很困难。
4、关于 Anthropic:它有点像老大哥,里面核心的 7-30 个人做出了 GPT-2、GPT-3,而且是核心 lead。OpenAI 很多人尊重他们。他们的 research 能力我觉得是全球最强,思考的问题比较本质。创始人 Dario Amodei 是极少数信仰 Scaling Law(规模定律),加上他发明了 RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback)。
他们比 OpenAI 更早做出了 Cloud,是类似 ChatGPT 的产品,但没发布。一度他们的模型比 OpenAI 好,去年这个时候 ChatGPT 发布,有了巨强的心智。所以,大家可能只知道 OpenAI,没有太了解 Anthropic。这两个团队的 overlap 和技术路径接近。
OpenAI 正在以 1000 亿美元估值融资,Anthropic 正在以 200 亿 -250 亿美元估值融资。我认为,全球大模型的前两名就是它们,Google 排第三。
5、硅谷 VC(风险投资)几乎都错过了大模型投资,也同样都错过了 SpaceX 和 Tesla 的投资。这是非常重的投入,没有商业模式,风险很大。大模型的投入可能跟 VC 这个产品不 match,应该由另一个金融产品来支持。
在我看来,买单方就是巨头。巨头抢夺什么?入口。
Answer 的形式可能会把互联网渗透率大幅拉升,以前大量长尾问题没被解决,现在可以被解决了。总体说这是新技术刺激新的消费需求。
6、2023 年全球大模型狂卷一年,卷出了什么?
OpenAI ⼀年内做到 10 多亿美元 ARR,明年可能 50-60 亿美元 ARR,或许是历史上增⻓最快的公司;
但整个市场其他⼤模型 native 产品 ARR,全部加起来不到 10 亿美元,不如 OpenAI ⼀家;
DAU 稳定在 200 万以上的大模型 native 产品是 ChatGPT 和 Character.AI;
企业级业务探索⼤模型的 use case 特别成功的不多,微软 copilot 和 Adobe 较激进。
⼤模型还在早期阶段,⼤家别着急。⼤模型就像芯⽚,能⼒和成本还得再卷 2-3 代,上⾯的消费电⼦应⽤才会⼤爆发。明年这时候你会觉得 GPT-4 特别傻,做不了太多事情,但今年已经代表未来⻩⾦ 10 年的开端。
7、复刻 GPT-4 ⽐年初预期难。Google 举全公司之⼒搞了这⼀年也才勉强接近。如果把复现 GPT-4 视作进入决赛圈,今年跑下来⾸轮模型竞赛决出前三名:OpenAI/Anthropic/Gemini,全球范围仅有这三家公司做出了 GPT-4 能⼒的模型。
8、⼀线模型公司今天的核⼼是提升智能 capability,还不是做产品和应⽤的时候。capability 只有⼀个北极星指标:Reasoning 推理能⼒。之后最重要的要素依次是:成本、可靠性、多模态,其他是⼩事。
接下来有很多 research 问题,重点 focus:Reasoning 推理能⼒是长期重要也是最难的、Mulltimodal 多模态、Coding 代码能⼒、数学 Math&Science 如何发现新定律、SyntheticData 合成数据、Reliability 可靠性,包括怎么做 post-training,怎么做 RL,怎么做模型 evaluation,还挺难的。
北极星只有⼀个:Reasoning 推理能⼒。GPT ⻓期就是⼀个推理引擎。
很多模型公司是基于 LLaMa 底座改,⼜把⼀些公开测评的数据做了 SFT,看着跑分⾼,⻓期意义不⼤。
9、⼤模型行业有很强的天才科学家的人才聚集效应。
⼀群天才科学家⽤ "GPU+Data+Power" 帮⼈类做科学发现,天才科学家们⽜⼈相吸——全球⼤概只有 200-300 位天才 researchers 能做出实际⼤的贡献,其中 100 多⼈集中在 OpenAI/Anthropic,20-30 ⼈在 Google,Meta/AWS/Nvidia ⾥⼏乎没有。其他科技巨头自己做也难。
即便在硅⾕,真正接近核⼼秘密的⼈也很少。
GPT-4 短期壁垒在 data secret,尤其是 pre-training 和 post-training 阶段的数据。全球范围也只有 200-300 ⼈知道 GPT-4 data secret,也⼏乎都在前三家模型公司,想搞清楚这个 secret,⾄少得有⼏百上千个重要实验要做完,还有很多 research 问题要做,⽐如 pre-training 数据配⽐,代码⽤多少和怎么⽤,怎么做 Tokenizer,怎么做 RL 等等。是少不了⼩⼏万张卡做充⾜实验的。
10、目前,这个行业还有很多科学问题没有解决。比如,Scaling Law 是不是能继续 work,能走多远?可能这是大模型走下去最关键的问题。如果不能继续 scale up,那可能就停在这一代、下一代。所有人都无法回答,要继续做实验。
OpenAI 的 research lab 文化很强。这个数据有什么用?那个架构有什么用?最后带来什么效果?他们有不知疲倦探索实验的精神,大量的实验,大量的试错。在 OpenAI,researcher 的卡是无限的——大家低估了前期做实验用的卡的数量,如果看 " 人均 research 用卡量 ",可能是非常高的数字。
11、行业发展的核心变量是,大家是不是信仰、能不能做到 Scaling Law。极少数天才科学家信仰 Scaling Law,如 Noam Shazeer ( Character.AI CEO ) 、Dario Amodei ( Anthropic CEO ) 、Ilya Sutskever ( OpenAI 首席科学家 ) ,他们三位对 Scaling Law 贡献最⼤、信仰最强——这很像由极少数科学家推动的 " 登⽉时刻 "。
如果是这样,全球只有极少数⼏家公司能参与 " 登⽉竞赛 "。如果要保持在全球第⼀梯队,⾄少需要准备 100 亿美元的模型训练成本,未来 3-5 年花出去。
12、2024 年是决定⻓期格局的最关键的⼀年,格局形成后很难再改变。明年 Q1 的 Claude-3 和 GPT-4.5、Q2 的 Google Gemini-2.0 陆续推出,仅上半年⼜会把模型能⼒抬升⼀个台阶。
明年是多模态叙事。明年 6 ⽉再推出 GPT-4 能⼒的模型已经不算第⼀梯队,要么就今天直接做下⼀代多模态模型。
2024 年跑完基本上会决定⼤概的格局,窗⼝就在未来 12 个⽉。如果未来 12 个⽉追不上去,后⾯再翻转很难。
13、对全球大模型终局的猜想:模型竞赛很残酷,最后格局很像芯⽚或 SpaceX,理想化的格局可能只会剩⼀家,最领先的模型能⼒⼜强⼜便宜,让后⾯的玩家很难存活,赢家通吃。
但因 " 阵营 " 抗衡微软 OpenAI 之外是⼀个联盟,AWS/Google 的云都和微软竞争,他们肯定要有或扶持,Tesla/Apple ⼜是端侧很强,所以⼜不会赢家通吃——最终全球来说⼤概会 2-3 家(从硅谷辐射南美、东南亚、欧洲市场,可能辐射不到中国)。
中国会更分散,技术辨识度低,今天不知道谁最好,资⾦和⼈才会涌⼊多家。
14、硅谷巨头和它们分裂的大模型阵营:
1)最领先的是微软和 OpenAI。
2)其次是亚马逊和 Google 支持了 Anthropic。(为什么亚马逊和 Google 要一起支持 Anthropic?为什么不是一个巨头支持一个?敌人的对手就是朋友。)
3)第三个又是 Google,它自成一派。
4)还有一个关键的是 Apple 和 Tesla。大模型最相关的三个生意——第一波是芯片(英伟达);第二波是公有云(微软和亚马逊的云),这两个是最大的生意,可能未来模型都要跑在云上,云厂商拿未来每年营收 3-5 个点去投模型公司完全 make sense;第三波是终端,一个是手机的端,一个是车的端。
Apple 和 Tesla 会是一个更关键的阵营,明年 Apple 到底支持谁?
Tesla 有 X.AI,X.AI 现在晚了 6-12 个月,能不能 catch up?很关键。X.AI 的人才质量很高,速度也很快,(追上来)概率大于 50%。
手机又是一个非常重要的端,如果手机内存未来两年能提升 4-5 倍,端侧是能承载非常多的,AI 公司成本结构也会发生很大变化,端离用户更近。手机肯定会继续变强非常多。
Apple 从 Google 挖了很多人,我的感觉是他们追到 GPT-4 很有压力。如果做不出来,就只能投一家或收购一家。(可以选择谁?)Anthropic?因为 OpenAI 被微软独家锁定,不能跟其他人合作,这是最大的 bug。
5)怎么看 Meta?Meta 推出了 LLAMA,对开源世界贡献大,开源有可能未来就等于 Meta。但 LLAMA 团队我不觉得有所谓天才 researcher,人才 quality 比 OpenAI 和 Anthropic 落后。Meta 不一定是大模型公司,它是用大模型做好自身业务的公司,甚至 Google 也是。
最强模型要不要开源出来?这是一个很大的 question。
15、如果都可以复现 GPT-4,更早复现或更晚复现 GPT-4 又怎么样?
1)更早复现 GPT-4,⽣成的数据质量很⾼,有⻜轮。
2)更早达到能吸引⼈才和资⾦。⼤家只会 bet on 前三家,后⾯的 4/5/6 名意义不⼤,融资窗⼝关闭了。
3)当你 12 个⽉后到达 GPT-4,OpenAI 已经经历了多模态的 GPT-4.5,以及更强⼤的 GPT-5(预计 2024 年会出现 GPT-5),会发现 GPT-4 顶多是实习⽣,GPT-5 是你最强的同事⽔平,可能没⼈再⽤ GPT-4 ——模型训练很残酷,价值持续毁灭,OpenAI 训练好下⼀代模型,如果能把成本降下来,前⾯的模型⼤概率也⽤不多了。
4)模型公司壁垒,很像台积电和 SpaceX,有规模效应和先发优势。但⽬前看不到很强的⽹络效应和像搜索和推荐⼀样的数据反馈的⻜轮,⾄于未来靠什么效应维持⻓期壁垒,现在还不好判断。(今天 ChatGPT 很像消费品)
5)有⼀个壁垒很现实——没有 100 亿美元模型训练的储备,是没办法在全球第⼀梯队持续竞争的,这是硬标准,这个壁垒就是资源。另外⼼智上,Chat=ChatGPT,OpenAI=AGI,开发者和⽤⼾⾸选 GPT,强⼊⼝效应。
16、⼤模型往后⾛,最核⼼要关注两条主线,也可以说是 " 新摩尔定律 ":
1)⼀条主线是智能的 Capability。智能⽔平 / 参数量 /Data/GPU 持续 scale 很多年,每 1-2 年模型⽔平提升 1-2 代,陆续跨越临界点解锁新应⽤场景。今天 GPT-4 能做的事情有限,还在很早期,如果 GPT 达到接⼊⼿机 Siri 的⽔平,⼊⼝效应会有很⼤变化。
2)另⼀条被⼤家忽视的是 Cost,成本是隐形最核⼼竞争⼒。模型训练成本过去 18 个⽉已经除以 4-5 倍,推理成本过去 18 个⽉除以 10 倍,成本优化再往下迭代好⼏轮没问题,意味着同样能⼒的模型推理成本还能除以 100。所以,最聪明的模型还最便宜。
这两条主线决定应⽤⼤爆发幅度,native 应⽤今天还没到⼤爆发的时候。
17、成本问题:
模型的训练成本分两部分,⼀部分是实验成本,⼀部分是最终⼤规模训练的成本。⼀年当中⾄少 9 个⽉做实验,试验是⼩尺⼨模型的训练,做⾜实验后留 3 个⽉做⼀次⼤的训练,就像⼀次⼤的⽕箭发射,所以 3/4 成本⾄少在实验,1/4 在最终⼤的训练。
GPT-4 ⼤概是 2.5 万张 A100 训练了 100 天,这个是⼀年半之前,这个纯⼤训练的成本 6000 多万美元。但模型最⼤的成本还不是这⼀次训练,⽽是前期做实验。可能得做⼏百上千个实验,各种数据各种架构都要探索,⾜够的实验量和试错率。假如你有 2.5 万张 A100,你花 9 个⽉做⾜了实验,准备 3 个⽉做⼀次⼤的训练,万⼀⼤的训练失败了还得重来。⼤模型训练的失败率是很⾼的。
另一点,模型参数量在 70B 是个分界点,70B 以内能容忍很多错误,在 70B 及以上每扩⼤⼀倍遇到的难度指数级提升。模型越⼤,越容易出错,训练越⼤参数量模型失败率就越⾼。
还有⼀点容易被⼤家忽视,OpenAI 的成本优化能⼒极强。训练完成 GPT-4 后,他们⼜重新训练了 GPT-3.5,只⽤了 1000-2000 张卡,主要是成本考虑,能把成本降低很多。你看开发者⼤会⼜推出了 GPT-4turbo,也是是重头训练,不是蒸馏,能⼒⽐ GPT-4 要好⼀些,训练成本⾄少降低了 4-5 倍,因为改了架构,inference cost 相⽐ GPT-4 只是也降了 10x。
下⼀代模型,就是多模态模型,各种模态的数据要从头 pre-train 进去。你看视频数据 pre-train 数据格式是⽐⽂本 token 复杂很多,需要⾼出⼀个量级的 GPU 资源,我觉得相⽐ GPT-4 在训练成本上要⾼ 4-5 倍,⼤概训练时候要 2-3 亿美元。这个还是考虑到具备极强优化能⼒。到 2025 年训练⼀代模型,应该 10-30 亿美元不⽌。
现在训练都是 H100 了,H100 ⼤概实际跑下来是 A100 的 1.5-2 倍之间。
18、全球重注 AI,搏的是什么?据估算,全球今年总计向⼤模型领網域下注多少?
OpenAI 今年买卡我瞎猜就有 30 亿美元,还不算⼈才和股票激励,全球范围⾄少 x5 倍,那就是 150 亿美元?
未来⼏年 OpenAI 仅训练模型⾄少还得 200-300 亿美元,Google200-300 亿美元,Anthropic100-200 亿美元,算下来未来⼏年⾄少投⼊ 1000 亿美元纯粹⽤到训练⼤模型。
赌的是什么?⼤模型今天还处在实验科学阶段,就像⼈类对⼤腦的理解也很有限,更像是 " 探索发现 " ⽽⾮ " 发明创造 ",提升模型智能⽔平的路径⽬前只有⼀条:Scaling Law,⽐如每⼀代模型⾄少扩⼤⼀倍的参数 +Data+ 数倍 GPU 等等,是否有其他路径不知道。⾄于 Scaling Law 本⾝,今天也没有理论⽀撑,就是⼤量实验和试错的经验总结,也很难准确判断下⼀代模型能⼒涌现如何、什么时候 Scaling Law 就不奏效了。
⼤模型就是⼈类的千亿美元 AI bet,这个千亿豪赌的投⼊会给⼈类带来什么?⽐如你是否相信这波 AI 能助推未来 15 年 double global GDP? 也有⼈说能让美国 GDPx3?对全球地缘政治格局也有影响。
19、大模型公司要抓紧时间 " 抱大腿 "。
模型的商业模式不清晰。⼤模型公司独⽴ IPO 也很难,被收购的概率是更⾼的。绝⼤多数都是要抱⼤腿的。
OpenAI 有缺点,我感受有两点:1)ChatGPT 并没有像搜索和推荐⼀样具备很强的数据⻜轮效应;2)OpenAI 并不是⼀家以⽤⼾为导向的公司,⽽是以 AGI 和研究为导向的公司。
国内在基础 fundamental 研究投⼊很⼩,培养了⼀⼤批产品⼈才,有利有弊,可能只能在应⽤产品侧突破?未来也有机会拿⾛更⼤胜利果实的。
(国内公司应该)提前抱⼤腿啊,⽐如阿⾥,有阿⾥云和钉钉,业务场景好,很像微软。
20、开源模型和闭源模型 / 大模型和小模型:
开源模型追不上闭源模型,差距会越拉越⼤,这个很像芯⽚和 SpaceX 航空航天,他不是传统意义的軟體开源,模型不可编码,不可解释,⼤家没办法⼀起做贡献。包括 GPU 要在⼀个集群训练效率才更⾼。
但开源模型的价值挺⼤,开源模型的使命不是最智能的模型,⽽是承接先进模型能⼒的溢出,做⺠主化,因为需求是分层的,可能有相当⼤⽐例的需求是通过⼀定能⼒模型覆盖的,这⾥优先考虑的是成本问题。
开源模型在 2024 年内追到 GPT-4 有不少挑战。当然不能低估技术开源和⼈才扩散的⼒量,有可能明年整个⾏业⼤进步。
未来⼤模型覆盖⼩模型是必然,⼤模型是⼩模型⽣成器。OpenAI 顺⼿ train ⼩尺⼨模型只是时间和优先级问题,所以像之前 Mistral 融资我们也挺难下决定。下⼀个开源模型重要⽅向是端侧⼩模型,可以帮助模型公司分摊部分云端的算⼒成本。
⻓期格局,有两种可能,⼀个是⼤模型公司向下覆盖,你可以理解 SpaceX 往下做了波⾳空客的市场,还做了 Tesla 私家⻋交通出⾏市场。另外⼀直可能就是分层的。
21、硅谷一部分 VC 也很 suffer。
硅谷 VC 未来最⼤竞争压⼒来⾃微软和 OpenAI。他们之前投 SaaS ⼯具很舒服,后⾯微软和 OpenAI ⼤概率会把传统 SaaS 形态都吃掉。
我也在想,传统 VC 这个⾦融产品在 AI 领網域是不是不太 work,你看绝⼤多数 VC 都错过了⼤模型投资,同样也都错过了 SpaceX/Tesla,都是重投⼊,看不清商业模式,失败⻛险还很⾼。这种就类似科学探索和发现的投⼊,有点像 " 曼哈顿计划 ",适合另外的⾦融产品,微软像是美国的国央企,他们来投⼊ make sense。
硅谷 VC 也不知道未来⾛向,都是模糊的,真正⼿上拿到船票的也不多。情绪相对乐观。
如果从 VC 评估标准看,硅⾕好项⽬还是很多,但估值很⾼,要承认短期是 overhype 了,我们过去半年也没新的出⼿。
我最欣赏的是 Nat Friedman,他是 GitHub 前 CEO。他最早期就投了 Character.AI 和 perplexity,在这波 AI 里标的质量高,position 比很多传统硅谷 VC 要好。他是个人的钱投资。
22、关于 OpenAI 的一点小八卦:
如果我是 OpenAI 的员工,我肯定也跟着 Sam Altaman ( OpenAI CEO ) ,如果 Sam 不在了,努⼒⼏年的股票都要⻩了。微软这边合作全都是 Sam 主导,微软 CTO Kevin Scot 也是赌上职业⽣涯相信 Sam。为什么 700 多良将都跟着 Sam?是利益问题。
⾄于 Sam 为什么被开掉,⾄今还没有正式解释,阴谋论⼀点说,肯定做了⾮常过激的事情,但⼜不能对外说。而且这件事可能跟微软有关。
起码 OpenAI 没有人员流失,AGI 只耽误了四五天。
我很好奇 Ilya Sutskever ( OpenAI 首席科学家 ) 后面会怎么样,他现在好像不怎么在办公室出现了。我们肯定希望 Ilya 留下来。
有意思的是,Sam Altaman 好像和乔布斯、马斯克不是一类人。乔布斯、马斯克在硅谷没有朋友。Sam 在硅谷所有人都是朋友。你看 Sam 去国会问询的时候,国会的议员都是朋友。
我感觉 Sam 很像政客。如果 AGI 实现了,他还有他那个发的 Worldcoin 的币,你说 Sam 会是一个新形态的总统吗?