今天小编分享的汽车经验:大模型路径之争:理想与现实,欢迎阅读。
文 | 异观财经,作者 | 炫夜白雪
英伟达创始人黄仁勋,为正在举办的 GTC 大会甩出了 " 王炸 " ——新一代芯片,Blackwell GPU,包含 2080 亿个晶体管,支持多达 10 万亿个参数的 AI 模型。
在一连串让人看得目眩神迷的产品中,我们简单地总结:这一次,英伟达做了什么?
这一次,英伟达做了什么?
第一,极大地提升了算力,并降低了能耗和成本。
" 我们需要另一种方式来进行计算,这样我们才能够继续扩展,这样我们才能够继续降低计算成本,这样我们才能够继续进行越来越多的计算。"
" 我们需要更大的 GPU,如果不能更大,就把更多 GPU 组合在一起,变成更大的虚拟 GPU。"
以上,是黄仁勋在现场演讲中的话。他再次回忆起,2016 年赠送给 OpenAI 的 DGX-1,那也是史上第一次 8 块 GPU 连在一起组成一台超级计算机。
当时,DGX1 算力仅 0.17 Peataflop(1 Petaflop 等于每秒钟进行 1 千万亿次的数学运算),而今天英伟达推出的 DGX Grace-Blackwell GB200 已经超过 1 Exaflop(百亿亿次)的算力。
8 年时间,AI 算力增长 1000 倍。
相比上一代 H100 Tensor 核心的 GPU,最新的 Blackwell GB200 GPU 可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,而成本和能耗则降低 25 倍。
第二,算力的提升,意味着万亿级参数模型变得更为现实。
在技术支持下,一个 GB200 NVL72 最高支持 27 万亿参数的模型。而据泄露数据,GPT-4 也不过只有 1.7 万亿参数。
万亿参数模型有许多优势,比如进行自然语言处理任务,如翻译、问答、抽象和流畅性;掌握更长期的背景和对话能力;结合语言、视觉和语音的多模态应用;进行创意应用程式,例如讲故事、诗歌生成和代码生成;进行科学应用,例如蛋白质折叠预测和药物发现;实现个性化,能够形成一致的个性并记住用户上下文。
第三,英伟达向软硬一体化的平台发展更进一步。
英伟达推出了全新的 AI 推理伺服器 NIM(NVIDIA INFERENCE MICROSERVICE),让所有人都可以通过这一形式自定义 AI 模型和应用。
以英伟达 NIM 和 CUDA 作为中间枢纽,连接了百万开发者与上亿 GPU 芯片。" 成熟的企业平台坐拥一座数据金矿,这些数据可以转化为生成性 AI 副驾驶。" 黄仁勋表示," 这些容器化的 AI 微服务是我们与合作伙伴生态系统共同创造的,它们是各行各业企业成为 AI 公司的构建模块。"
在医疗场景上,英伟达此次推出了基于医疗场景的 25 个新的微服务, 帮助全球的医疗保健公司可以基于生成式 AI 进行效率提升。英伟达举了一个例子,与在 CPU 上运行相比,英伟达的微服务能够将基因组分析工作流程中的变异调用速度提高了 50 倍以上。目前,全球有接近 50 家应用程式提供商正在使用英伟达的医疗微服务。对于医疗行业公司来说,他们可以基于这些微服务,筛选数万亿种药物化合物,收集更多的患者数据以帮助早期疾病检测,或者实施更智能的数字助理等等。
接下来,中国大模型路往何方?
过去一年,英伟达的股价从 200 多美元,上涨至现在的近 900 美元,市值超过 2.2 万亿美元。这一家公司的产品迭代速度,对人工智能的发展产生了历史级的影响。影响力也转化为资本市场的认可和回报。
毫无疑问,这是一个赢家通吃的行业。根据富国银行统计,英伟达目前在数据中心 AI 市场拥有 98% 的市场份额,而 AMD 仅有 1.2% 的市场份额,英特尔则只有不到 1%。
英伟达的鲜花着锦,烈火烹油,也让我们更为深入地思考中国大模型的现状和未来。2023 年上半年,因为 ChatGPT 的横空出世,中国大厂与创业公司纷纷投身大模型,一时引发 " 百模大战 "。这又过了大半年时间,中国大模型相关的投资人和从业者,又有了市场路线与技术路线之争:
一边是以月之暗面创始人杨植麟为代表的技术路线,他们大多技术出身,思维偏硅谷,对技术有信仰,信仰 AGI(人工通用智能)、信仰 scaling law(规模定律),更推崇前辈 OpenAI 的路径,认为随着模型能力跃升、模型成本降低,会解锁丰富的应用。
杨植麟在接受采访的时候说:
"AI 不是我在接下来一两年找到什么 PMF(Product/Market Fit,产品 / 市场匹配),而是接下来十到二十年如何改变世界——这是两种不同思维。
我们是坚定的长期主义者。当你实现 AGI 或更强智能,今天的一切会被改写。PMF 固然重要,但如果着急找 PMF,你很可能又被降维打击。降维打击发生过太多次。以前很多人做客服、对话系统,做 slot filling(槽填充),有些规模不错的公司。但是,全是降维打击了,很难受。
它不是说不成立。假设你今天找到一个场景,用现在的技术能力,且从 0 到 1 增量价值巨大,从 1 到 n 空间又没那么大,这种场景 OK。Midjourney 就是,或者做文案生成,相对简单一点的任务,从 0 到 1 效果又很明显。这种是只关注应用的机会。但是,最大机会不在这。你的目的假设是商业化,你不可能脱离 AGI 去思考。我现在只做应用,那好,可能过一年你就被碾压了。"
另一边则是以周鸿祎、朱啸虎为代表的市场路线,他们更加本土化,信奉尖端的科技必须经过开源、共创才能实现最大化的边际效益,认为需将充足的 AI 能力投入可以快速变现的商业场景中进化,同时用国内市场特有的海量数据和应用场景构筑壁垒。
金沙江创投董事总经理朱啸虎接受采访的时候说:
" 说实话在 AIGC 这波,中美差距还是非常大。美国是在底层大模型,投入越来越大,像 OpenAI 说十万张 GPU 卡连在一起。在中国是不可能的。
美国你看 AI 的应用创新,说实话只有两条路,一条要么非常、非常薄,因为底层大模型太强大了,所以上面叫套壳应用。另一层是看上去很伟大,但肯定走不通的,像 Pika。这种目标很伟大,AIGC 生成视频、电影。但这条路可能在几年之内都看不到走通的可能性。
中国反而相反,中国在 " 当中 " 的多一点——底层大模型不够强大,我在上面加的东西可以比较多。我在上面做增值服务,为客户马上能变现。这种在中国有机会。美国这种几乎没有,因为底层大模型太强大了,上面创业公司能做的很少。中国套壳,现在肯定没人看的。在中国也套不了壳,因为大模型本身功能也就那样,必须在上面有 value add。
(中国)整出 200 多个大模型有啥意义呢?没啥意义。但在应用层有很多创新。中国在数据和应用场景上是远远超过美国的。"
持有相似观点的有李彦宏、周鸿祎、王小川等一干正在大模型之路上奋进的大佬们。
李彦宏说:" 百模大战是对社会资源很大的浪费。不应该去卷大模型,而应该去卷应用,只有应用才真正直接创造价值。做出上亿用户使用的应用时,大模型的真正价值才得到体现。
大模型这么火,它到底能产生多少实际的价值,过去一年我最主要就在思考这个问题,ChatGPT 大火的时候,别人问我怎么看,我当时就说,现在这个火还有点早,真正什么时候我们能够做出上亿用户都在使用的应用的时候,才是它真正的价值得到了体现。"
周鸿祎还指出:" 选模型已经不是问题,而且都免费。去年大家都飙着 OpenAI,都想搞通用大模型,想垄断全世界。但 2024 年的目标变了,是大模型如何找到自己的应用场景,而最大的应用场景就是跟各行各业结合,因为和各行各业结合才能带来工业革命。"
他还说:" 面向传统的 ToB、ToG 的市场,是大机会。做企业级大模型,在企业内部做私有化部署,是中国大部分企业的需要。要选择跟企业业务深度结合的场景,也就避开了跟通用大模型的直接竞争。2024 年是人工大模型的场景之年,如果找不到场景,光是在做大模型,有点像拿着锤子找钉子,如果找不到钉子,这个锤子是没有用的。"
王小川认为,大模型开发需要强大的算力、财力和智力支持,所以 " 未来的两年时间内,更多的是加入一家(大模型)公司,能够获得平台级的支持,这样做超级应用成功的概率要大很多。"
他认为,新进入企服行业的创业者还有两个机会:一是借着大玩家转向困难的机会,快速反应推出它们没做到的新产品形态;二是直接交付最终服务,比如呼叫中心就不要让人家用你的軟體,而是直接让话务员失業。
二者对技术判断的一个根本分歧是,开源模型会不会有一天,缩小甚至拉平与闭源模型的差距?技术路线的观点是,绝对不会,差距只会更大。市场路线的观点是,一定会,那意味着你今天做闭源只会处境尴尬——世界观的迥异,让双方对自我的判断都深信不疑。
朱啸虎就直接发问:"GPT-4 你要不要投入做科研?你做 GPT-4 科研至少砸四五千万美金。关键是万一你砸了四五千万美金做出来,别人开源了呢?你不是全白砸了?这个是很扎心的问题。现在中国大部分公司,有几个敢真的砸钱去研发 GPT-4 的?"
以终为始,我们的判断是什么?
从投资角度来看,预判大模型的终局是什么样的,才能有助于我们去思考市面上的哪些公司值得看好。从电商平台大战一路看过来(有谁还记得想做平台最后一地鸡毛的凡客吗?),在科技赛道,绝大多数时候轰轰烈烈的 " 百云大战 "" 千团大战 ",99% 玩家是黯然退出,只剩下赢家通吃。
纵观这些年的赢家通吃赛道,基本可以用两个词概括:新平台、新基建。如何理解呢?通常这类玩家,为一个产业提供了新的平台,通过技术变革的方式建立起产业新的基础设施——类似高速公路、水电气等基建,让原有的产业链参与者能够加入到新平台来,享有技术变革的红利。
什么是大模型?第一,顾名思义是规模大,网络参数至少要达到百亿规模(现在英伟达甚至解锁了万亿规模的算力);第二,通用性,是指不限于专门问题或领網域;第三,涌现性,即产生预料之外的新能力。大模型的大规模和通用性,决定了其将是具备普适性的 " 新平台、新基建 ",其从一个行业迁移到另一个行业的应用场景时,成本低,易迁移。
可以断言,放在大模型这一赛道,依然将是赢家通吃的终局。
那么,现在 " 百模大战 " 的玩家里,谁将笑到最后?大体来分,目前大模型的玩家有两类,一类是大厂拉起的团队,另一类是创业公司。这里可以有把握地说,在这个百模大战中,大厂优先。
我们可以参考另一个行业云计算的发展走向。当年云计算兴起的时候,国内也出来很多创业公司玩家,但最终市场份额集中于大公司。根据 IDC 发布的 2022 年全球云计算 IaaS 市场追踪数据来看,市场份额 TOP10 玩家都是中美的大公司,包括美国的亚马逊、谷歌、微软、IBM,中国的阿里、华为、腾讯、百度等。
后面我们会进一步分析。不过这里先看看制约大模型的三个要素:数据、算力和算法。
先说数据。
数据是大模型发展的压舱石,除了互联网、物联网数据之外,老百姓生活生产中产生的数据都是未来大模型要提升智能水平的必要数据源。目前,数据壁垒是真实存在的问题。高质量的中文语料数据对于创业公司来说是个很大的挑战,数据的积累需要时间和经验。对于那些常年累月通过搜索等多个互联网、物联网应用积累起数据的大厂来说,可以说一开始就领先了至少几个身位。
给 AI 喂下什么质量的数据,才能训练和迭代出什么水平的 AI。
目前国内 " 百模大战 " 中诸多大模型开发者,是基于 Meta 开源的 LLaMA 等一系列开源社区的基础代码,来进行二次开发的。其能力差异主要由语料库差异和少量微调等结合而成。
再说算力。
通用大模型需要 24 × 7 连续训练,调度多个算力中心、协调资源,以云的方式提供智能服务,这对算力有很大的需求。随着参与大模型训练的企业越来越多,用来训练大模型的数据量越来越大,对推理的要求也越来越高,大模型的应用会越来越广。这就意味着,大模型公司必须拥有稳定的、靠谱的、能保障安全运转的算力。这显然利于在云计算深耕布局的大厂。
当年云计算创业公司,面临大厂的夹击,窄缝求生,专攻一个垂直行业的云计算市场——比如游戏行业。但是,游戏行业遭遇监管重创的时候,云计算需求也大大降低,这导致该云计算创业公司的业务不稳定,反过来又影响使用该家公司服务的客户。
这也是为什么大模型和云计算同样是赢家通吃的原因之一——大玩家能够提供更为稳定、可靠的服务,成为客户的优先选择。
最后说算法。
大模型最底层的竞争力来自算法。算法需要庞大的高级人才和长期积累。
为什么现在看起来有很多的公司做大模型呢 ? 因为现在有开源的大模型和很多公开的论文可供参考,所以起步上会简单很多。但要做好大模型的门槛还是高的,像现在的 GPT-4 没有公开后续技术细节,国内很多大模型就很难继续发展。
越多的应用场景,能形成越多的反馈,从而对模型进行更好的调整;而模型也因此产生更多的经济价值,可获得更多的资金投入,反哺自身。
需要指出的是,大模型高昂的训练成本和研发投入,让众多入局者望而生畏。有企业家断言, 每年 5000 万到 1 亿美元的花费,只是千亿级大模型训练的入场券。某个创业者高调宣布投资 5000 万美元入局大模型时,就有分析师发朋友圈直言说:"5000 万美元够干什么的?大模型训练一次就花 500 万美元,训练 10 次?" 四个月之后,该创业公司被收购,出局。
当年共享单车也是百团大战,打得头破血流,结果笑到最后的是美团。无他,资金充足。在以年计、甚至以十年计的竞争中,这种重资本重研发的赛道,毫无疑问是利于大公司的。
这是一场漫长的、看不到终点的长跑,竞争的韧性将左右最后的结果。
以赢家通吃的终局为前提下,我们判断是,在几家通用大模型的基础上,将有多个领網域的垂直大模型。龙头企业研发通用 + 中小企业研发应用,这种模式成为破局关键。
在 B 端领網域,营销、客服、数据分析、财务、人力等各个业务领網域的企业,很多都在全速接入大模型。从目前的进步来看,虽然还存在各种工程上的问题,但效果是实实在在的,的确有很大的潜力变革原来的整个产品和业务体系。
大型支付公司 Klarna 披露,它的 AI 客服现在已经能胜任 700 名员工的工作。这个 AI 客服由 OpenAI 提供支持,处理客户的各种咨询,支持多语言,能够直接处理退款和退货的请求。Klarna 表示,在短短一个月内,AI 助手就完成了 700 名全职客服的工作。
到目前为止,它已经进行了 230 万次对话,占公司所有客户服务对话的三分之二。它的客户满意度得分与人工客服「不相上下」。而且,它在解决客户请求方面更准确、更快速。解决请求的平均时间从 11 分钟降至 2 分钟。
"场景优先,数据为王",则将是提供服务的大模型应用公司的核心竞争力。