李开复：大模型即将“洗牌”，估计活下来的不多

今天小编分享的互联网经验：李开复：大模型即将“洗牌”，估计活下来的不多，欢迎阅读。

" 百模大战 " 正酣，谁能真正脱颖而出？

12 月 28 日消息，创新工场董事长兼 CEO、零一万物 CEO 李开复在接受媒体采访时表示，中国人工智能领網域的竞争仍然处在预选赛阶段。在经历行业大 " 洗牌 " 过后，最终只有几个大赢家，还有部分企业可能会体面地退出，但大多数企业要么半途而废，要么转向更实际的目标，比如为特定行业构建应用和解决方案。

李开复表示，中国的大模型公司正处于技术验证阶段，它们需要证明自己有能力开发出高质量的模型。而那些通过考验的公司将迈向下一阶段，即如何增加收入并实现盈利。

在谈及中国 AI 公司前景时，李开复称，他更倾向于在全球范围内展开竞争，未来有机会为不同的国家构建不同的特殊模型。

今年夏天，李开复闯进了大模型的赛道，创立 AI 公司零一万物，并在上月发布了预训练大模型 Yi-34B。与此同时，零一万物已完成新一轮融资，估值超过 10 亿美元，在成立不到 8 个月的时间即跻身独角兽行列。

Yi-34B 在关键指标上胜过市场上已有的领先开源模型，在 Hugging Face 英文开源社区平台和 C-Eval 中文评测的榜单上曾爬升至第一位。目前，零一万物正在开发一种新的专有模型，参数超过 1000 亿。

李开复在采访中还谈到芯片库存问题，他称现有的库存足够零一万物使用 18 个月。

以下为李开复接受科技媒体《The Information》采访全文：

问：中国目前有数十家公司都在开发大语言模型，接下来会发生什么？

李开复：我认为中国以前也曾出现过很多类似现象，例如团购风潮、共享单车应用的兴起，以及在深度科技领網域，比如计算机视觉和语音识别技术。当计算机视觉证明取得了突破性进展时，无数中国企业争先恐后地涌入，试图在这个行业分一杯羹。然而，大多数企业最终并未能生存下来。中国是一个竞争非常激烈的市场，甚至可能比美国还要激烈。

目前，中国人工智能领網域的竞争仍然处在预选赛阶段。首先面临的考验是：在百家争鸣的竞争中，哪家公司能开发出真正有价值的高质量模型？只有模型表现出色，才有可能在实际应用中崭露头角。否则，它会更像是一个玩具，而不能解决实际问题。

在预选赛中通过技术考验的企业将进入下一阶段：商业价值阶段。你的商业模式是什么？如何盈利？很快，投资者将根据这些公司的损益表来评估其价值，并提出与云服务提供商、企业軟體公司和消费者应用程式相同的问题。如果企业无法回答这些问题，那么它们的增长将面临终结。

在美国，OpenAI 已经证明它拥有世界领先的技术，并且能够创造收入。由于它创造了足够的价值，人们愿意在其上构建应用程式并为之付费。

而在中国，我们最终只有几个大赢家，还有部分企业可能会体面地退出，但大多数企业要么半途而废，要么转向更实际的目标，比如为特定行业构建应用和解决方案，而不是单纯地追求大模型的研发。随着时间的推移，开发大模型的成本将越来越高。

问：中国 AI 初创公司及其投资者表示，中国将为生成式 AI 模型和应用开发自己的生态系统。你对此有何看法？

李开复：我们都不想看到平行宇宙的出现。我们更倾向于在全球范围内展开竞争，让真正出色的公司脱颖而出，这样效率才更高。但是，我们无法完全掌控自己的命运。

如果我们想进入美国市场，虽然没有规定说我们不能进入，但我不认为我们会得到很多业务。当前美国市场对中国軟體存在一种不公平的偏见，这是我们不得不面对的现实。

我们对中国以外的商机持开放态度，但我们完全理解，有些事情是不可能的。比如，将我们的专有模型卖给美国公司是不可能的。他们不会购买，我们也不会做无用功。

中国显然蕴藏着着巨大的机遇，但我不会将世界其他地区排除在中国公司可能进入的地区之外。一般来说，硅谷的做法是一刀切的，这或多或少对 Facebook 和谷歌等公司的崛起中起到关键作用，并帮助美国取得了市场主导地位。但这次有所不同，因为大语言模型是在数据基础上进行训练的。而数据伴随着偏见、意识形态和价值观的问题。美国的价值观在某些国家并不受欢迎，甚至不被接受。中国不会是唯一的国家。我认为中东是另一个可能希望以不同方式思考问题的地区。这将导致各国希望对其模型有更多的控制权。

我确实认为，有机会为不同的国家构建不同的特殊模型。这是硅谷公司自然不会做的事情，因为他们觉得自己的价值观是正确的价值观，并希望更多的人能够接受并融入其中。而且，为不同市场构建不同的大模型，需要大量的工程工作。因此，硅谷公司不愿意开发这类模型。包括中国在内的世界其他地区的公司，可能有机会研究这种模型。但显然，他们必须赢得用户和各国政府的信任。

问：有媒体报道称，你们公司成功降低了 Yi-34B 的 AI 训练成本。你们是如何做到的？

李开复：我们拥有超级强大的基础设施团队，他们可是我们公司规模最大的团队。我之前就跟员工们说过，每增加一个建模人员，GPU 的负担就加重一分。但是每加一个基础架构人员，GPU 的效率就能提升一些。当然，我们也需要强大的建模团队，但从一开始，我们的首要任务就是建立一个强大的基础设施团队。

基础设施团队的成员就像是无名英雄一样。他们得负责硬體、軟體还有海量的数据传输，得同时处理 GPU、内存和网络，这三者中的任何一个都可能成为瓶颈。

要知道，GPU 很难扩展到数千以上。从 2000 个增加到 8000 个的时候，你不可能简单地用軟體就能搞定，因为随着你转向更大的模型和更大的数据集，网络需求也会发生巨大变化。

我们的基础设施团队里有好几十名工程师，是目前零一万物最大的团队。他们的工作包括研究怎么使用 FP8（英伟达 H100 芯片的一种数据格式）来大幅减少计算量，还要弄清楚在哪里使用 FP8，在哪里使用其他数据格式，以及如何无缝地转换它们。除了这些，他们还得解决一系列头疼问题，比如应该使用什么网络協定、怎么优化编译器、怎么处理 GPU 故障等等。实际上，GPU 经常出故障。要是一个 GPU 出现故障，可以热插拔呢？我们仍在努力解决这个问题。如果在一个拥有上千个 GPU 的集群里，就因为一个 GPU 故障而让你的训练停了一个小时，要是能进行热插拔，那么每天就能节省一个小时。这些时间可以积少成多。

还有一个相关的事情就是弹性训练。如果你有一个由 2000 个 H100 芯片组成的集群，而你只需要 500 个来执行某个任务，那你可以在检查点之间把它们移除，然后再添加回来吗？这些任务并不是 AI 研究人员该干的，而更多是属于网络工程师的工作。

如果把大语言模型的开发比作火箭科学，那么如果没有工程师，火箭将会永远飞不起来。SpaceX 的成功不仅仅是因为它有大量研究人员，还因为它做了大量超级复杂的工程工作。

问：美国限制向中国出口先进半导体技术，包括英伟达的先进芯片。你是如何应对的？

李开复：我公开说过，我们的芯片库存足够使用 18 个月。这些芯片基本上是我们在限制措施出台前购买的。我们肯定在努力研究如何使用中国芯片，但这并不容易。对它们进行编程不是我们所熟悉的领網域。但如果我们必须要这么做，我们也会勇敢地接受挑战。

英伟达的芯片非常出色，但有人可能会认为，更简单的芯片可以以更低的成本完成这项工作。但英伟达实力强大背后的一个主要因素是围绕其 CUDA 軟體库的整个生态系统，这使得编程变得相对容易。如果你强迫工程师们使用非英伟达的芯片，他们基本上会反对，因为这类芯片的效率要低得多。但我们目前面临的困境要到 18 个月后才会显现，而我们必须更早展开行动。如果我们无法获得英伟达的芯片，我们将寻找更简单、更专注于转换器的芯片，但工程师们编程起来会很痛苦。可是，如果我们别无选择，那就只能这么做。

众所周知，中国工程师有能力、有决心，他们可以出色地应对这种被认为艰巨的工程挑战。这与我之前所说的基础设施团队的工作类似。学习使用非常少的库来对新的非标准 GPU 进行编程，也是一项艰巨的工作。

中国企业家是顽强的，中国工程师很勤劳，他们不怕繁重的工作。这正是美团打造卓越服务的原因，也是微信成为卓越产品的原因。

的确，我们面临有许多艰巨的挑战，你可以说它们是浪费时间和精力。但这是我们手中拿到的牌，所以我们会尽我们最大的努力打好这些牌。