杨植麟、姜大昕、朱军云栖激辩：我们对大模型发展的预测，都过于保守了

今天小编分享的科技经验：杨植麟、姜大昕、朱军云栖激辩：我们对大模型发展的预测，都过于保守了，欢迎阅读。

来源：阿里云

整理｜邓咏仪周鑫雨王奕昕况泽宇

编辑｜苏建勋

大模型的发展曲线，停滞了吗？

这是过去一段时间里，全球AI界都在热烈讨论的问题——这不仅是AI应用落地的关键因素，更关乎着AGI（通用人工智能）的终极目标能否实现。

不过，近期OpenAI新模型o1的推出，仿佛给AGI（通用人工智能）的发展周期"再续命"：o1将强化学习（RL）路线和大模型的结合，让大模型的思考、推理能力有了质的提升。

这被称为是GPT-4在2023年发布以来，大模型里程碑式的进展。但同时，也有人提出不一样的意见——进展也不过如此。

可以确定的是，这为学术、产业界带来了全新的、不确定的变量。o1发布后，我们该如何继续AGI的探寻之路？对所有在AI应用创业者而言，机会更多了，还是更少了？

在今天的阿里云栖大会开幕式圆桌上，包括极客公园创始人张鹏，以及国内的明星大模型创业厂商——月之暗面创始人杨植麟、阶跃星辰创始人姜大昕，以及来自多模态大模型厂商生数科技的首席科学家朱军，就带来了一场激辩。

对话中，几位嘉宾不仅回顾了过去18个月以来，包括GPT-4、特斯拉FSD等大模型领網域的关键发展事件。对o1发布后的大模型时代，形成的共识也更多：

比如，对于o1所代表的多模态融合的进展，几位嘉宾都表达出了极大的认可，以及对未来发展预期的乐观态度。

阶跃星辰创始人姜大昕表示，如果说GPT-4在Scaling Law上的实践，是模拟人腦系统1的能力；那么o1的发布，就展现出了LLM（大语言模型）能够有的推理、思考能力，相当于是人腦系统2（慢思考）的潜力。"这极大地提升了AI的能力上限。"他表示。

"这种不同模态之间的转化、互動和生成其实会变得越来越成熟，AI的发展整体还是在极大加速中。"月之暗面创始人杨植麟说，接下来，训练和推理的算力还会有大幅的增长。

他还补充，对于AI应用领網域的创业者，要找到GPT-4等通用大模型做得不够好的场景，变得更重要。o1带来的更多机会，则会让AI产品的形态发生变化——创业者需要寻找新的PMF（product market fit），在用户体验因延迟下降和最终结果质量上升之间，寻找平衡。

生数科技首席科学家朱军则再度提出了AGI发展的L1-L5阶段。他表示，如今我们还处于L2的发展早期，但AI仍在加速发展中，未来18个月甚至有可能出现L4级的突破——现在业界的对AI未来的整体预测，都过于保守了。

以下为《通往AGI的大模型发展之路》的圆桌内容，由智能涌现整理编辑：

张鹏：今天非常荣幸、非常开心我们有机会来到云栖大会，同时也跟几位在国内大模型领網域的探索者探讨模型技术的进展。刚才在吴总的演讲里，我相信很多人都感受到了他对大模型和这一波AGI发展的强烈信心，甚至明确地指出这不是移动互联网的延展，它可能是一次对物理世界的新的变革。

当然，我觉得我们这个环节，可能要把他的结论做一下思维链的解构，第一步就是，要看一看模型的技术到底进展怎么样，在过去的18个月里和未来的18个月里，总结和展望都是怎么样的。

我们先从对于过去的一些的看法来说，从ChatGPT的发布引发了整个世界对于AGI这件事的理解，到现在可能也差不多18个月的世界。各位的感受是怎么样的？模型技术的发展是在加速还是在减速？

我们都是在看你们打游戏的人，那今天我们把打游戏的人请到现场，听听他们的感受。

要不大昕先来帮我们分享一下，你怎么看？过去18个月AGI的发展是在加速还是减速？

姜大昕：我觉得过去18个月其实感觉是在加速，速度还是非常快。因为当我们去回顾过去18个月发生的大大小小的AI事件以后，我们可以从两个维度去看：一个是数量的角度，一个是质量的角度。

从数量的角度来看，基本上还是每个月都会有新的模型、新的产品、新的应用这样涌现出来。比如单从模型来看的话，OpenAI 2月份发了Sora。我记得当时还是过年的时候，把大家轰炸了一下；5月份出了个GPT-4 o，然后上周又出了o1。

OpenAI的老对手Anthropic有Claude 3-3.5的系列，再加上Google的Gemini系列、X1的Grok系列、Meta的Llama系列等等。回顾过去一年，我们的感觉还是GPT-4是一家独大、遥遥领先，到了今年就变成了群雄并起、你追我赶的局面。所以感觉各家是在提速的。

从质量的角度来看，我觉得有三件事情可能给我的印象非常的深刻：

第一件事情就是GPT-4o的发布。

这是在多模态融合的领網域，再上了新的台阶。在GPT-4o之前，有比如GPT-4v，是一个视觉的理解模型，有DALL·E、 Sora等视觉的生成模型。还有Whisper 和Voice Engine的声音模型，原本这些孤立的模型，到了4o这里都融合在了一起。

为什么融合这件事情非常重要？因为我们的物理世界本身就是一个多模态的世界，所以多模态融合，一定是有助于我们更好地为我们的物理世界建模，去模拟世界的。

第二件事情，是特斯拉发布的FSD V12。

大家知道它是一个端到端的大模型，它把感知信号直接变成控制序列。而自驾这件事情我觉得它是非常有代表性的，它是从数字世界走向物理世界的真实的应用场景。

所以我觉得FSD V12它的成功意义不仅在于自驾本身，这套方法论可以认为是为将来的智能设备如何和大模型相结合，更好地去探索物理世界指明方向。

那第三件事情，就是上周OpenAI发布的o1。

我对它的理解就是，他第一次证明了语言模型其实也可以有人腦的慢思考系统 2的能力，而我们觉得系统2的能力它是归纳系数所必备的一个前提条件，是一个基础的。所以我们一直认为 AGI 的远近路线可以分为模拟世界、探索世界、最后归纳世界，而过去几个月的时间，我们看到GPT-4o v、 FSDV12和o1分别在这三个阶段或者三个方向上都取得了非常大的突破，而且更重要的是为将来的发展也指明了一个方向。

智驾是一个端到端的大模型，它把感知信号直接变成控区，而智驾这件事情我觉得它是非常有代表性的，是从数字世界走向物理世界的真实的应用场景。FSD V12它的成功意义不仅在于智驾本身。可以说，这套方法论是为将来的智能设备如何和大模型相结合，更好地去探索物理世界指明了一个方向。

第三件事情就是上周OpenAI发布的o1。我对他的理解是，它第一次证明了语言模型也可以有人腦的慢思考、系统 2 的能力，而我们觉得系统 2 的能力它是归纳式，必备的一个前提条件，是一个基础的。

我们一直认为，AGI 的远近路线可以分为：模拟世界-探索世界-归纳世界。过去几个月的时间，我们看到GPT4O v、FSD V12和o1，分别在这三个阶段、方向上都取得了非常大的突破，更重要的是，为将来的发展也指明了一个方向，所以我觉得无论是从数量还是质量来说，都是可圈可点。

△姜大昕

张鹏：感觉对于期待的领網域，其实我们都看到了广泛的突破和进展。植麟，你的体感是怎么样呃？投身其中的人，可能会跟我们外边看游戏的人不一样。

杨植麟：我觉得AI整体还是处于加速发展的阶段，可以从两个维度来看。

第一个维度是纵向的维度，AI的智商是一直在提升的。主要是看现在的反应方式，还有看文本模型能做到多好。

第二是横向的发展。除了文本模型之外，像刚才张总提到的，有各种不同的模态，这些模态其实也在横向发展，更多是说让模型具备更多的技能，可以完成更多的任务。同时，跟纵向的智商的发展相结合。

在这两个维度上，我觉得都看到了非常大的进展。比如说在纵向的维度上，它其实智商是一直在提升的，对吧？比如说生图、数学竞赛能力可能去年是完全不及格，到今年可能已经能做到 90 多分。

代码，基本上也是一样，能够击败很多专业的编程选手。包括hins？也产生了很多新的应用机会，像现在比较流行的类似 cursor 的这样的，通过自然语言直接去写代码，这样的軟體也越来越多，我觉得这个其实是很多技术发展的结果。

如果去看很多具体的技术指标，比如语言模型能支持的上下文长度，去年这个时间点，大部分模型都只能支持 4 - 8 k 的 context sense，今天看你会发现 4 - 8 k 已经是非常非常低，现在 128 K 已经是标配。已经有很多可以支持1M，甚至是10m长文本的长度，这也是后面模型智商不断提升的基础。

最近的很多进展，它其实不光只是做scaling，scaling 还是会持续，很多进展其实来自于后训练算法的优化、数据的优化。优化的周期会更短。周期更短，导致你整体的AI 的发展节奏也会进一步加快。我们最近在数学上看到的很多进展，也得益于技术的发展。

横向上，当然也产生了很多新的这样的突破，当然，视频生成上的 Sora 可能是影响力最大的。最近有特别多新的产品的技术出来，可能现在你已经可以通过论文，直接生成基本上你看不出来是真是假的Podcast，一个双人对话。

类似这样的，这种不同模态之间的转化、互動和生成其实会变得越来越成熟，所以我觉得AI整体是在加速的过程中的。

△杨植麟

张鹏：感觉这些技术，其实还在加速地去扩展它带来的变化和创新。虽然，可能我们客观上看好像没有说再长出某个 Super APP，但如果我们抛掉 super APP 的视角，去看技术，反而能被看到它的真正的进展，这可能是更加理性客观的视角。

朱军老师，你会怎么总结这 18 个月到底说 AGI 的技术，到底是经历了什么样的发展？有什么可以总结的进步的台阶？

朱军：其实AGI 里，可能大家最关注的还是大模型。去年和今年都发生很多重要的变化了。整个进展，我是非常同意的，在加快。

我想补充一点，比如我在解析的问题，速度其实也在变快，就我们说它的 learning curve 在变得更抖，原来看语言模型的话，大概是从2018 年，植麟也算最早去做这个。到今年的话大概走了五六年的路。

从去年开始，上半年大家还是关注语言模型，下半年的话就开始讨论多模态，从多模态理解再到多模态生成。

再回头看的话，觉得像影像或者视频。视频其实最明显。从今年2月份（Sora发布），当时很多人是被震惊到了。对没有公开的技术，怎么去突破技术，有很多讨论。

事实上，我们整个行业大概用了半年的时间，已经做到了可以去用的，时空一致性的很好的产品效果，大概走了半年的路。

我觉得加速的最核心的原因在于，现在大家对技术路线的认知和准备上，其实达到了比较好的程度。

当然，我们还有物理的条件，比如说像云基础设施、计算资源的这种准备上，不像ChatGPT当时出的时候了，当时大家更多是不知所措，很多人可能没准备好去接受，中间是又花了很长的时间去学习、去掌握。

当我们掌握了之后，再看现在技术的进展，再去做新的问题，其实速度是越来越快的。当然，不同的模型能力，辐射到实际用户的角度来说，有一些快慢之分，也会分行业。

从广泛的角度来说，大家可能没感知到。单从技术来说，现在技术发展曲线是越来越陡峭的。要预测未来的话，就是包括像更高阶的AGI发展，我是比较乐观的，可能更比之前会以更快的速度来去实现。

△朱军

张鹏：从三位的视角来看，如果外界有人说 AGI 怎么发展变慢了，你们可能的简单的一句话就是：你还想要怎样？这18个月已经让我们每个人都目不暇接了。说到这，其实最近刚刚出的o1的新模型，在专业人群里也形成非常多的影响，现在还有很丰富的讨论。正好我们既然都在这个平台，三位都对这件事有自己的见解，我们就在这来讨论一下。

大昕，你怎么看o1？很多人认为，这是AGI的发展阶段的一个重要进步，我们怎么理解这个阶段？

姜大昕：确实我看到了一些非共识，就是有些人觉得意义很大，有些人觉得也不过如此。

我觉得大家如果去试用o1的话，可能第一印象是，推理确实非常的惊艳。我们试了很多的query，觉得推理确实上了一个很大台阶。

它背后的意义，我能想到的有两点，第一是，它第一次证明了其实说large language model，就是语言模型，是可以有人腦的慢思考、系统2的能力。

以前的GPT的范式，或者GPT的训练，是叫predict next token（预测下一个）。只要这样训练，就注定了它一定只有system 1的啊。而 O1 它是用了强化学习的训练框架，所以有系统2 的能力。

系统1的体现，就是它是直线型思维。就像我们看到GPT 4，它有的时候可以把复杂的问题拆解成很多步，然后分步地去解决，但它还是一个直线型。

系统2和系统1最大的区别，就在于系统2能够去探索不同的路径，他可以自我反思、纠错，然后不断地试错，直到找到一个正确的途径，这是系统 2 的特点。

所以这次的o1，是把以前的模仿学习和强化学习结合起来了，使得一个模型同时有了人腦系统1和系统2的能力，意义是非常大的。

第二，它带来了scaling law（缩放定理）新的方向。

o1实际上想试图回答的一个问题，是RL（强化学习）究竟怎么泛化？因为强化学习，不是OpenAI第一个做的。

DeepMind一直走的就是强化学习路线，从AlphaGo到AlphaFold到Alpha Geometry，其实Google在强化学习上是非常厉害的。

但是以前的强化学习的场景都是为特定场景去设计，Alphago只能下围棋，Alpha Fold只能去预测蛋白质的结构。

所以，这次o1的出现是在模型RL（强化学习）的通用性和泛化性上，上了一个大台阶，而且它 scale 到了很大的规模。所以，我是把它看成scaling的新的带来的一个技术的新的范式，我们不妨称之为RL Scaling。

而且我们看到其实有意思的一点就是，o1并没有到一个很成熟的阶段，还是一个开端。但我觉得这恰恰是让人觉得非常地兴奋，这就等于OpenAI跟我们说：

诶，我找到了一条上限很高的道路。如果你仔细去思考它背后的方法的话，你会相信，这条路实际上是能够走得下去。

所以，o1从能力上来讲，我觉得它展示了LLM肯定有系统2的能力。从技术上来讲，它带来了一个新的 scaling 的范式，所以我觉得它的意义很大。

张鹏：听起来的，你虽然说现在有非共识，但感觉你这是非常看好，很认同。朱军老师怎么看、怎么评价o1带来的阶段进展？

朱军：它代表着一种显著的质变，因为我们也对AGI也大概做了一些分级，学术界、产业界都有L1到L5的区分：

L1相当于是聊天机器人，ChatGPT类的应用，之前大家都做了很多；

L2就是推理者，可以做复杂问题的深度思考、推理；

L3是智能体，回应刚才吴总讲的，就是从数字世界走向物理世界，模型要去改变，要去互動；

L4是创新者，要去发现、创造一些新的东西、新的知识；

L5是组织者，可以去协同或者是有某种组织的方式，来更高效运转。

这是大家对AGI L1 到 L5 的分级，每一级的也有相应narrow（专有能力）和 general （泛化能力）的区分。现在在某些 task （任务）上可能就展示出来了，比如o1在 L2 的 narrow 场景下，在一些特定任务下已经实现了，可以达到人类高阶智能的水平。

从分级的角度来看，o1确实代表着整个行业的巨大进步。技术上，它实际上，是把过去我们在强化学习上做的很多东西，在大规模的基座模型上scale up，做出来了效果，这是工程上对行业产生的实际触动。

当然，这也会触发或者激发出未来的很多探索，研发大概会走向从 narrow 到 general 的跃迁。刚才讲到速度，我相信变化可能会发生得很快，因为大家已经有很多准备了。我也期待，这个领網域将L2做得更好，甚至更高阶的智能可以实现。

张鹏：感觉你对实际上AGI的L2层面，明确的路径和阶段性的成果，这个定义已经很高了，之前都在L1的层面。当然，要到吴总（吴泳铭）的期望的层面，拥抱、改变物理世界，其实最终还要往前走，到了 L3，可能这件事就真的会完整的系统性的发生。

再回到植麟这边，这次发布o1后， Sam Altman也热情洋溢地说：我们认为这是一次新的范式的革命。当然，Sam就很会演讲，也很会表达。你怎么看？我们怎么理解他说的话，你是否认同这是一次范式变革？

杨植麟：o1确实意义很大，主要的意义在于提升了AI 的上限。AI到底是可以提升5%、10%的生产力，还是说这是10倍的GDP提升？最重要的问题就是：你能不能通过强化学习去进一步的scaling，所以我觉得o1是完全提升AI上限的东西。

如果我们回看AI历史上七八十年的发展，唯一有效定理的就是scaling，唯一有效的就是去加更多的算力。但是，o1提出来之前，很多人在研究强化学习，但是可能都没有非常确切的答案。如果强化学习跟大语言模型的pre- training（预训练）、 post-training（后训练）这些东西整合，能不能持续地提升模型能力？

GPT 4这一代模型的提升，更多的是确定性的提升，在一样的范式下，让规模变得更大，肯定会有确定性的提升，但o1的提升并不是完全确定性的提升。

之前可能大家会担心，现在互联网上大部分的优质数据都已经被使用完了。你就算继续使用这个数据，也没有更多的数据可以挖掘，所以你原来的范式可能会遇到问题。但是要让 AI 有效，你又要需要进一步的scaling，那你 scaling 从那里来？

所以o1其实很大程度上是解决了这个问题，或者说至少是证明了初步可行。初步可行的情况下，可能我们会有越来越多的人可以去投入去做这个事情，最终要做到十倍GDP的效果是有可能的，这是很重要的开端。

当然，我觉得这种变化将会对很多产业格局产生影响，特别是对创业公司的新机会来说也会带来一些变动。

比如，其中一个关键点在于训练和推理过程中算力占比的变化。这个变化并不是说训练算力会下降，实际上，训练算力可能还会持续提升。

与此同时，推理算力的提升速度可能会更快。这种比例的变化，本质上会带来很多新的机会，尤其是创业公司可能在其中发现全新的发展方向与机会。

如果一家公司达到了某个算力门槛，它其实可以在此基础上进行很多算法的创新，甚至可以在基础模型上取得显著进展，所以我认为这非常重要。

对于那些算力相对较少的公司，它们也可以通过post-training的方式，在特定领網域内实现最优效果，这也会促使更多产品和技术解决方案的出现。

整体上，这为创业公司带来了更多的想象空间，至少在创业相关的领網域中，机会与潜力被大大拓展了。

张鹏：这次所谓的范式变化，核心在于解决了scaling law中，我们接下来要scaling什么的问题，扩展什么样的东西。

我们看到了一个全新的路径，刚才你也提到，未来可扩展的创新路径变得更多，可探索的方向也变多了，而不是原来那种收缩的，甚至遇到阻碍的状态。

当然，我觉得今天看起来三位对GPT-o1带来的这次变化都非常兴奋，但这也是大家现在比较关心的问题。毕竟今年的变化还主要集中在一些比较明确的场景上。

我想请教朱军老师，当我们将强化学习引入这个体系，成为一个新的范式之后，我们是否能看到能力的明显泛化？今天你会发现，它在局部的能力表现非常出色，提升也很显著。但如果要实现泛化，这条路径和确定性是否已经明确？

朱军：这个问题确实值得深入思考。现在的技术往往是在特定任务上取得突破后，我们再考虑如何将其扩展到更广泛的任务和能力上。

从强化学习的角度来说，比如交通领網域的AI实现路线，虽然它还没有完全解决高度泛化的问题，但从科研的积累和解读上，我们可以看到它可能涉及的技术路径。

相比之下，像ChatGPT这样开放性较强的系统，当前的一些应用显然没有那么开放。

在强化学习中，一个很重要的问题是过程监督数据的获取。它与结果导向的监督（如ARPU）有所不同。你需要对每个思考过程的步骤进行标注，这样的数据获取难度较大，因为它需要专业人员提供高价值的标注数据。

此外，在跨领網域迁移时，比如自动驾驶或其他更开放的场景中，reward model的定义就变得更加复杂了。对于定理证明或编程等有明确答案的任务，奖励是比较清晰的，奖励函数也明确。

但是在更开放的应用中，比如自动驾驶、虚拟替身、甚至技术创作中的生成视频和语言内容，界定"好"与"坏"的标准就变得模糊，评价标准因人而异。

在这种情况下，技术面临很多挑战，例如如何定义奖励模型、如何收集数据，以及如何高效地实现scaling。不过，大家已经看到了这条路的曙光，未来的探索方向也逐渐明晰。

结合当前更强大的基础设施，我们可能会比之前更快实现跨领網域迁移的效果。与上一个时代相比，比如Alphago迁移到其他领網域，如今我们拥有更好的模拟器和一些AGI生成方法来构建环境，这些技术加持会加速进展，效果提升将更容易实现。

从我的角度来看，目前还没有一个公开的、明确的泛化路径，但可以确定的是，探索的空间和潜力是巨大的。

张鹏：这个问题我真的想再追问一下植麟就是看起来是这样的一个状态，我估计你可能也是这个理解，当然你也可以表达一下个人的看法。

但我其实想问的是说这个状态，比如像你这样的创业公司是好事，是坏事，那你看到那个东西时候，你会影射到自己未来要做的手术会是什么心理状态？你会怎么分析这个环境？

杨植麟：我觉得这其实是个很好的机会，因为有一个新的技术变量，是一个新的技术维度。然后或多或少我们之前也有一些投入，但是可能现在会变成一个组织，然后在这个组织下面，我觉得我们有非常多的新的机会。一方面是，刚刚朱老师提到的怎么去泛化的问题，然后另一方面就是可能就说在这过程中可能还有一些基础的技术问题可能不完全解决。

就是因为可能它核心像底层涉及到训练跟推理，可能两个东西要同时去 scaling。

但这里面可能很多性质，我觉得今天也许也没有被完全探索清楚，然后包括刚刚提到的过程监督的这些问题，可能中间的一些幻觉也会给它的效果带来很大的伤害，所以这些问题我觉得都很值得研究。

但如果能够做好的话，那其实是可以把现在的很多能力去上一个台阶，所以我觉得还是像我刚刚说的，就是对我们来讲可能会有更多通过这种基础创新，然后能够去提前一些突破的机会.

张鹏：有不确定其实是好事，对吧？有确定的方向，有不确定的路径，对创业公司反而是好事，否则就没有创业公司的事了。

那我再回到大昕这边，其实刚才植麟也提到了一点，我觉得这是个很有意思的问题。

过去我们常常提到"算法、算力和数据"这三个要素，作为讨论AGI时的关键三角形。

这次看起来，在算法层面已经出现了一些范式的变化。相应的，算力和数据这两个要素，在这个三角形中会产生怎样的连锁反应？能不能帮我们推理一下？

姜大昕：对，我认为算法、算力和数据三者的连锁关系依然存在，RL的确带来了算法层面的变化。至于这种变化对算力的影响，我认为有两点：一是确定的，另一点则不太确定。

首先，确定的是，正如刚才两位所提到的，在推理侧的计算需求将会成倍增长。这就是OpenAI在其博客中提到的"inference-time scaling"。

与此同时，对推理芯片性能的要求也会显著提高。可以想象，OpenAI在GPT-o1背后可能使用了H100芯片，每次处理一个问题往往需要消耗十几秒甚至几十秒。如果我们要加快推理速度，对芯片的性能要求必然会进一步提升。

接下来，大概率会确定的点是，在RL（强化学习）训练阶段，所需的算力不会比当前少。这种对于算力的非线性需求仍将持续上升。

为什么这么说呢？

因为在RL阶段，尤其是进行self-play（自我博弈）时，数据量是可以无上限生成的。就像刚才提到的，self-play数据量理论上是可以无限扩展的。OpenAI在训练草莓模型时，使用了上万张H100显卡，持续训练了几个月时间。而目前GPT-o1还处于预览阶段，训练尚未完成，所以训练的代价是非常高的。

所以我觉得如果我们追求的是一个通用的、有泛化能力的推理模型，而不是为某个特定场景所设计的一个的模型的话，那么它可能训练所需要的计算量并不小。

那还有一个就是我不太确定的，就是在self play的时候，我们用的主模型它的参数量要不要再继续scale（扩大规模），让它产生更好的推理路径？

因为现在有一个大家有个普遍的观点，就是说GPT-4到了万亿参数以后，你再去 scale它的参数，那么它的收益的边际是在下降。

但如果这个方法它产生一个放大器的作用，它能够加倍你的收益的话，那么是不是总的收益 ROI 又打正？所以这是一个不太确定的事情，可以留待后续验证。

面去验证，如果这个结论成立的话，算力的需求增长可能会回到平方增长的轨道，计算量等于参数量乘以数据量。所以，我的感觉是，RL带来的无论是推理侧还是训练侧，对算力的需求都在增长。

至于数据方面，在RL阶段我们主要依赖两类数据：一是少量的人工合成数据，二是大量通过self-play生成的机器数据。虽然数据量可以很大，但数据质量至关重要。

因此，如何设计生成数据的算法，以及主模型在self-play过程中的能力将变得非常关键。

张鹏：我觉得刚才大家对于GPT-o1带来的范式的一些变化做了很好的拆解，但我觉得今天三位，也都是创业者，也都在做自己的对应的公司，有自己的团队要往前去发展，其实我们不妨再推理一下。

我想问朱军老师，最近的一些技术进展，会对未来的产品或者说一些技术最终落到产业里有什么明确的推动？有没有阶段性的一些总结和观察？

朱军：我觉得现在是这样，大模型或者叫我们叫大规模预训练这种技术，它还是代表着整个范式的变化，因为它的不光是语言到多模态再到空间智能，其实重点是说我怎么去让智能体能够有互動，能够在这个过程中去学习。

我想问问植麟， Kimi是在今年引发了大家很多关注的产品，发展得也很好，你觉得这一波的AI新变化，接下来会对相关产品会带来什么样的连锁反应？

能不能也帮我们推理一下？你会看到他的时候腦子里会怎么想？这个变化会如何发生？

杨植麟：这是个很好的问题。我觉得我们现在其实还是处于产业发展的早期阶段。在早期阶段，有一个特点是技术驱动产品的比例会更高。

所以很多时候，产品的开发其实是在观察当前技术的发展，然后尽量把它的价值最大化。我们可以根据新的技术进展，反推我们的产品应该做出哪些调整。现在的技术发展有几个关键点。

首先，我认为这里有很多探索新PMF的机会。

因为需要进行系统二的思考，这导致了延迟的增加，而这种延迟对用户来说是一个负面的体验，所有用户都希望能尽快拿到结果。

第二点是，这种新技术确实能提供更好的输出，带来更优质的结果，甚至可以完成一些更复杂的任务。

所以，探索新PMF其实是在"用户体验因延迟下降"和"最终结果质量上升"之间，寻找一个平衡点。

你要确保增量价值大于体验的损失，这是非常重要的。我觉得，高价值的产品可能会率先出现一些突破。因为如果你是一个娱乐场景，很可能用户无法容忍延迟的增加，所以这是一点非常重要的考量。

接下来，我觉得产品形态也会发生变化。

因为系统二的思考方式导致了现在这种同步、即时的聊天型产品形态可能会有所改变。

未来的 AI 可能不再仅仅是思考 20 秒或 40 秒，它可能需要几分钟，甚至更长的时间去调用各种工具、执行任务。

因此，产品形态可能会更接近人类，真正成为一个assistant（助手）的概念，帮助你完成复杂的任务。在这个过程中，产品形态的设计也会发生很大的变化。所以我觉得这里有很大的想象空间。

张鹏：其实我们刚才聊到了GPT-o1带来的变化，我们也看到在AGI里也有一些其他的变化，比如像李飞飞的空间智能，包括自动驾驶、机器人等等具身智能方面的变化。我想问朱军老师，最近的一些技术进展，会对未来的产品或者说一些技术最终落到产业里有什么明确的推动？有没有阶段性的一些总结和观察？

朱军：我觉得现在是这样，大模型或者叫我们叫大规模预训练这种技术，它还是代表着整个范式的变化，因为它的不光是语言到多模态再到空间智能，其实重点是说我怎么去让智能体能够有互動，能够在这个过程中去学习。

从智能的角度来看，从包括从 AGI 发展上来看，它是必然的，因为决策互動实际是智能里面非常核心能力的体现，我们其实每时每刻都在做这决策，对吧？

我们面对的是一个未知的开放环境，所以对于智能来说的话，它的发展的路径上就在整个的规划里面，大家也是朝这个方向在走。

现在所有这些进展，包括刚才讨论很多的GPT-o1，也包括视频生成、3D生成，其实大家都是最后要指向的有两个方向：

一个是给消费者的数字内容，也就是说它看上去很好看、很自然，然后能够讲故事，让大家甚至能够去互動。

另外一个方向指向实体，指向物理世界，也就是生产力的提升。这其中现在可能最好的一个结合点就是和机器人。我们也看到很好的进展，比如像预训练的范式能够让机器人的能力具有通用性。

比如我们自己实验室也做过，像四足机器人，过去机器人在不同场地跑起来，都需要用很多的人工去调参。

但现在其实用AI生成一些合成数据去大规模的训练，训练出来的策略可以装灌到机器人上，相当于换了一副大腦，就可以让它的四肢能够去更好地卸东西。它可以用同样一套策略来去做各种场地的适应。

就像刚才讲到智能体是AGI的L3，现在L1、L2有进展之后，后面肯定会提升到L3里面，让机器人更好地去做推理规划，然后更好地、更高效地和环境做互動，然后更好地完成复杂任务。

现在很多时候任务相对来说还是分散的，需要简化定义。未来可能很快我们会看到机器人可以接受复杂的指令，通过它内嵌的思维链、或者过程学习的方式，能够完成复杂任务，到那时候机器人的能力又有很巨大的提升。

张鹏：作为创业公司，肯定也在面临着今天的现实的产业的环境。我想问问大昕，在过去18个月，包括这次的o1，会对你的心态有什么影响和改变吗？未来作为创业公司，是有了更大的创新空间吗，怎么看未来技术创业的走向？

姜大昕：从两个角度看，一个是创新的点，我觉得RL出来确实和前面GPT的范式不太一样。GPT是predict next token，从2018年GPT-1出来一直到GPT-4，除了加了一个MoE（混合专家模型）以外，其实没有什么太多的很新的东西在里边。

我觉得o1还是初始阶段。刚才两位也谈到强化学习究竟怎么和大模型相结合，能够做到泛化，这件事情我觉得有非常多的问题值得去探索。

刚才植麟也谈到，包括我们在做搜索路径的时候，需不需要人工干预去帮它找到更好的路径等等，包括self play的题目从哪里来，答案怎么去找，这些都是新的、未知的领網域。我相信在未来的这一段时间里，肯定会有很多加速的技术发展。对我们创业公司来说，在创新上肯定是有很多的机会。

但另一方面，我觉得要面对算力的挑战。

在推理侧也好、在训练侧也好，它所需要的算力还是不小，尤其是当我们需要去追求通用性的、能够泛化的推理模型的时候。我们内部经常调侃，"讲卡伤感情，没卡没感情"，我们后面又加了一句，叫"用卡费感情"。

但如果我们追求的目标就是AGI的话，那你付出再多还是要坚持下去。因为如果按照Scaling Law继续往下走，其实能玩的玩家就会变得越来越少，因为要匹配的资源太多了。

张鹏：现在你觉得资源的门槛有降低吗？还是说要继续拼算力上的资源？你怎么去整合这么多的集团资源？工程上要做得更好，是核心点吗？

姜大昕：要抽成两种不同的创新。一种是基础模型就是奔着AGI去的，我就是要做通用的泛化性能高的，那投入是很大。而且我们看到国外的巨头不约而同都是一年几十亿美金、上千亿美金这样的规划。

但是另外一方面，我觉得还有大量的创新的空间实际上是去做应用。

今天所展现出来的智能，后来再加上智能体Agent的框架，已经能够解决我们其实很多的问题了，就像朱军老师说两类问题——数字系列、物理系列的问题——我们都可以再往前走。今年o1出来以后，把强化学习又泛化到了更高的阶段，像植麟说的，它的上限变得更高了，所以我觉得这里面还有大量的机会。

张鹏：植麟，现在也在做C端的产品，我最近其实听到很多投资人都在看DAU、留存等指标，再评估要不要投一个公司。假定你今天不是创业者，假定你是个有技术背景、对AI很了解的投资人，你在今天会看创业者的什么数据，来做投资决策？

杨植麟：首先，像DAU和你刚说的这些数据，我觉得肯定是要抓的指标。我觉得可能抽成几个层面：

第一个层面，一个产品首先要有价值，或者满足了用户的真实需求，这是本质，可能跟AI没有太大的关系，所以可能又有更多的前置指标，比如留存。

第二个点是跟AI更相关的，就是说不光要有价值，也要有增量的价值，这个增量价值可能相较于市面上已有的AI产品，或者说是更通用的。我觉得接下来肯定会有通用的AI 产品，这也是我们正在做的事情。

但在通用产品之外，比如ChatGPT之外，其实可能还会有大量的机会。这些 AI 产品机会，要相比于通用产品产生增量价值，产生你在ChatGPT里面做不了的事情，或者说做起来体验很差的事情。

一般你的增量价值会产生在几个方面：一方面，有可能互動方式是完全不一样，或者是不同的入口，背后对应了不同的资源。通过这种方式去产生增量价值，我觉得会很重要的一个事情。

然后第三个维度，我觉得是不光有价值，而且要随着技术的发展，市场规模应该越来越大，而不是越来越小。比如说如果你是专门研究prompt engineering，那你可能现在会有一个风险：也许接下来的需求会越来越少。

但是，如果是说目前已经能产生一定的PMF的产品，但还没有泛化到一个很主流的群体，有可能是因为你的技术不够强。那这时候再搭配上第二点，也就是说你有增量价值、市场又越来越大的话，那它可能就是一个好的AI机会。

总结就是：数据是要看，但是在看数据之前先看产品存在的逻辑。如果它是成立的，数据又能证明，可能这就是一个值得投的公司。

张鹏：在下一个18个月里，你们期待看到什么样的进展？

朱军：因为现在整个AI技术处于加速状态，我们的预测通常会过于保守。

如果回到你的问题，我预想未来18个月可能比较令人兴奋的一个进展，我希望看到AGI的L3已经基本上实现至少在智能体，比如我们说的世界模型的创建生成、虚实融合，至少在一些特定场景下的决策能力的巨大的提升。其实它会利用我们今天讲到的推理、感知等等。在特定场景里，已经不是"Copilot"，而是"Auto Pilot"。

与此同时，因为我前一段时间领了一个任务，对L4做专门的分析：到底我们缺什么？其实最后调研或者是分析下来，你会发现如果我们要做科学发现或者做创新，它需要的那些能力，可能目前是散落在各个角落里面，当然现在可能还缺一个系统怎么把这些东西集成在一起，给它做work。

所以我觉得如果更激进一点，我甚至觉得未来18个月可能在L4上也会有显著的进展。

当然这里面我讲的是严肃的科学发现，其实L4还有一些创意的表达，目前我们在某种意义上已经达到了，比如说艺术创造、图生视频，一定程度上它已经帮大家放大你的想象，或者让你的想象可以具象化。

所以，我还是比较乐观的，至少L3，或者未来的L4有一些苗子了。

张鹏：到今年年底前，你们自己有什么进展，能提前透露吗？

朱军：到今年年底，我肯定是希望将我们本来做的视频模型能够以更加高效、更可控的方式提供给大家。

可控，比如你想表达一个故事，不是简单地将一段话或者一个图片给它动起来，我们是希望你可以连续地讲，而且它不光是人的一致性，还包括物体等各种主题的一致性，还包括互動性；

高效，它一方面解决对算力成本的考量，因为你如果想要服务很多人，让大家用的话，首先你成本要降下来，不然这个本身就是烧钱，一直赔钱。

另外更重要的，还是从体验上。就使用者来说，因为他想表达自己的创意，他可能需要多次和系统来互動，一方面是验证，另外一方面是启发，所以这个过程也需要你的模型系统能够比较高效，比如说终极目标达到实时，能够让大家快速尝试。

等到这个阶段，我相信大家的用户体验，包括用户量都会有一个巨大的提升，这是我们今年想重点突破的。当然长远的话，可能明年18个月会走向实体的虚实融合的场景了。

张鹏：3个月的目标和18个月的，对未来的期待都是很明确的。植麟呢？我觉得这是挺好的概念，你既可以说说18个月，也可以讲未来3个月会有什么进展。

杨植麟：我觉得接下来最重要的milestone（里程碑）可能是开放性的强化学习。你可能真的能在产品上跟用户去互動，在一个真实的环境里面去完成任务，然后自己去计划。当然我觉得o1其实已经一定程度上说明，这个方向有比之前更强的确定性，我觉得这会是一个重要的里程碑，可能也是AGI路上现在仅剩唯一的重要问题。

张鹏：所以关键问题是，期待未来18个月要有新的突破和进展？

杨植麟：对，应该是能看到很多进展。在AI领網域，18个月其实很长。

张鹏：对，18个月已经是很长了，如果看过去18个月走的路。那你未来三个月里，会有什么可以透露？

杨植麟：我们还是希望能在产品的技术上持续的创新，至少在一两个重要领網域能够做到世界最好，但是这个有新的进展会尽快跟大家分享。

张鹏：看似没透露，但是实际上我觉得后头应该会看到他的进展。大昕呢？你怎么看18个月和未来三个月的进展？

姜大昕：第一我也很期待强化学习能够进一步泛化。另外一个方向，其实我也很期待，应该说期待了很久，就是在视觉领網域的理解和生成一体化。

在文字领網域，GPT已经做到了理解生成一体化，但是在视觉领網域这个问题非常难，所以在目前为止，我们看到的视觉理解和生成这两个模型是分开的，即使像刚才说多模融合GPT-4o，大家仔细去看，它其他模态都解决了，唯独不能生成视频，所以这是一个悬而未决的问题。

它为什么很重要呢？如果我们解决了视频理解生成一体化，那么我们就可以彻底地建立一个多模的世界模型。有一个多模的世界模型以后，可以帮助我们真正地去产生非常长的视频，也就是解决Sora目前的技术缺陷。

还有就是，它可以和具身智能相结合，它可以作为机器人的大腦去帮助智能体更好地去探索物理世界，所以我也是非常期待的。

张鹏：年底之前，你这边会有什么我们值得期待的进展吗？

姜大昕：我也是期待一方面模型或者技术的进步，另外是产品能够带给我们的用户更多的、更好的体验。

阶跃有一款产品叫做跃问，跳跃的跃，问答的问，那么在上面的用户是可以体验我们最新的万亿参数的MoE模型。它不光是理科很强，而且文学创作能力也很强，经常给大家带来一些惊喜。跃问上还有一个新的功能叫"拍照问"，我们看到用户经常拍张照片去问食物的卡路里，去问宠物的心情，去问一个文物的前世今生。