楊植麟、姜大昕、朱軍雲栖激辯：我們對大模型發展的預測，都過于保守了

今天小編分享的互聯網經驗：楊植麟、姜大昕、朱軍雲栖激辯：我們對大模型發展的預測，都過于保守了，歡迎閱讀。

來源：阿裡雲

整理｜鄧詠儀周鑫雨王奕昕況澤宇

編輯｜蘇建勳

大模型的發展曲線，停滞了嗎？

這是過去一段時間裡，全球AI界都在熱烈讨論的問題——這不僅是AI應用落地的關鍵因素，更關乎着AGI（通用人工智能）的終極目标能否實現。

不過，近期OpenAI新模型o1的推出，仿佛給AGI（通用人工智能）的發展周期"再續命"：o1将強化學習（RL）路線和大模型的結合，讓大模型的思考、推理能力有了質的提升。

這被稱為是GPT-4在2023年發布以來，大模型裡程碑式的進展。但同時，也有人提出不一樣的意見——進展也不過如此。

可以确定的是，這為學術、產業界帶來了全新的、不确定的變量。o1發布後，我們該如何繼續AGI的探尋之路？對所有在AI應用創業者而言，機會更多了，還是更少了？

在今天的阿裡雲栖大會開幕式圓桌上，包括極客公園創始人張鵬，以及國内的明星大模型創業廠商——月之暗面創始人楊植麟、階躍星辰創始人姜大昕，以及來自多模态大模型廠商生數科技的首席科學家朱軍，就帶來了一場激辯。

對話中，幾位嘉賓不僅回顧了過去18個月以來，包括GPT-4、特斯拉FSD等大模型領網域的關鍵發展事件。對o1發布後的大模型時代，形成的共識也更多：

比如，對于o1所代表的多模态融合的進展，幾位嘉賓都表達出了極大的認可，以及對未來發展預期的樂觀态度。

階躍星辰創始人姜大昕表示，如果說GPT-4在Scaling Law上的實踐，是模拟人腦系統1的能力；那麼o1的發布，就展現出了LLM（大語言模型）能夠有的推理、思考能力，相當于是人腦系統2（慢思考）的潛力。"這極大地提升了AI的能力上限。"他表示。

"這種不同模态之間的轉化、互動和生成其實會變得越來越成熟，AI的發展整體還是在極大加速中。"月之暗面創始人楊植麟說，接下來，訓練和推理的算力還會有大幅的增長。

他還補充，對于AI應用領網域的創業者，要找到GPT-4等通用大模型做得不夠好的場景，變得更重要。o1帶來的更多機會，則會讓AI產品的形态發生變化——創業者需要尋找新的PMF（product market fit），在用戶體驗因延遲下降和最終結果質量上升之間，尋找平衡。

生數科技首席科學家朱軍則再度提出了AGI發展的L1-L5階段。他表示，如今我們還處于L2的發展早期，但AI仍在加速發展中，未來18個月甚至有可能出現L4級的突破——現在業界的對AI未來的整體預測，都過于保守了。

以下為《通往AGI的大模型發展之路》的圓桌内容，由智能湧現整理編輯：

張鵬：今天非常榮幸、非常開心我們有機會來到雲栖大會，同時也跟幾位在國内大模型領網域的探索者探讨模型技術的進展。剛才在吳總的演講裡，我相信很多人都感受到了他對大模型和這一波AGI發展的強烈信心，甚至明确地指出這不是移動互聯網的延展，它可能是一次對物理世界的新的變革。

當然，我覺得我們這個環節，可能要把他的結論做一下思維鏈的解構，第一步就是，要看一看模型的技術到底進展怎麼樣，在過去的18個月裡和未來的18個月裡，總結和展望都是怎麼樣的。

我們先從對于過去的一些的看法來說，從ChatGPT的發布引發了整個世界對于AGI這件事的理解，到現在可能也差不多18個月的世界。各位的感受是怎麼樣的？模型技術的發展是在加速還是在減速？

我們都是在看你們打遊戲的人，那今天我們把打遊戲的人請到現場，聽聽他們的感受。

要不大昕先來幫我們分享一下，你怎麼看？過去18個月AGI的發展是在加速還是減速？

姜大昕：我覺得過去18個月其實感覺是在加速，速度還是非常快。因為當我們去回顧過去18個月發生的大大小小的AI事件以後，我們可以從兩個維度去看：一個是數量的角度，一個是質量的角度。

從數量的角度來看，基本上還是每個月都會有新的模型、新的產品、新的應用這樣湧現出來。比如單從模型來看的話，OpenAI 2月份發了Sora。我記得當時還是過年的時候，把大家轟炸了一下；5月份出了個GPT-4 o，然後上周又出了o1。

OpenAI的老對手Anthropic有Claude 3-3.5的系列，再加上Google的Gemini系列、X1的Grok系列、Meta的Llama系列等等。回顧過去一年，我們的感覺還是GPT-4是一家獨大、遙遙領先，到了今年就變成了群雄并起、你追我趕的局面。所以感覺各家是在提速的。

從質量的角度來看，我覺得有三件事情可能給我的印象非常的深刻：

第一件事情就是GPT-4o的發布。

這是在多模态融合的領網域，再上了新的台階。在GPT-4o之前，有比如GPT-4v，是一個視覺的理解模型，有DALL·E、 Sora等視覺的生成模型。還有Whisper 和Voice Engine的聲音模型，原本這些孤立的模型，到了4o這裡都融合在了一起。

為什麼融合這件事情非常重要？因為我們的物理世界本身就是一個多模态的世界，所以多模态融合，一定是有助于我們更好地為我們的物理世界建模，去模拟世界的。

第二件事情，是特斯拉發布的FSD V12。

大家知道它是一個端到端的大模型，它把感知信号直接變成控制序列。而自駕這件事情我覺得它是非常有代表性的，它是從數字世界走向物理世界的真實的應用場景。

所以我覺得FSD V12它的成功意義不僅在于自駕本身，這套方法論可以認為是為将來的智能設備如何和大模型相結合，更好地去探索物理世界指明方向。

那第三件事情，就是上周OpenAI發布的o1。

我對它的理解就是，他第一次證明了語言模型其實也可以有人腦的慢思考系統 2的能力，而我們覺得系統2的能力它是歸納系數所必備的一個前提條件，是一個基礎的。所以我們一直認為 AGI 的遠近路線可以分為模拟世界、探索世界、最後歸納世界，而過去幾個月的時間，我們看到GPT-4o v、 FSDV12和o1分别在這三個階段或者三個方向上都取得了非常大的突破，而且更重要的是為将來的發展也指明了一個方向。

智駕是一個端到端的大模型，它把感知信号直接變成控區，而智駕這件事情我覺得它是非常有代表性的，是從數字世界走向物理世界的真實的應用場景。FSD V12它的成功意義不僅在于智駕本身。可以說，這套方法論是為将來的智能設備如何和大模型相結合，更好地去探索物理世界指明了一個方向。

第三件事情就是上周OpenAI發布的o1。我對他的理解是，它第一次證明了語言模型也可以有人腦的慢思考、系統 2 的能力，而我們覺得系統 2 的能力它是歸納式，必備的一個前提條件，是一個基礎的。

我們一直認為，AGI 的遠近路線可以分為：模拟世界-探索世界-歸納世界。過去幾個月的時間，我們看到GPT4O v、FSD V12和o1，分别在這三個階段、方向上都取得了非常大的突破，更重要的是，為将來的發展也指明了一個方向，所以我覺得無論是從數量還是質量來說，都是可圈可點。

△姜大昕

張鵬：感覺對于期待的領網域，其實我們都看到了廣泛的突破和進展。植麟，你的體感是怎麼樣呃？投身其中的人，可能會跟我們外邊看遊戲的人不一樣。

楊植麟：我覺得AI整體還是處于加速發展的階段，可以從兩個維度來看。

第一個維度是縱向的維度，AI的智商是一直在提升的。主要是看現在的反應方式，還有看文本模型能做到多好。

第二是橫向的發展。除了文本模型之外，像剛才張總提到的，有各種不同的模态，這些模态其實也在橫向發展，更多是說讓模型具備更多的技能，可以完成更多的任務。同時，跟縱向的智商的發展相結合。

在這兩個維度上，我覺得都看到了非常大的進展。比如說在縱向的維度上，它其實智商是一直在提升的，對吧？比如說生圖、數學競賽能力可能去年是完全不及格，到今年可能已經能做到 90 多分。

代碼，基本上也是一樣，能夠擊敗很多專業的編程選手。包括hins？也產生了很多新的應用機會，像現在比較流行的類似 cursor 的這樣的，通過自然語言直接去寫代碼，這樣的軟體也越來越多，我覺得這個其實是很多技術發展的結果。

如果去看很多具體的技術指标，比如語言模型能支持的上下文長度，去年這個時間點，大部分模型都只能支持 4 - 8 k 的 context sense，今天看你會發現 4 - 8 k 已經是非常非常低，現在 128 K 已經是标配。已經有很多可以支持1M，甚至是10m長文本的長度，這也是後面模型智商不斷提升的基礎。

最近的很多進展，它其實不光只是做scaling，scaling 還是會持續，很多進展其實來自于後訓練算法的優化、數據的優化。優化的周期會更短。周期更短，導致你整體的AI 的發展節奏也會進一步加快。我們最近在數學上看到的很多進展，也得益于技術的發展。

橫向上，當然也產生了很多新的這樣的突破，當然，視頻生成上的 Sora 可能是影響力最大的。最近有特别多新的產品的技術出來，可能現在你已經可以通過論文，直接生成基本上你看不出來是真是假的Podcast，一個雙人對話。

類似這樣的，這種不同模态之間的轉化、互動和生成其實會變得越來越成熟，所以我覺得AI整體是在加速的過程中的。

△楊植麟

張鵬：感覺這些技術，其實還在加速地去擴展它帶來的變化和創新。雖然，可能我們客觀上看好像沒有說再長出某個 Super APP，但如果我們抛掉 super APP 的視角，去看技術，反而能被看到它的真正的進展，這可能是更加理性客觀的視角。

朱軍老師，你會怎麼總結這 18 個月到底說 AGI 的技術，到底是經歷了什麼樣的發展？有什麼可以總結的進步的台階？

朱軍：其實AGI 裡，可能大家最關注的還是大模型。去年和今年都發生很多重要的變化了。整個進展，我是非常同意的，在加快。

我想補充一點，比如我在解析的問題，速度其實也在變快，就我們說它的 learning curve 在變得更抖，原來看語言模型的話，大概是從2018 年，植麟也算最早去做這個。到今年的話大概走了五六年的路。

從去年開始，上半年大家還是關注語言模型，下半年的話就開始讨論多模态，從多模态理解再到多模态生成。

再回頭看的話，覺得像影像或者視頻。視頻其實最明顯。從今年2月份（Sora發布），當時很多人是被震驚到了。對沒有公開的技術，怎麼去突破技術，有很多讨論。

事實上，我們整個行業大概用了半年的時間，已經做到了可以去用的，時空一致性的很好的產品效果，大概走了半年的路。

我覺得加速的最核心的原因在于，現在大家對技術路線的認知和準備上，其實達到了比較好的程度。

當然，我們還有物理的條件，比如說像雲基礎設施、計算資源的這種準備上，不像ChatGPT當時出的時候了，當時大家更多是不知所措，很多人可能沒準備好去接受，中間是又花了很長的時間去學習、去掌握。

當我們掌握了之後，再看現在技術的進展，再去做新的問題，其實速度是越來越快的。當然，不同的模型能力，輻射到實際用戶的角度來說，有一些快慢之分，也會分行業。

從廣泛的角度來說，大家可能沒感知到。單從技術來說，現在技術發展曲線是越來越陡峭的。要預測未來的話，就是包括像更高階的AGI發展，我是比較樂觀的，可能更比之前會以更快的速度來去實現。

△朱軍

張鵬：從三位的視角來看，如果外界有人說 AGI 怎麼發展變慢了，你們可能的簡單的一句話就是：你還想要怎樣？這18個月已經讓我們每個人都目不暇接了。說到這，其實最近剛剛出的o1的新模型，在專業人群裡也形成非常多的影響，現在還有很豐富的讨論。正好我們既然都在這個平台，三位都對這件事有自己的見解，我們就在這來讨論一下。

大昕，你怎麼看o1？很多人認為，這是AGI的發展階段的一個重要進步，我們怎麼理解這個階段？

姜大昕：确實我看到了一些非共識，就是有些人覺得意義很大，有些人覺得也不過如此。

我覺得大家如果去試用o1的話，可能第一印象是，推理确實非常的驚豔。我們試了很多的query，覺得推理确實上了一個很大台階。

它背後的意義，我能想到的有兩點，第一是，它第一次證明了其實說large language model，就是語言模型，是可以有人腦的慢思考、系統2的能力。

以前的GPT的範式，或者GPT的訓練，是叫predict next token（預測下一個）。只要這樣訓練，就注定了它一定只有system 1的啊。而 O1 它是用了強化學習的訓練框架，所以有系統2 的能力。

系統1的體現，就是它是直線型思維。就像我們看到GPT 4，它有的時候可以把復雜的問題拆解成很多步，然後分步地去解決，但它還是一個直線型。

系統2和系統1最大的區别，就在于系統2能夠去探索不同的路徑，他可以自我反思、糾錯，然後不斷地試錯，直到找到一個正确的途徑，這是系統 2 的特點。

所以這次的o1，是把以前的模仿學習和強化學習結合起來了，使得一個模型同時有了人腦系統1和系統2的能力，意義是非常大的。

第二，它帶來了scaling law（縮放定理）新的方向。

o1實際上想試圖回答的一個問題，是RL（強化學習）究竟怎麼泛化？因為強化學習，不是OpenAI第一個做的。

DeepMind一直走的就是強化學習路線，從AlphaGo到AlphaFold到Alpha Geometry，其實Google在強化學習上是非常厲害的。

但是以前的強化學習的場景都是為特定場景去設計，Alphago只能下圍棋，Alpha Fold只能去預測蛋白質的結構。

所以，這次o1的出現是在模型RL（強化學習）的通用性和泛化性上，上了一個大台階，而且它 scale 到了很大的規模。所以，我是把它看成scaling的新的帶來的一個技術的新的範式，我們不妨稱之為RL Scaling。

而且我們看到其實有意思的一點就是，o1并沒有到一個很成熟的階段，還是一個開端。但我覺得這恰恰是讓人覺得非常地興奮，這就等于OpenAI跟我們說：

诶，我找到了一條上限很高的道路。如果你仔細去思考它背後的方法的話，你會相信，這條路實際上是能夠走得下去。

所以，o1從能力上來講，我覺得它展示了LLM肯定有系統2的能力。從技術上來講，它帶來了一個新的 scaling 的範式，所以我覺得它的意義很大。

張鵬：聽起來的，你雖然說現在有非共識，但感覺你這是非常看好，很認同。朱軍老師怎麼看、怎麼評價o1帶來的階段進展？

朱軍：它代表着一種顯著的質變，因為我們也對AGI也大概做了一些分級，學術界、產業界都有L1到L5的區分：

L1相當于是聊天機器人，ChatGPT類的應用，之前大家都做了很多；

L2就是推理者，可以做復雜問題的深度思考、推理；

L3是智能體，回應剛才吳總講的，就是從數字世界走向物理世界，模型要去改變，要去互動；

L4是創新者，要去發現、創造一些新的東西、新的知識；

L5是組織者，可以去協同或者是有某種組織的方式，來更高效運轉。

這是大家對AGI L1 到 L5 的分級，每一級的也有相應narrow（專有能力）和 general （泛化能力）的區分。現在在某些 task （任務）上可能就展示出來了，比如o1在 L2 的 narrow 場景下，在一些特定任務下已經實現了，可以達到人類高階智能的水平。

從分級的角度來看，o1确實代表着整個行業的巨大進步。技術上，它實際上，是把過去我們在強化學習上做的很多東西，在大規模的基座模型上scale up，做出來了效果，這是工程上對行業產生的實際觸動。

當然，這也會觸發或者激發出未來的很多探索，研發大概會走向從 narrow 到 general 的躍遷。剛才講到速度，我相信變化可能會發生得很快，因為大家已經有很多準備了。我也期待，這個領網域将L2做得更好，甚至更高階的智能可以實現。

張鵬：感覺你對實際上AGI的L2層面，明确的路徑和階段性的成果，這個定義已經很高了，之前都在L1的層面。當然，要到吳總（吳泳銘）的期望的層面，擁抱、改變物理世界，其實最終還要往前走，到了 L3，可能這件事就真的會完整的系統性的發生。

再回到植麟這邊，這次發布o1後， Sam Altman也熱情洋溢地說：我們認為這是一次新的範式的革命。當然，Sam就很會演講，也很會表達。你怎麼看？我們怎麼理解他說的話，你是否認同這是一次範式變革？

楊植麟：o1确實意義很大，主要的意義在于提升了AI 的上限。AI到底是可以提升5%、10%的生產力，還是說這是10倍的GDP提升？最重要的問題就是：你能不能通過強化學習去進一步的scaling，所以我覺得o1是完全提升AI上限的東西。

如果我們回看AI歷史上七八十年的發展，唯一有效定理的就是scaling，唯一有效的就是去加更多的算力。但是，o1提出來之前，很多人在研究強化學習，但是可能都沒有非常确切的答案。如果強化學習跟大語言模型的pre- training（預訓練）、 post-training（後訓練）這些東西整合，能不能持續地提升模型能力？

GPT 4這一代模型的提升，更多的是确定性的提升，在一樣的範式下，讓規模變得更大，肯定會有确定性的提升，但o1的提升并不是完全确定性的提升。

之前可能大家會擔心，現在互聯網上大部分的優質數據都已經被使用完了。你就算繼續使用這個數據，也沒有更多的數據可以挖掘，所以你原來的範式可能會遇到問題。但是要讓 AI 有效，你又要需要進一步的scaling，那你 scaling 從那裡來？

所以o1其實很大程度上是解決了這個問題，或者說至少是證明了初步可行。初步可行的情況下，可能我們會有越來越多的人可以去投入去做這個事情，最終要做到十倍GDP的效果是有可能的，這是很重要的開端。

當然，我覺得這種變化将會對很多產業格局產生影響，特别是對創業公司的新機會來說也會帶來一些變動。

比如，其中一個關鍵點在于訓練和推理過程中算力占比的變化。這個變化并不是說訓練算力會下降，實際上，訓練算力可能還會持續提升。

與此同時，推理算力的提升速度可能會更快。這種比例的變化，本質上會帶來很多新的機會，尤其是創業公司可能在其中發現全新的發展方向與機會。

如果一家公司達到了某個算力門檻，它其實可以在此基礎上進行很多算法的創新，甚至可以在基礎模型上取得顯著進展，所以我認為這非常重要。

對于那些算力相對較少的公司，它們也可以通過post-training的方式，在特定領網域内實現最優效果，這也會促使更多產品和技術解決方案的出現。

整體上，這為創業公司帶來了更多的想象空間，至少在創業相關的領網域中，機會與潛力被大大拓展了。

張鵬：這次所謂的範式變化，核心在于解決了scaling law中，我們接下來要scaling什麼的問題，擴展什麼樣的東西。

我們看到了一個全新的路徑，剛才你也提到，未來可擴展的創新路徑變得更多，可探索的方向也變多了，而不是原來那種收縮的，甚至遇到阻礙的狀态。

當然，我覺得今天看起來三位對GPT-o1帶來的這次變化都非常興奮，但這也是大家現在比較關心的問題。畢竟今年的變化還主要集中在一些比較明确的場景上。

我想請教朱軍老師，當我們将強化學習引入這個體系，成為一個新的範式之後，我們是否能看到能力的明顯泛化？今天你會發現，它在局部的能力表現非常出色，提升也很顯著。但如果要實現泛化，這條路徑和确定性是否已經明确？

朱軍：這個問題确實值得深入思考。現在的技術往往是在特定任務上取得突破後，我們再考慮如何将其擴展到更廣泛的任務和能力上。

從強化學習的角度來說，比如交通領網域的AI實現路線，雖然它還沒有完全解決高度泛化的問題，但從科研的積累和解讀上，我們可以看到它可能涉及的技術路徑。

相比之下，像ChatGPT這樣開放性較強的系統，當前的一些應用顯然沒有那麼開放。

在強化學習中，一個很重要的問題是過程監督數據的獲取。它與結果導向的監督（如ARPU）有所不同。你需要對每個思考過程的步驟進行标注，這樣的數據獲取難度較大，因為它需要專業人員提供高價值的标注數據。

此外，在跨領網域遷移時，比如自動駕駛或其他更開放的場景中，reward model的定義就變得更加復雜了。對于定理證明或編程等有明确答案的任務，獎勵是比較清晰的，獎勵函數也明确。

但是在更開放的應用中，比如自動駕駛、虛拟替身、甚至技術創作中的生成視頻和語言内容，界定"好"與"壞"的标準就變得模糊，評價标準因人而異。

在這種情況下，技術面臨很多挑戰，例如如何定義獎勵模型、如何收集數據，以及如何高效地實現scaling。不過，大家已經看到了這條路的曙光，未來的探索方向也逐漸明晰。

結合當前更強大的基礎設施，我們可能會比之前更快實現跨領網域遷移的效果。與上一個時代相比，比如Alphago遷移到其他領網域，如今我們擁有更好的模拟器和一些AGI生成方法來構建環境，這些技術加持會加速進展，效果提升将更容易實現。

從我的角度來看，目前還沒有一個公開的、明确的泛化路徑，但可以确定的是，探索的空間和潛力是巨大的。

張鵬：這個問題我真的想再追問一下植麟就是看起來是這樣的一個狀态，我估計你可能也是這個理解，當然你也可以表達一下個人的看法。

但我其實想問的是說這個狀态，比如像你這樣的創業公司是好事，是壞事，那你看到那個東西時候，你會影射到自己未來要做的手術會是什麼心理狀态？你會怎麼分析這個環境？

楊植麟：我覺得這其實是個很好的機會，因為有一個新的技術變量，是一個新的技術維度。然後或多或少我們之前也有一些投入，但是可能現在會變成一個組織，然後在這個組織下面，我覺得我們有非常多的新的機會。一方面是，剛剛朱老師提到的怎麼去泛化的問題，然後另一方面就是可能就說在這過程中可能還有一些基礎的技術問題可能不完全解決。

就是因為可能它核心像底層涉及到訓練跟推理，可能兩個東西要同時去 scaling。

但這裡面可能很多性質，我覺得今天也許也沒有被完全探索清楚，然後包括剛剛提到的過程監督的這些問題，可能中間的一些幻覺也會給它的效果帶來很大的傷害，所以這些問題我覺得都很值得研究。

但如果能夠做好的話，那其實是可以把現在的很多能力去上一個台階，所以我覺得還是像我剛剛說的，就是對我們來講可能會有更多通過這種基礎創新，然後能夠去提前一些突破的機會.

張鵬：有不确定其實是好事，對吧？有确定的方向，有不确定的路徑，對創業公司反而是好事，否則就沒有創業公司的事了。

那我再回到大昕這邊，其實剛才植麟也提到了一點，我覺得這是個很有意思的問題。

過去我們常常提到"算法、算力和數據"這三個要素，作為讨論AGI時的關鍵三角形。

這次看起來，在算法層面已經出現了一些範式的變化。相應的，算力和數據這兩個要素，在這個三角形中會產生怎樣的連鎖反應？能不能幫我們推理一下？

姜大昕：對，我認為算法、算力和數據三者的連鎖關系依然存在，RL的确帶來了算法層面的變化。至于這種變化對算力的影響，我認為有兩點：一是确定的，另一點則不太确定。

首先，确定的是，正如剛才兩位所提到的，在推理側的計算需求将會成倍增長。這就是OpenAI在其博客中提到的"inference-time scaling"。

與此同時，對推理芯片性能的要求也會顯著提高。可以想象，OpenAI在GPT-o1背後可能使用了H100芯片，每次處理一個問題往往需要消耗十幾秒甚至幾十秒。如果我們要加快推理速度，對芯片的性能要求必然會進一步提升。

接下來，大概率會确定的點是，在RL（強化學習）訓練階段，所需的算力不會比當前少。這種對于算力的非線性需求仍将持續上升。

為什麼這麼說呢？

因為在RL階段，尤其是進行self-play（自我博弈）時，數據量是可以無上限生成的。就像剛才提到的，self-play數據量理論上是可以無限擴展的。OpenAI在訓練草莓模型時，使用了上萬張H100顯卡，持續訓練了幾個月時間。而目前GPT-o1還處于預覽階段，訓練尚未完成，所以訓練的代價是非常高的。

所以我覺得如果我們追求的是一個通用的、有泛化能力的推理模型，而不是為某個特定場景所設計的一個的模型的話，那麼它可能訓練所需要的計算量并不小。

那還有一個就是我不太确定的，就是在self play的時候，我們用的主模型它的參數量要不要再繼續scale（擴大規模），讓它產生更好的推理路徑？

因為現在有一個大家有個普遍的觀點，就是說GPT-4到了萬億參數以後，你再去 scale它的參數，那麼它的收益的邊際是在下降。

但如果這個方法它產生一個放大器的作用，它能夠加倍你的收益的話，那麼是不是總的收益 ROI 又打正？所以這是一個不太确定的事情，可以留待後續驗證。

面去驗證，如果這個結論成立的話，算力的需求增長可能會回到平方增長的軌道，計算量等于參數量乘以數據量。所以，我的感覺是，RL帶來的無論是推理側還是訓練側，對算力的需求都在增長。

至于數據方面，在RL階段我們主要依賴兩類數據：一是少量的人工合成數據，二是大量通過self-play生成的機器數據。雖然數據量可以很大，但數據質量至關重要。

因此，如何設計生成數據的算法，以及主模型在self-play過程中的能力将變得非常關鍵。

張鵬：我覺得剛才大家對于GPT-o1帶來的範式的一些變化做了很好的拆解，但我覺得今天三位，也都是創業者，也都在做自己的對應的公司，有自己的團隊要往前去發展，其實我們不妨再推理一下。

我想問朱軍老師，最近的一些技術進展，會對未來的產品或者說一些技術最終落到產業裡有什麼明确的推動？有沒有階段性的一些總結和觀察？

朱軍：我覺得現在是這樣，大模型或者叫我們叫大規模預訓練這種技術，它還是代表着整個範式的變化，因為它的不光是語言到多模态再到空間智能，其實重點是說我怎麼去讓智能體能夠有互動，能夠在這個過程中去學習。

我想問問植麟， Kimi是在今年引發了大家很多關注的產品，發展得也很好，你覺得這一波的AI新變化，接下來會對相關產品會帶來什麼樣的連鎖反應？

能不能也幫我們推理一下？你會看到他的時候腦子裡會怎麼想？這個變化會如何發生？

楊植麟：這是個很好的問題。我覺得我們現在其實還是處于產業發展的早期階段。在早期階段，有一個特點是技術驅動產品的比例會更高。

所以很多時候，產品的開發其實是在觀察當前技術的發展，然後盡量把它的價值最大化。我們可以根據新的技術進展，反推我們的產品應該做出哪些調整。現在的技術發展有幾個關鍵點。

首先，我認為這裡有很多探索新PMF的機會。

因為需要進行系統二的思考，這導致了延遲的增加，而這種延遲對用戶來說是一個負面的體驗，所有用戶都希望能盡快拿到結果。

第二點是，這種新技術确實能提供更好的輸出，帶來更優質的結果，甚至可以完成一些更復雜的任務。

所以，探索新PMF其實是在"用戶體驗因延遲下降"和"最終結果質量上升"之間，尋找一個平衡點。

你要确保增量價值大于體驗的損失，這是非常重要的。我覺得，高價值的產品可能會率先出現一些突破。因為如果你是一個娛樂場景，很可能用戶無法容忍延遲的增加，所以這是一點非常重要的考量。

接下來，我覺得產品形态也會發生變化。

因為系統二的思考方式導致了現在這種同步、即時的聊天型產品形态可能會有所改變。

未來的 AI 可能不再僅僅是思考 20 秒或 40 秒，它可能需要幾分鍾，甚至更長的時間去調用各種工具、執行任務。

因此，產品形态可能會更接近人類，真正成為一個assistant（助手）的概念，幫助你完成復雜的任務。在這個過程中，產品形态的設計也會發生很大的變化。所以我覺得這裡有很大的想象空間。

張鵬：其實我們剛才聊到了GPT-o1帶來的變化，我們也看到在AGI裡也有一些其他的變化，比如像李飛飛的空間智能，包括自動駕駛、機器人等等具身智能方面的變化。我想問朱軍老師，最近的一些技術進展，會對未來的產品或者說一些技術最終落到產業裡有什麼明确的推動？有沒有階段性的一些總結和觀察？

朱軍：我覺得現在是這樣，大模型或者叫我們叫大規模預訓練這種技術，它還是代表着整個範式的變化，因為它的不光是語言到多模态再到空間智能，其實重點是說我怎麼去讓智能體能夠有互動，能夠在這個過程中去學習。

從智能的角度來看，從包括從 AGI 發展上來看，它是必然的，因為決策互動實際是智能裡面非常核心能力的體現，我們其實每時每刻都在做這決策，對吧？

我們面對的是一個未知的開放環境，所以對于智能來說的話，它的發展的路徑上就在整個的規劃裡面，大家也是朝這個方向在走。

現在所有這些進展，包括剛才讨論很多的GPT-o1，也包括視頻生成、3D生成，其實大家都是最後要指向的有兩個方向：

一個是給消費者的數字内容，也就是說它看上去很好看、很自然，然後能夠講故事，讓大家甚至能夠去互動。

另外一個方向指向實體，指向物理世界，也就是生產力的提升。這其中現在可能最好的一個結合點就是和機器人。我們也看到很好的進展，比如像預訓練的範式能夠讓機器人的能力具有通用性。

比如我們自己實驗室也做過，像四足機器人，過去機器人在不同場地跑起來，都需要用很多的人工去調參。

但現在其實用AI生成一些合成數據去大規模的訓練，訓練出來的策略可以裝灌到機器人上，相當于換了一副大腦，就可以讓它的四肢能夠去更好地卸東西。它可以用同樣一套策略來去做各種場地的适應。

就像剛才講到智能體是AGI的L3，現在L1、L2有進展之後，後面肯定會提升到L3裡面，讓機器人更好地去做推理規劃，然後更好地、更高效地和環境做互動，然後更好地完成復雜任務。

現在很多時候任務相對來說還是分散的，需要簡化定義。未來可能很快我們會看到機器人可以接受復雜的指令，通過它内嵌的思維鏈、或者過程學習的方式，能夠完成復雜任務，到那時候機器人的能力又有很巨大的提升。

張鵬：作為創業公司，肯定也在面臨着今天的現實的產業的環境。我想問問大昕，在過去18個月，包括這次的o1，會對你的心态有什麼影響和改變嗎？未來作為創業公司，是有了更大的創新空間嗎，怎麼看未來技術創業的走向？

姜大昕：從兩個角度看，一個是創新的點，我覺得RL出來确實和前面GPT的範式不太一樣。GPT是predict next token，從2018年GPT-1出來一直到GPT-4，除了加了一個MoE（混合專家模型）以外，其實沒有什麼太多的很新的東西在裡邊。

我覺得o1還是初始階段。剛才兩位也談到強化學習究竟怎麼和大模型相結合，能夠做到泛化，這件事情我覺得有非常多的問題值得去探索。

剛才植麟也談到，包括我們在做搜索路徑的時候，需不需要人工幹預去幫它找到更好的路徑等等，包括self play的題目從哪裡來，答案怎麼去找，這些都是新的、未知的領網域。我相信在未來的這一段時間裡，肯定會有很多加速的技術發展。對我們創業公司來說，在創新上肯定是有很多的機會。

但另一方面，我覺得要面對算力的挑戰。

在推理側也好、在訓練側也好，它所需要的算力還是不小，尤其是當我們需要去追求通用性的、能夠泛化的推理模型的時候。我們内部經常調侃，"講卡傷感情，沒卡沒感情"，我們後面又加了一句，叫"用卡費感情"。

但如果我們追求的目标就是AGI的話，那你付出再多還是要堅持下去。因為如果按照Scaling Law繼續往下走，其實能玩的玩家就會變得越來越少，因為要匹配的資源太多了。

張鵬：現在你覺得資源的門檻有降低嗎？還是說要繼續拼算力上的資源？你怎麼去整合這麼多的集團資源？工程上要做得更好，是核心點嗎？

姜大昕：要抽成兩種不同的創新。一種是基礎模型就是奔着AGI去的，我就是要做通用的泛化性能高的，那投入是很大。而且我們看到國外的巨頭不約而同都是一年幾十億美金、上千億美金這樣的規劃。

但是另外一方面，我覺得還有大量的創新的空間實際上是去做應用。

今天所展現出來的智能，後來再加上智能體Agent的框架，已經能夠解決我們其實很多的問題了，就像朱軍老師說兩類問題——數字系列、物理系列的問題——我們都可以再往前走。今年o1出來以後，把強化學習又泛化到了更高的階段，像植麟說的，它的上限變得更高了，所以我覺得這裡面還有大量的機會。

張鵬：植麟，現在也在做C端的產品，我最近其實聽到很多投資人都在看DAU、留存等指标，再評估要不要投一個公司。假定你今天不是創業者，假定你是個有技術背景、對AI很了解的投資人，你在今天會看創業者的什麼數據，來做投資決策？

楊植麟：首先，像DAU和你剛說的這些數據，我覺得肯定是要抓的指标。我覺得可能抽成幾個層面：

第一個層面，一個產品首先要有價值，或者滿足了用戶的真實需求，這是本質，可能跟AI沒有太大的關系，所以可能又有更多的前置指标，比如留存。

第二個點是跟AI更相關的，就是說不光要有價值，也要有增量的價值，這個增量價值可能相較于市面上已有的AI產品，或者說是更通用的。我覺得接下來肯定會有通用的AI 產品，這也是我們正在做的事情。

但在通用產品之外，比如ChatGPT之外，其實可能還會有大量的機會。這些 AI 產品機會，要相比于通用產品產生增量價值，產生你在ChatGPT裡面做不了的事情，或者說做起來體驗很差的事情。

一般你的增量價值會產生在幾個方面：一方面，有可能互動方式是完全不一樣，或者是不同的入口，背後對應了不同的資源。通過這種方式去產生增量價值，我覺得會很重要的一個事情。

然後第三個維度，我覺得是不光有價值，而且要随着技術的發展，市場規模應該越來越大，而不是越來越小。比如說如果你是專門研究prompt engineering，那你可能現在會有一個風險：也許接下來的需求會越來越少。

但是，如果是說目前已經能產生一定的PMF的產品，但還沒有泛化到一個很主流的群體，有可能是因為你的技術不夠強。那這時候再搭配上第二點，也就是說你有增量價值、市場又越來越大的話，那它可能就是一個好的AI機會。

總結就是：數據是要看，但是在看數據之前先看產品存在的邏輯。如果它是成立的，數據又能證明，可能這就是一個值得投的公司。

張鵬：在下一個18個月裡，你們期待看到什麼樣的進展？

朱軍：因為現在整個AI技術處于加速狀态，我們的預測通常會過于保守。

如果回到你的問題，我預想未來18個月可能比較令人興奮的一個進展，我希望看到AGI的L3已經基本上實現至少在智能體，比如我們說的世界模型的創建生成、虛實融合，至少在一些特定場景下的決策能力的巨大的提升。其實它會利用我們今天講到的推理、感知等等。在特定場景裡，已經不是"Copilot"，而是"Auto Pilot"。

與此同時，因為我前一段時間領了一個任務，對L4做專門的分析：到底我們缺什麼？其實最後調研或者是分析下來，你會發現如果我們要做科學發現或者做創新，它需要的那些能力，可能目前是散落在各個角落裡面，當然現在可能還缺一個系統怎麼把這些東西集成在一起，給它做work。

所以我覺得如果更激進一點，我甚至覺得未來18個月可能在L4上也會有顯著的進展。

當然這裡面我講的是嚴肅的科學發現，其實L4還有一些創意的表達，目前我們在某種意義上已經達到了，比如說藝術創造、圖生視頻，一定程度上它已經幫大家放大你的想象，或者讓你的想象可以具象化。

所以，我還是比較樂觀的，至少L3，或者未來的L4有一些苗子了。

張鵬：到今年年底前，你們自己有什麼進展，能提前透露嗎？

朱軍：到今年年底，我肯定是希望将我們本來做的視頻模型能夠以更加高效、更可控的方式提供給大家。

可控，比如你想表達一個故事，不是簡單地将一段話或者一個圖片給它動起來，我們是希望你可以連續地講，而且它不光是人的一致性，還包括物體等各種主題的一致性，還包括互動性；

高效，它一方面解決對算力成本的考量，因為你如果想要服務很多人，讓大家用的話，首先你成本要降下來，不然這個本身就是燒錢，一直賠錢。

另外更重要的，還是從體驗上。就使用者來說，因為他想表達自己的創意，他可能需要多次和系統來互動，一方面是驗證，另外一方面是啟發，所以這個過程也需要你的模型系統能夠比較高效，比如說終極目标達到實時，能夠讓大家快速嘗試。

等到這個階段，我相信大家的用戶體驗，包括用戶量都會有一個巨大的提升，這是我們今年想重點突破的。當然長遠的話，可能明年18個月會走向實體的虛實融合的場景了。

張鵬：3個月的目标和18個月的，對未來的期待都是很明确的。植麟呢？我覺得這是挺好的概念，你既可以說說18個月，也可以講未來3個月會有什麼進展。

楊植麟：我覺得接下來最重要的milestone（裡程碑）可能是開放性的強化學習。你可能真的能在產品上跟用戶去互動，在一個真實的環境裡面去完成任務，然後自己去計劃。當然我覺得o1其實已經一定程度上說明，這個方向有比之前更強的确定性，我覺得這會是一個重要的裡程碑，可能也是AGI路上現在僅剩唯一的重要問題。

張鵬：所以關鍵問題是，期待未來18個月要有新的突破和進展？

楊植麟：對，應該是能看到很多進展。在AI領網域，18個月其實很長。

張鵬：對，18個月已經是很長了，如果看過去18個月走的路。那你未來三個月裡，會有什麼可以透露？

楊植麟：我們還是希望能在產品的技術上持續的創新，至少在一兩個重要領網域能夠做到世界最好，但是這個有新的進展會盡快跟大家分享。

張鵬：看似沒透露，但是實際上我覺得後頭應該會看到他的進展。大昕呢？你怎麼看18個月和未來三個月的進展？

姜大昕：第一我也很期待強化學習能夠進一步泛化。另外一個方向，其實我也很期待，應該說期待了很久，就是在視覺領網域的理解和生成一體化。

在文字領網域，GPT已經做到了理解生成一體化，但是在視覺領網域這個問題非常難，所以在目前為止，我們看到的視覺理解和生成這兩個模型是分開的，即使像剛才說多模融合GPT-4o，大家仔細去看，它其他模态都解決了，唯獨不能生成視頻，所以這是一個懸而未決的問題。

它為什麼很重要呢？如果我們解決了視頻理解生成一體化，那麼我們就可以徹底地建立一個多模的世界模型。有一個多模的世界模型以後，可以幫助我們真正地去產生非常長的視頻，也就是解決Sora目前的技術缺陷。

還有就是，它可以和具身智能相結合，它可以作為機器人的大腦去幫助智能體更好地去探索物理世界，所以我也是非常期待的。

張鵬：年底之前，你這邊會有什麼我們值得期待的進展嗎？

姜大昕：我也是期待一方面模型或者技術的進步，另外是產品能夠帶給我們的用戶更多的、更好的體驗。

階躍有一款產品叫做躍問，跳躍的躍，問答的問，那麼在上面的用戶是可以體驗我們最新的萬億參數的MoE模型。它不光是理科很強，而且文學創作能力也很強，經常給大家帶來一些驚喜。躍問上還有一個新的功能叫"拍照問"，我們看到用戶經常拍張照片去問食物的卡路裡，去問寵物的心情，去問一個文物的前世今生。

包括Meta眼鏡的發布，還有Apple Intelligence今年都突出了視覺互動的功能，所以我們在躍問上也有體現，而且我們會努力一步一步把這個功能做得越來越好。

張鵬：今天我們已經其實略微超時了，但是其實我感覺我們讨論剛剛開始，還有很多值得持續去深入的。

當然可能要在未來不斷的 AI 的前進的過程之中，我們再把這種讨論繼續下去。可能反過來我們至少能看到的是 AI、AGI的發展還在提速，這些技術還是讓人充滿了期待。

感謝今天幾位的分享，也謝謝大家的聆聽，謝謝。

封面來源｜阿裡雲

歡迎關注