人類離AGI時代，又近了18個月

今天小編分享的科技經驗：人類離AGI時代，又近了18個月，歡迎閱讀。

行業内認為AGI發展加速，o1模型表現突出。

ChatGPT問世18個月之後，行業開始叩問未來——"AGI時代"何時到來？

9月19日，雲栖大會"通往AGI的大模型發展之路"圓桌對話現場，階躍星辰創始人、CEO 姜大昕、月之暗面創始人楊植麟、清華大學人工智能研究院副院長、生數科技首席科學家朱軍以及極客公園創始人張鵬，以從業者和親歷者身份，回顧了過去18個月行業的發展，都提到"AGI加速非常快"。

在姜大昕看來，AGI的演進路線分為"模拟世界" "探索世界" "歸納世界"，對應的產業化應用包括GPT-4o、FSD v12和OpenAI o1，"（它們）在這三個方向上都取得了非常大的突破。"

楊植麟對AGI加速的理解來自兩個層面，"智商一直在提升" 、"多模态橫向發展"。

而朱軍不僅認為AGI的進程在加快，在他看來，AGI的加速表現，也包括解析問題的速度變快，這些得益于從業者對多模态的認知更成熟，以及為算力、基礎設施資源準備更充分。

AGI進程加快，離不開開拓者OpenAI的牽引。OpenAI在9月12日發布了新模型o1，Sam Altam說這是"新的範式變革的發生"，行業則認為這是AGI發展的關鍵一步。

站在從業者視角，o1模型推理能力在具體場景下具備了出色的能力，更重要的是它在數據"枯竭"的背景下，探索了一套"強化學習如何泛化"的方法論，姜大昕說"它帶來了Scaling Law新的方向"，楊植麟說"（強化學習）很大程度上解決了AI進一步Scaling、數據從哪裡來的問題。"

過去18個月，AGI加速越來越快

"過去的18個月，AGI的加速是非常快的"，階躍星辰創始人、CEO 姜大昕說。

回看過去的一年，從OpenAI的GPT-4一家獨大、遙遙領先，到今年開始除了OpenAI o1之外，Anthropic也推出了Claude 3.5、Google則發布Gemma，以及XAI的Grok 2、Meta的Llama 3先後亮相，大模型出現了群雄并起，你追我趕的趨勢。

在這種背景下，大模型的能力和質量也在多線程提升，GPT-4o的多模融合上了一個新台階，包括影像、視覺、音頻等獨立的模型融合到一個模型當中，"多模融合一定是有助于我們更好的去為我們的物理世界建模。" 姜大昕說。

姜大昕把AGI的演進路線總結為"模拟世界" "探索世界" "歸納世界"，"過去幾個月的時間，我們看到GPT-4o、FSD v12和OpenAI o1分别在這三個方向上都取得了非常大的突破。"

對于過去的18個月的總結，月之暗面Kimi創始人楊植麟答案是"智商一直在提升" "多模态橫向發展"。

楊植麟說："智商一直在提升，如果看競賽數學能力，可能去年是完全不及格，今年已經能做到90多分" "橫向上也產生了很多新的突破，最近有特别多新的產品和技術出來，你可以通過一個論文直接生成基本上看不出來是真是假的雙人對話，類似這種不同模态之間的轉化、互動和生成是會越來越成熟。"

"大模型今年發生了很多重要變化，我也同意AGI的進程在加快"，清華大學人工智能研究院副院長、生數科技首席科學家朱軍說。

在朱軍看來，AGI的加速表現也包括解析問題的速度變快，"大家對這種（多模态）路線的認知和準備達到了比較好的程度，還有物理的條件，比如說像雲的設施，計算的資源準備，當我們掌握了這些之後，再去做解決的問題，速度是越來越快的。"

OpenAI o1的意義：強化學習

OpenAI新發布的o1模型，将大模型的推理能力拉到了理科博士的水平。

"它第一次證明了語言模型可以有人腦慢思考的能力，它可以自我反思、糾錯，直到找到正确解決問題的途徑"，"它還帶來了Scaling Law新的方向，o1試圖回答強化學習如何泛化。"姜大昕說。

目前在學術界，針對AGI按照能力等級将其劃分為L1、L2、L3、L4、L5，其中L1代指聊天機器人、L2則具備深度思考推理能力、L3是數字世界走向物理世界的智能體、L4需要具備發現、創造新知識的能力、L5代表組織者，AI已經具備組織協同能力。

"（OpenAI o1）代表着顯著的質變"，朱軍說，"o1在L2級别的特定任務下，可以達到人類很高階的智能水平，确實代表着整個行業的進步。"

對于新的o1模型，外界評論頗為正向，那麼内部視角又是如何？Sam Altman将其定義為"新的範式變革的發生"。

"我覺得它的意義很大，它提升了AI的上限，關鍵就是能不能通過強化學習進一步Scaling"，楊植麟說，"如果我們看AI歷史上70-80年的發展，唯一有效的就是Scaling，唯一有效的就是加更多的算力。"

在楊植麟看來，過去GPT-4模型能力是一種确定性的提升，o1則不是确定性的提升。

"之前大家可能擔心說互聯網上大部分優質數據都被使用完了，也沒有更多數據可以挖掘。原來的範式可能會遇到問題，AI要進一步Scaling，數據從哪裡來？（強化學習）很大程度上解決了這個問題，或者至少證明了它初步可行" "這樣就會越來越多的人投入做這件事情。最終去做到10倍于GPT的效果，完全有可能。"

創業、投資與下一個18個月

朱嘯虎在"中國現實主義AIGC故事"中說，"我信仰AGI、信仰應用，信仰能馬上商業化的。"

什麼量級數據的產品才能商業化，當創業者轉變為投資人，會如何看現在AI項目的數據指标，又是什麼樣的項目值得被投？

楊植麟的答案是"產品本身價值" "產品增量價值"以及"足夠大的市場規模"。

"DAU和留存率肯定是最重要的指标，但作為一個產品，首先是要有價值，這個本質可能跟AI沒有太大關系" "ChatGPT之外還會有大量的機會，相比于它要產生增量價值，能做在ChatGPT裡面做不了的事情" "要随着技術的發展，這個市場規模越來越大，不是越來越小"，楊植麟說。

過去的18個月，從ChatGPT，到今天o1，不管是應用還是模型，能力項都在不斷地拓寬和提升，從業者也基本形成了AGI加速的共識，那麼未來的18個月，通用人工智能會走到哪一步？

朱軍說，"我們要做（L4級）科學發現和創新，需要的能力目前散落在各個角落，還缺一個系統把這些東西集成在一起。如果激進一點，未來18個月在L4上也會有顯著的進展。"

楊植麟則把自己的目标和OpenAI進行了對齊，繼續在強化學習這條路上探索Scaling。

"接下來最重要的裡程碑，是開放性的強化學習，o1可能一定程度上說明這個方向有比之前更強的确定性，這會是一個重要的裡程碑，也是AGI路上現在僅剩唯一一個重要的問題了。"

姜大昕和楊植麟在強化學習上也有共識，不過他還有另外一個期待——"視頻理解生成一體化"。"這樣就可以徹底建立一個多模的世界模型，可以幫助我們真正的產生非常長的視頻，也就是解決Sora目前的技術缺陷。還有，它可以作為機器人的大腦，幫助智能體更好探索物理世界。"

以下為對話實錄（在不改變原意的情況下，有删減調整）

張鵬：大家早上好，我是極客公園的張鵬。今天非常榮幸，也非常開心，能有這樣的機會來到雲栖大會，同時也能夠和幾位在國内大模型領網域的探索者，一起探讨模型技術的進展。

剛才在吳總的演講中，我相信很多人都感受到了他對大模型和這一波AGI發展的強烈信心，甚至明确指出，這不僅僅是移動互聯網的延展，可能是一場對物理世界的全新變革。當然，我覺得我們這個環節可能需要對他的結論進行思維鏈的解構，第一步就是要看看模型技術的進展如何。在過去的18個月裡，和未來的18個月裡，有哪些總結和展望？

我們先從對過去的看法開始。ChatGPT的發布引發了全球對AGI的理解，至今也差不多18個月了。不知道各位對此有何感受？模型的發展是在加速，還是在減速？我們都在觀察你們這些"打遊戲的人"，今天請到"打遊戲的人"現場分享。我們請姜大昕來分享一下，你怎麼看AGI的發展，是加速還是減速？

姜大昕：我覺得過去18個月的發展是在加速的，速度非常快。

回顧過去18個月發生AI事件時，可以從兩個維度來看：一個是數量，一個是質量。從數量上看，幾乎每個月都會有新的模型、新的產品和應用湧現。單從模型來看，OpenAI在2月份發布了Sora，5月份推出了GPT-4o，上周又發布了o1。過去一年，我們感覺GPT-4獨領風騷，遙遙領先，而到了今年，局面變成了"群雄并起"，你追我趕，所以總體上感覺大家都在提速。

有三件事情給我留下了深刻印象。第一件事情是GPT-4o的發布，它在多模融合領網域達到了一個新的台階。在GPT-4o之前，有GPT-4v，它是視覺理解模型，視覺生成模型，還有聲音模型。這些原本孤立的模型，到了GPT-4o這裡，都融合到了一起。為什麼這種融合非常重要？因為我們的物理世界本身就是多模态的，融合有助于更好地為物理世界建模，模拟這個世界。

第二件事情是特斯拉發布的FSD V12，大家知道它是一個端到端的大模型，可以把感知信号直接轉化為控制序列。智能駕駛這個領網域非常具有代表性，它是真實應用場景從數字世界走向物理世界的範例。因此，我認為FSD V12的成功不僅在于智能駕駛本身，它的方法論為未來智能設備與大模型結合、探索物理世界指明了方向。

第三件事是o1的發布，它第一次證明了語言模型可以具備"人腦的慢思考"能力，也就是所謂的系統2的能力。系統2能力是理解和歸納世界的基礎條件。

我們一直認為AGI的演進路徑可以分為模拟世界、探索世界，最後是歸納世界。而過去幾個月裡，GPT-4o、FSD V12和o1分别在這三個階段和方向上都取得了很大的突破，也為未來的發展指明了方向。因此，不論從數量還是質量來看，這些進展都非常值得關注。

張鵬：楊植麟，你的感受怎麼樣？你是投身其中的人，和我們這些"看遊戲"的人一定有所不同。

楊植麟：整體來看，确實是處于加速發展的階段，核心可以從兩個維度看AI的發展。

第一個維度是縱向維度，即智商的不斷提升。現在主要是文本模型，能力提升明顯。比如說去年模型的數學競賽成績可能完全不及格，而今年已經能拿到90多分。代碼能力方面，模型已經能夠擊敗許多專業的編程選手。

另一個維度是橫向發展，除了文本模型之外，其他不同的模态也在發展，這些模态的橫向擴展使模型具備了更多的技能，能夠完成更多任務。

再來看具體的技術指标，比如語言模型支持的上下文長度，去年這個時間點，許多模型只能支持4到8K，但現在128K已經成為标配。智商的提升和許多優化手段相結合，讓AI的發展進一步加速。

橫向上，視頻生成等新突破不斷湧現，比如Sora，它的影響力非常大，完成了視頻生成。最近還有很多新的產品和技術湧現，甚至可以通過一篇論文生成看似真實的雙人對話等。模态之間的轉化、互動和生成變得越來越成熟，整體是在加速過程中。

張鵬：這些技術确實在擴展它們帶來的變化和創新。雖然我們還沒有看到某個具體的超級應用崛起，但從技術上看，進展非常明顯。朱軍老師，你怎麼總結過去18個月AGI技術的經歷？有哪些可總結的進步台階？

朱軍：在AGI的領網域，最關注的還是大模型。今年大模型發生了很多重要的變化，我非常同意剛才提到的技術進展在加快。我想補充一點，解析問題的速度也在加快。

回顧一下語言模型的歷程，從2018年楊植麟他們開始做，到今年已經走了五六年的路。去年上半年主要關注語言模型，下半年開始讨論多模态，從多模态的理解到多模态的生成，尤其是視頻生成技術的發展最為明顯。

今年2月份，很多人被技術的快速發展震驚了，甚至開始質疑技術是否完全公開，技術突破是如何實現的，讨論非常多。但事實上，這個行業在用了大約半年的時間後，已經做到了将這些技術投入實際應用，而且效果非常好，尤其是在時空一致性上的表現非常突出。

這次加速的核心原因在于，大家對技術路線的認知和準備達到了比較好的程度。物理條件的成熟也起到了重要作用，比如雲設施和計算資源的準備。

與當初ChatGPT推出時相比，當時很多人并沒有做好接受這項技術的準備，導致很多時間花在了學習和掌握上。當大家掌握了這些技術後，發現進展的速度越來越快。當然，不同的能力在用戶層面的表現可能會有所差異，甚至在不同行業的速度上也存在快慢差異。但從廣泛角度來看，技術進展的曲線越來越陡峭。對于未來更高階AGI的發展，我保持樂觀，我認為未來的進展速度将比過去更快。

張鵬：從三位的角度來看，如果有人說AGI的發展變慢了，你們可能一句話就是"你還想要怎樣？" 過去18個月的進展已經讓每個人目不暇接了。剛剛發布的o1模型也在專業領網域引發了廣泛讨論。我們正好有機會聽聽大家的看法。姜大昕，你怎麼看待o1？很多人認為這是AGI發展階段的一個重要進步，你如何理解這個進步？

姜大昕：确實，我看到了一些非共識的聲音。有些人認為意義重大，有些人則覺得沒什麼特别。但如果你實際使用過o1，第一印象就是它的推理能力非常驚豔。我們進行了很多測試，發現它的推理能力确實上了一個新台階。關于它的意義，我能想到兩點。

第一，o1第一次證明了語言模型可以具備人腦的慢思考能力，也就是系統2的能力。系統1是直線型思維，而系統2能夠探索不同的路徑，自我反思和糾錯，不斷試錯，直到找到正确的答案。之前的GPT-4可以把復雜的問題拆解成多個步驟來解決，但仍然是直線型的。而系統2的區别在于，它能夠嘗試不同路徑。這次o1通過将模仿學習和強化學習結合，使得模型同時具備系統1和系統2的能力，這一點非常重要。

第二，o1帶來了Scaling Law的新方向。它嘗試回答強化學習如何泛化的問題。強化學習不是新概念，DeepMind從AlphaGo到AlphaFold都走的是強化學習路線，但這些強化學習場景都是為特定領網域設計的，比如AlphaGo只能下圍棋。而o1的出現則使得強化學習的通用性和泛化能力上了一個新的台階，且達到了更大規模。所以我認為，o1帶來了新的Scaling範式，可以稱之為新的Scaling路徑。雖然目前它還不算特别成熟，但這恰恰讓人覺得興奮，就像OpenAI在告訴我們，它找到了一個上限非常高的技術路徑。如果仔細思考這背後的方法，你會相信這條路是可以走下去的。

因此，從能力上看，o1證明了語言模型可以具備系統2的能力；從技術上看，它帶來了新的Scaling範式，這其意義非常重大。

張鵬：聽起來雖然有一些非共識的聲音，但你對o1是非常看好和認同的。朱軍老師，你怎麼看待o1帶來的進展？你如何評價它的意義？

朱軍：我認為o1代表了一個顯著的質變。學術界對AGI做了一個分級，從L1到L5。L1是聊天機器人，L2是推理者，能夠做復雜問題的深度思考和推理，L3是智能體，可以與數字和物理世界進行互動和改變，L4是創新者，能夠發現和創造新的知識，L5是組織者，可以更高效地協同和組織資源。

o1執行L2級任務，已經達到了人類高階智能水平，從分級的角度來看，它确實是行業的巨大進步。

技術上，正如姜大昕所說，o1結合了強化學習和其他技術，這些技術在研究領網域已經有很多嘗試，但這次它在大規模模型上的效果得到了驗證。這對于行業的工程實現有很大觸動，也會激發更多的探索和研發。正如剛才所提到的，我認為進展會非常快，因為我們已經做好了很多準備。我也期待這個領網域中，L2的能力将進一步優化，甚至實現更高階的進展。

張鵬：你對這個進展的定義已經非常高了，認為在L2階段，AGI已經有了顯著的進步和階段性成果。而之前我們還在L1階段，未來還要進一步前進，直到實現L3階段，才能全面系統性地改變物理世界。

這次o1發布後，Sam Altman也稱這是一次範式革命。Sam Altman向來擅長演講和表達，我們想聽聽你的看法，你如何理解他說的這次範式變革？你是否認同這是一次範式革命？

楊植麟：我覺得它的意義确實很大，主要在于提升了AI的上限。AI的上限指的是你現在是否可以提升5%、10%的生產力，還是10倍于GPT。這其中最關鍵的問題是，你能不能通過強化學習進一步進行Scaling，這是完全提升AI能力上限的核心。如果我們回顧AI 70-80年的發展歷史，唯一真正有效的路徑就是Scaling，唯一有效的方式就是增加更多算力。

在o1出現之前，其實已經有很多人在研究強化學習，但當時沒有一個非常明确的答案。強化學習如果與大語言模型、以及現在的Pre-Training（預訓練）和Post-Training（後訓練）整合在一起，能否持續提升？這是一個懸而未決的問題。

比如，GPT-4這一代模型的提升更多是确定性的提升，也就是說我在同樣的範式下，通過擴大規模來實現進步。這肯定是會有提升的，但o1的提升并不是完全确定性的提升。所以在此之前，大家會擔心，現在互聯網上大部分優質數據已經被用完了，繼續使用這些數據也無法挖掘出更多東西。因此，原來的範式可能會遇到瓶頸，AI有效的進一步Scaling（擴展）數據到底從哪裡來？我認為，o1的出現很大程度上解決了這個問題，或者至少證明了它初步可行。這意味着，會有越來越多的人投入到這項工作中。

最終，要實現10倍于GPT的效果完全是有可能的。我認為這是一個非常重要的開端，而對于許多產業格局以及創業公司來說，這次範式的變化也将帶來新的機會。

這裡有一個非常關鍵的點，就是訓練和推理算力的占比會發生很大的變化。當然，這并不是說訓練的算力會下降，訓練的算力可能還會持續提升，但與此同時，推理算力的提升速度可能會更快。這個比例的變化本質上會帶來很多新的機會。

這裡面将會有很多新的創業公司的機會。如果你是一家已經達到一定算力門檻的公司，你可以在算法的基礎創新上做很多工作，甚至可以在基礎模型上取得突破。這非常重要。對于算力相對較少的公司，也可以通過後訓練的方式，在某些領網域做到更好的效果，這也會帶來更多產品和技術的機會。整體而言，這次變化打開了很多創業相關的想象空間。

張鵬：這次範式變化的核心在于，在Scaling Law上解決了我們接下來應該Scaling什麼樣的東西，看到了一條新的路徑。你剛才提到的未來擴展的創新路徑空間，可探索的東西變多了，而不是一個收縮的、預設的狀态。今天三位對o1帶來的變化都很興奮，但這也是大家現在比較關心的問題。

我想問問朱軍老師，在強化學習加入這個體系并成為新的範式之後，我們能看到泛化這個能力的明确路徑嗎？因為就目前來看，o1在局部的能力表現很棒，提升也很明顯，但泛化路徑明确嗎？這個确定性足夠嗎？

朱軍：這個問題很值得思考。o1在每個特定任務上取得突破後，是否可以推動它的泛化或者更廣泛的能力提升呢？從強化學習的角度來看，o1的技術實現路徑并沒有明确告訴我們怎麼做到這一點。

張鵬：不像ChatGPT推出時那麼開放透明。

朱軍：是的，但通過科研的積累和對其方法的解讀，我們可以看到它用到了一些技術。

強化學習過程中監督數據的方式和之前的結果監督不同。每一步的思考過程都需要被标注，這類數據的獲取非常困難，你需要專業人士生成高價值的數據。同時，在強化學習的實際應用中，特别是在更泛化和開放的場景中，定義Reward Model（獎勵模型）并不容易。比如在定理證明或編程中，Reward Model是明确的，因為有正确的答案。

但是在自動駕駛等領網域，很多場景下難以清晰界定"好"或"壞"。問題不是簡單的對與錯，有時是對生成内容、對美學或其他标準的評價，每個人的感受不同，因此在這種情況下，技術的泛化面臨很多挑戰。我們如何定義Reward Model？如何收集相關數據？此外，還有如何高效實現這些技術。

不過，現在我們已經看到了曙光，大家也開始沿着這個方向努力。再加上更強大的基礎設施，比起上一代AlphaGo向其他領網域的遷移，泛化的速度可能會更快。我們現在有更好的模拟器，甚至包括AGI生成環境的構建。這些進步結合在一起，讓這條路比之前更容易取得效果和提升。這是我對泛化問題的看法。

張鵬：現在還沒有一個公開且明确的路徑能保證完全實現泛化，但這個過程本身存在很多探索的空間。我再追問一下楊植麟，你怎麼看這個狀态？對像你這樣的創業公司來說，這是好事還是壞事？在你看到這些變化時，心理狀态是什麼？你會如何分析這個環境？

楊植麟：這是一個非常好的機會。你會發現，新的技術變量和技術維度都出現了，這些變化或多或少已經與我們之前的一些投入相關。現在它變成了一個主題，我們在這個主題下有非常多的新機會。

朱軍老師剛才提到了泛化的問題，此外還有一些基礎的技術問題沒有完全解決，因為底層涉及訓練和推理的Scaling，同時在這個過程中也會出現許多性質上的新挑戰。

我覺得，今天這些性質還沒有被完全探索清楚，包括剛才提到的過程監督問題，過程中的一些幻覺現象可能會對效果造成很大影響。這些都值得研究。但如果能夠解決這些問題，AI的能力将會上升一個台階。對于我們來說，通過這些技術創新可以形成一些突破的機會。

張鵬：不确定性反而是好事，有确定的方向但不确定的路徑對創業公司來說可能是一個優勢，否則就沒有創業公司的空間了。回到姜大昕這邊，楊植麟提到的算法、算力、數據這三個因素在AGI領網域被視為關鍵的三角，這次看起來在算法層面有了一些範式變化。反過來看，算力和數據會產生怎樣的連鎖反應？你能幫我們推理一下嗎？

姜大昕：算法、算力、數據的關系是一個鐵三角，這個沒有改變。強化學習确實是算法上的一個重大變化，帶來的結果有确定的、有大概率的，還有不确定的。

确定的就是剛才兩位提到的，在推理側方面，計算需求成倍增加，同時對推理芯片的要求也顯著提高。我們可以想象，OpenAI在o1背後使用了H100芯片來做推理，每個問題可能需要耗費十幾秒甚至幾十秒。如果我們要加快這個過程，對推理芯片的性能要求自然也會提高。

另一個大概率會發生的事情是，訓練強化學習階段所需要的算力可能并不會比預訓練少，甚至可能更多。算力需求還會持續增加，尤其是在強化學習階段生成的數據量可能是沒有上限的。我們聽說，OpenAI在訓練這類模型時用了上萬張H100卡片，持續訓練了幾個月，現在訓練還沒有完成，這代價是非常高的。因此，如果我們追求的是通用的、能夠泛化的推理模型，而不是為某個特定場景設計的強化學習模型，那麼所需的算力仍然很大。

在主模型方面，我們也需要考慮是否繼續Scaling，提升參數量，帶來更好的推理能力。比如，GPT-4已經達到了萬億級參數，如果繼續增加參數，邊際收益會逐漸下降。但強化學習有可能加倍這些收益，是否可以将總收益再拉正？如果這個推論成立，那麼算力的增長又回到了平方維度，計算量将等于參數量乘以數據量。因此，無論是推理端還是訓練端，強化學習帶來的算力需求都會繼續增長。

數據方面，在強化學習中主要有兩類數據：一類是少量人工生成的高價值數據，另一類是海量的機器生成數據。數據量可以非常大，但數據的質量同樣關鍵。你如何構建數據生成算法，以及如何使用主模型，這些都非常重要。

張鵬：剛才大家對o1帶來的範式變化做了非常好的分析。今天三位都是創業者，正在各自的領網域發展并帶領團隊。我想問一下楊植麟，Kimi在今年引發了大家的關注，發展得非常好。你覺得這波AI的變化，接下來會對AI產品產生什麼樣的連鎖反應？你自己是如何看待這些變化的？它們會如何發生？

楊植麟：這是個很好的問題。目前我們還處于產業發展的早期階段，有一個特點就是技術驅動產品的比例較大。很多時候，你會根據當前技術的發展情況，最大化地提取它的潛力。所以我認為這個問題非常重要。我們需要根據新的技術進展，重新思考現在的產品能做出什麼變化。

當前的技術發展，我覺得有幾個關鍵點。首先，新的PMF（產品市場匹配）機會可能會出現。這在于兩個因素的平衡。

第一個因素是，系統2思考的延遲增加，這對用戶來說是一種負面體驗，因為每個人都希望快速得到結果。第二個因素是，它能夠提供更好的輸出，甚至能完成更復雜的任務。

因此，新的PMF產生的過程，是要在延遲增加帶來的負面用戶體驗和更高質量的輸出之間找到平衡點。你需要确保增量的價值高于用戶體驗的損失，這一點非常重要。在更高價值的場景，特别是生產力場景中，率先會出現一些應用場景。因為在娛樂類的場景中，用戶可能很難接受這種延遲的增加，這是一點很重要的考量。

同時，我認為產品形态也會發生變化。随着思考範式的變化，同步、實時的聊天產品形态在一定範圍内也會有所調整。未來的AI不僅僅是思考20秒、幾十秒，它可能需要調用各種工具，完成分鍾級、小時級，甚至天級别的任務。因此，它可能更像一個真實的助手，幫助你逐步完成任務。產品形态的設計也會随之發生重大變化，所以我認為這裡面有非常大的想象空間。

張鵬：我們剛才聊到了o1帶來的變化，也看到了AGI領網域的其他變化，比如空間智能。今天我們也看到自動駕駛、機器人等具身智能的進展。朱軍老師，你怎麼看待這些AI相關條線的最新技術進展？它們對未來產品或技術最終落地產業會有怎樣的推動？有沒有階段性的總結和觀察？

朱軍：大模型或者大規模預訓練技術還是代表了整個範式的變化。我們讨論了很多，涵蓋了從語言到多模态，再到具身智能、空間智能等領網域。其實，關鍵還是在于如何讓智能體具備互動和學習能力，這是智能發展的必然方向。決策與互動是智能中非常核心的能力，我們每時每刻都在做決策，面對的始終是未知和開放的環境。因此，在智能的發展路徑上，大家都是朝着這一方向努力的。

所有這些進展，包括o1、視頻生成、3D等技術，都有兩個明确的方向。首先，是面向消費者和數字内容，能夠讓人們參與其中、講述故事，并具備互動性。這在數字内容上肯定是非常重要的。其次，是面向實體世界和物理世界的生產力提升，不僅僅是為了展示好看的内容，更是要與物理世界結合。

現在，最好的結合點是機器人。已經有很多成功的例子展示了這一點，我們看到使用預訓練範式，機器人的能力具有了通用性。比如，我們在實驗室中對四足機器人進行了測試，過去它在不同的環境下需要人工調參，現在通過仿真環境生成合成數據進行大規模訓練，訓練後的機器人能夠适應各種環境，就像更換了一個新的大腦。

這只是一個初步的例子，大家也在關注更復雜的控制和決策問題，比如空間智能。AGI L3階段是智能體階段，在經歷了L1、L2階段的進展之後，接下來就是L3階段，讓機器人更好地進行推理規劃，并與環境進行高效互動。未來，我們将看到機器人能夠接受復雜指令，完成復雜任務，通過内嵌的思維鏈和過程學習來執行任務，那時智能能力将會有極大的提升。

張鵬：我突然想到一個問題，作為創業公司，尤其像你這樣需要投入大量成本來開發基礎模型的公司，你覺得過去18個月，尤其是o1的出現，是否對你的心态有了改變？未來創業公司的空間是否更大，機會是否更多？你的心态如何變化，你怎麼看待未來技術創業的走向？

姜大昕：從兩個角度來看，一個是創新點，強化學習的出現确實與之前的範式不同。之前GPT的範式中并沒有什麼特别新的東西，但o1仍處于初始階段。正如剛才兩位提到的，強化學習如何與大模型結合并實現泛化，這是一個值得探索的問題。我們在做搜索路徑時，是否需要人工路徑幹預來找到更好的路徑？題目從哪裡來？答案如何找到？這些都是新的、未知的領網域，需要進一步探索。我相信在未來一段時間内，這些探索将加速，也一定會有更多的創新機會。

另一方面，關于算力的挑戰，我之前也提到過，無論是推理端還是訓練端，我們需要的算力依然非常大，尤其是當我們追求的是通用且能夠泛化的推理模型時，所需的算力并不小。正如我們常常調侃得那樣，"卡傷感情，沒卡沒感情，用卡費感情。" 但是，如果我們的目标是AGI，那麼無論付出多少代價，都必須堅持下去。

張鵬：之前我們認為，如果按照原有的Scaling Law繼續走下去，只有少數玩家能夠參與進來。現在，資源門檻是否有所降低？算力方面的競争是否會持續？你如何整合資源，讓計算效率更高？

姜大昕：我覺得可以分為兩種不同的創新。一種是基礎模型，目标是奔着AGI去，這需要非常大的投入。我們看到國外的巨頭每年都有上千億美金的預算規劃。另一方面，還有大量的創新空間集中在應用層面。GPT-4所展示的智能已經在處理數字世界和物理世界的問題上取得了進展。現在，o1又将強化學習泛化到了更高的層次，正如楊植麟所說，它的上限變得更高了，因此，創新機會仍然很多。

張鵬：我再問問楊植麟，你目前有C端產品，最近很多投資人都在看DAU、留存率等指标，來決定是否投資一家公司。如果你站在投資人的角度，作為一位對AI了解的技術背景投資者，你會看哪些數據來做出投資決策？

楊植麟：這是一個很好的問題。首先，DAU和留存率等數據肯定是重要的指标，但我會抽成幾個層面來看。第一個層面是產品是否有價值，是否滿足了用戶的真實需求。這個與AI無關，它是產品本身的基本屬性。比如留存率就是一個前置的指标。第二個層面與AI更相關，不僅要有價值，還要有增量價值。相比市面上已有的AI產品，或者像通用的ChatGPT，你的產品需要能夠產生增量價值，提供ChatGPT做不到的，或者做起來體驗不好的功能，這才是增量價值。這種增量價值可能來自互動的不同，或者不同的入口，也有可能是背後對應的不同資源。因此，通過這種方式產生增量價值是非常重要的。

第三，不僅要有增量價值，還需要随着技術的發展，市場規模能夠越來越大，而不是逐漸縮小。如果你專門研究某個非常細分的領網域，未來可能面臨需求減少的風險。但如果你現在已經能夠產生一定的PMF（產品市場匹配），而且還有擴展到更大市場的潛力，那麼這就是一個很好的創業機會。

張鵬：聽起來數據是需要看的，但在數據之前，產品的邏輯要成立，如果邏輯成立，數據就能證明這個產品是值得投資的。

楊植麟：對。

張鵬：我還有一個問題，雖然預料未來總是很難，但我想知道，未來18個月你期待看到什麼樣的進展？你覺得會有哪些令人興奮的變化？

朱軍：現在的技術進展速度很快，很多時候我們對未來的預測其實都過于保守。回到你的問題，我預計未來18個月裡，L3智能體的進展将非常令人興奮。比如世界模型的創建和生成、虛實融合，尤其是在特定場景下決策能力的提升。它會利用推理、感知等能力來取得突破。與此同時，最近我在分析L4相關的科學發現和創新能力。我們發現，許多能力是分散在各個角落的，仍然缺乏一個能夠将這些能力集成在一起的系統。

如果更激進一點，我認為L4在未來18個月内也會有顯著的進展，特别是在科學發現和創新領網域。L4還包括創意表達，比如藝術創作、視頻生成等，它們能夠放大大家的想象力，幫助我們将抽象的想法具象化。因此，我認為未來L3和L4都會有一些突破的苗頭。

張鵬：到年底前，你有哪些值得期待的進展，能提前透露嗎？

朱軍：到年底前，我希望我們的視頻模型能夠更高效、更可控地為大家所用。高效意味着更低的算力成本，能夠服務更多的用戶；可控意味着用戶能夠持續表達自己的創意，進行多次互動，不斷啟發自己，最終目标是實現實時生成。這樣一來，用戶體驗和用戶量都會有巨大的提升，這是我今年重點要突破的方向。長遠來看，未來18個月我們将進入虛實融合的場景。

張鵬：楊植麟呢？你未來18個月，或者未來三個月有什麼進展可以分享嗎？

楊植麟：接下來的重要裡程碑是開放性的強化學習，能夠在產品上與用戶互動，在真實環境中完成任務并自我進化。o1一定程度上證明了這個方向的确定性，它是AGI路上剩下的唯一關鍵問題，這個問題非常重要。

張鵬：你期待未來18個月内，能夠在這個問題上取得明确的突破和進展？

楊植麟：是的，AI領網域的18個月已經足夠長了，會有很多進展。

姜大昕：我非常期待強化學習能夠進一步泛化。另一個方向是視覺領網域，雖然我們期待已久，但在視頻生成上仍然面臨很大挑戰。到目前為止，視覺理解和生成模型還是分開的。GPT-4在解決了很多問題後，唯獨不能生成視頻。如果我們能夠解決視頻生成和理解一體化的問題，就可以建立一個完整的多模态世界模型，幫助我們生成非常長的視頻，并解決Sora目前的技術難題。此外，這一技術還能作為機器人的大腦，幫助智能體更好地探索物理世界，這是我非常期待的。

本文來自微信公眾号"騰訊科技"，作者：蘇揚周小燕李安琪。