張宏江消除“Scaling Law放緩”恐懼，直言未來将迎來“自主智能”的世界

今天小編分享的互聯網經驗：張宏江消除“Scaling Law放緩”恐懼，直言未來将迎來“自主智能”的世界，歡迎閲讀。

北京智源人工智能研究院創始理事長，美國國家工程院外籍院士張宏江

12 月 6 日 -7 日，2024 T-EDGE 創新大會暨钛媒體财經年會在北京市大興區舉辦，以 "ALL-in on Globalization ，ALL-in on AI" 為主題，匯聚全球科技和商業領導者，共同探讨人工智能對全球各行業的巨大影響，以及企業全球化增長新格局新趨勢。作為钛媒體集團每年年終舉辦的科技和财經領網域的頂級盛會，T-EDGE 一直代表了钛媒體在科技與經濟前瞻性，以及推動國際創新交流上的高質量追求。

12 月 7 日，T-EDGE 全球 AI 論壇：All-in On AI 會議上，北京智源人工智能研究院創始理事長，美國國家工程院外籍院士張宏江，以 "ChatGPT 發布 24 個月後的 6 點觀察 " 為主題，圍繞 AI 大模型發展與應用展開深度演講。

張宏江表示，随着 ChatGPT 風靡全球，世界迎來新的 AI 革命，模型參數規模形成指數級 "Scaling Law" 發展。在發布 24 個月後的今天，張宏江認為大模型領網域有六個比較重要的技術趨勢：Scaling Law 沒有全面放緩，AI 将創造新的作業系統、新平台、新生态，大模型推動存量和新增應用，多模态大模型是 AGI 的終極模型，多模态大模型賦能機器人，以及大模型的未來将迎來 " 自主智能 " 的世界。

張宏江指出，對于最近 "Scaling Law 放緩 "、大模型面臨挑戰等傳聞和説法，他認為并不用擔心 Scaling Law 放緩。" 即使在 pre-training（預訓練）有放緩趨勢，但 GPT-o1 的發布，讓我們看到另外一個天地，就是相對于預訓練模型的‘快思考’模式，推理模型 o1 可以給更多的思考時間，Scaling Law 的推理性能已出現‘拐點’，有一個指數級增長。"

在張宏江看來，未來，多模态大模型将是 AGI 的終極模型形态，形成從語音、圖片、視頻，到端到端統一的多模态大模型十分重要。同時，AI 應用層面将從 AI Infra（基礎設施）、AI PC、AI 手機，到 AI 軟體、自動駕駛、（人形智能）機器人、AI for Science（科學智能）等領網域都将迎來新的機遇。

" 過去一年，美國有很多 ToB 應用爆發，但很遺憾，中國與美國在這點上有很大的差距，中國 To B 市場非常小，或者 To B 軟體公司收入規模遠不如美國，所以 AI 大模型重寫軟體服務依然需要時間進行落地。" 張宏江稱。

張宏江強調，未來每個人都從 AI 助理走向 Agent，最後每個人都擁有一個 AutoPilot，大模型将迎來一個自主智能的世界。随着大模型發展，統一的多模态大模型有望實現 " 突破 "，這些新的技術變革，将讓 AGI 奇點即将到來。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）

以下是張宏江演講全文，經整理：

各位钛媒體的嘉賓，大家下午好！

今天，我想用下面的時間，跟大家分享一下我對于大模型的發展與應用、過去 ChatGPT 發布的 24 個月的幾點觀察，我這邊總結出 6 點：

1、Scaling Law（規模效應）還有效嗎？

近日，OpenAI 發布了 o1 模型，其在推理方面很大程度上超過了人的平均 IQ（通常智商）。這也是我們第一次看到在推理上，過去這些模型，第一次超過了人類的 IQ 的平均值。

那麼，先説我的第一個觀察，因為最近大家這個聊得比較多的，就是説 Scaling Law 是不是發展 " 到頭 " 了？

在此之前，我們先回答，為什麼 Scaling Law 如此重要？

當 ChatGPT 這個幾千億參數的模型發布之時，自然語言處理的性能形成了指數級提高，就是我們所説的 Scaling Law，它是大模型的規模定律。Scaling Law 認為，模型的參數增大，到一定程度的時候，你才真正能看到模型的精度，有一個突飛猛進的增長，也就是出現 " 湧現 "。

如果我們從圖上來看的話，這事實上是我們看到一個明确的拐點，從一開始現象的非常緩慢的增加，它的精度，突然到了一個拐點，當我們的規模到了一定程度以後，就出現一個拐點衝兒，它的性能有足夠性的往上講，那麼在幾個方面都出現了這樣的拐點，那麼這個拐點我們把它叫做 " 湧現 "。所以，我們過去的十幾年來，看到模型越做越大，繼而看到了這個 " 規模效應 "。

最近這種説法受到了一些挑戰。

首先，我們看到，現在很多模型訓練到一定規模以後，好像沒有辦法的往前走，主要有幾個方面：一方面是説，數據是不是不夠；另一方面是説，算力是不是還夠。

其次，更重要的是，我好像很長時間沒有看到大模型性能大的改善。比如，人們一直沒有看到 GPT-5 的發布，大家是不是認為，這個模型到了某個規模的話，數據可能不夠了訓練不出來了。這些問題肯定是值得大家思考的。

然而，我想要説的是，其實我們不用擔心 Scaling Law 放緩，因為其即使在 pre-training（預訓練）有放緩趨勢，但 GPT-o1 的發布，讓我們看到另外一個天地，就是相對于預訓練 " 快思考模式 "，推理模型 o1 可以給更多的思考時間，所以，我們看到 Scaling Law 的推理性能出現 " 拐點 "，有一個指數級增長。

01 模型的新方法：引入 " 思考時間 "（thinking time）的概念，允許模型在給定的計算預算内進行更多的計算迭代。推理計算可能随 " 思考時間 " 呈指數級增長，而不是線性增長。

最後，在推理模型領網域，Scaling Law 效應一直在持續而非放緩，這是我對此非常有信心的思考。

2、新作業系統、新平台、新生态

如果大家去年聽過我的演講的話，一定會對這張 PPT 不會陌生。

首先，大模型實際上是一個新的作業系統，從而會建立一個新的平台，那麼，我們同樣也需要建立一個新的生态。

我們看一下所謂的 AI 作業系統是什麼，無非就是能夠獲取人的命令，能夠執行人的命令，能夠調用數據來進行計算。今天，大模型通過自然語言的互動，通過多模态的互動，就能夠理解人們的需求，能夠開始執行計算，所以我們説，大模型是新一代的作業系統。

其次，AI 大模型擁有如此強大的技術能力，它将會重寫所有的軟體。

最後，既然是一個新的作業系統、一個新的平台，那一定會產生一個新的生态。如果我們看一下，如果把模型作為最核心的一塊底層的話，實際上我們可以看到，雲架構、數據中心底層是芯片。

這就是為什麼我們看到，英偉達過去兩年快速成長，雲廠商和數據中心廠商過去兩年也快速成長，這都是由于大模型訓練、推理所拉動的。那同樣，為了訓練模型，我們在數據處理、數據存儲、數據互動建立一個新生态，AI infra 也需要快速發展，才能讓大模型應用落地。所以，這是一個非常豐富的生态，比傳統的軟體生态要豐富的多，它能帶來的創新、影響、技術變革時間，也會相當長。

作為生态的推動者，大模型不止要推動硬體、芯片廠商，而且還要推動數據中心相關的硬體廠商更進一步，帶動能源的需求，帶動能源的發展。所以，我相信，AI 大模型生态鏈會比之前 PC、手機的生态鏈要更加強大。

另外一點，基礎模型訓練成本如此之高，而端側、推理模型需求才剛剛開始，AI PC、AI Phone 手機會慢慢發展。

未來，我相信大模型在數據中心、推理混合模式等方面，以及端側和雲端的結合，會帶動產業鏈快速發展。

3、大模型推動存量和新增應用

第三個觀察，我要分享，大模型将同時推動存量和新增應用。

過去兩年，我們好像沒有看到很多 AI " 殺手級 " 應用出來，所以大家擔心這個 " 浪潮 " 是不是将會失去。但其實，在技術快速發展的時候一定有很多機會，而在技術平緩、成熟的時候，也同樣存在一定的機會，AI 應用的需求和數據中心的昂貴成本将推動邊緣 AI 快速發展。

我認為大模型應用可能分為四個階段：

1）第一波增長的 AI Infra（基礎設施）、芯片和數據中心、能源等；

2）第二部分是 PC、智能手機等硬體應用。

3）大規模 AI 應用。其實在美國，硬體端側設備還沒有起來之前，過去一年有很多 To B 應用爆發性成長，但很遺憾，中國與美國有很大的差距，中國 To B 軟體市場非常小，或者説 To B 軟體公司規模遠不不如美國，所以 AI 重寫大模型依然需要時間落地。

4）大模型在物理層面的爆發，比如自動駕駛、（人形智能）機器人、AI for Science（科學智能）都會越來越廣泛、成熟發展。

所以，我們有理由相信，無論是自動編程，還是智能互動、客服、内容生成，大模型所推動的 AI 應用發展速度一定會超過早期的互聯網、移動互聯網時期。

4、多模态大模型是 AGI 的終極模型

我的第四點觀察是，多模态生成大模型是 AGI（通用人工智能）的終極模型。

實際上，我們人與人交流是通過語言模型，但人與世界之間的互動，還需要視覺、語音等其他不同模型的形态。因此，統一的多模态大模型才能夠解決所有理解的問題。

那麼，我們過去一年就會看到多模态生成模型的快速發展，文生圖、文生視頻、圖生視頻等等，最有代表性的是 OpenAI Sora，具有產生非常漂亮、内容逼真視頻的能力，以及理解、描述和，模拟現實世界能力，展現出世界模型的雛形。世界模型是一個重要方向，是我們達到通用人工智能的重要一環。

近期，李飛飛創立的公司 World Labs 日前分享了一項成果，也非常震撼：只需單張影像即可生成三維世界，團隊研發的 AI 系統可以允許用户進入任何影像，并以三維方式進行探索其中的世界。這是非常非常重要的進步。

通向通用人工智能（AGI），我們希望把所有理解現實世界的能力、互動能力、和生成能力，建立在一個模型裏面，這樣才能真正接近我們人類思考的方式。要達到這個目标，形成端到端統一的多模态大模型十分重要。

比如，GPT-4o 的發布，給人們呈現了所謂的 "Her" Moment，即電影 "Here" 中的主角—— AI 私人助理，逐漸有情感，開始對人有依賴，能給有情感的與人互動，那麼，GPT-4o 的演示恰恰表現出這種能力雛形，做到了生成、推理、語音、視覺等技術統一到一個模型當中的 " 第一步 "。智源研究院最近發布的 EMU3 大模型把統一的多模态大模型發展向前推進了非常重要的一步。

5、多模态大模型賦能機器人

為什麼我們認為，多模态的發展如此重要？其實有一個點在于，有了多模态大模型的突破，我們才能夠真正的賦能于機器人，才能真正開發出通用、能自我規劃、自主的機器人。

實際上，傳統機器人的模型完全是由人來設計的，把復雜任務分解變成 " 簡單任務 "，然後對于每個簡單任務進行人工設計，由規則來驅動運動的規劃，這是非常原始的模型。那麼，有了語言大模型和世界大模型之後，我們能夠把復雜的任務通過多模态大模型抽成 " 簡單任務 "，能夠聽懂人的這種命令，然後又能夠進一步通過視覺模型分解成機器的動作，從而完成復雜 - 簡單 - 機器動作的過程。

未來，多模态大模型驅動的 " 具身智能 " 模型，能給讓復雜的任務一步到位，分解成機器的動作，這是我們的目标。

正是因為多模态大模型的迅速發展，過去一年迎來了通用、人形機器人 " 熱潮 "。但有一點我們要特别注意，中國在機器人的 " 本體 " 走在世界前列，但是需要有多模态大模型、具身智能的能力，只有具備這些能力後才能看到通用機器人的 " 起飛 "（迅速發展）。

6、大模型的未來：自主智能的世界

最後一點我的觀察就是，大模型的未來會帶來一個自主智能的世界。

我們過去幾十年看到 IT 產業不斷進步，但 PC、互聯網真正實現的是 " 信息系統 "。而我們今天真正進入的則是 AI 時代、模型時代。

那麼未來，随着 AI 大模型的發展驅動，一定會讓我們進入 " 自主智能 " 的時代。無論是軟體，還是機器人本體，都能夠有自主決策和行為能力，從而真正進入所謂自主智能的世界。

無論是現有應用，還是新的應用層面，我們都可以看到大模型智能體（AI Agent）的廣泛賦能，而 Agent 的這種方式廣泛應用需要智力、AI 能力的迅速提升。那麼，随着 AI 這一輪浪潮不斷發展，未來所有應用都會像 Copilot 一樣無處不在，而且會越來越智能，從而将 Copilot 變成 "AutoPilot"。

未來，我們每個人都将有一個 Agent。從助理、代理，再到 AutoPilot，意味着未來大模型會給整個產品設計、社會組織、就業變化、業務成長等方面帶來巨大機遇，會迎來一個自主智能的世界。

而這意味着，我們需要增加更多的 GPU，訓練更大模型、更強模型，以及更多的數據，這些都會成為企業的核心資產，大模型的未來對于我們生活和工作、企業組織、人員就業帶來非常深刻的變化。

7、結語

講了六點觀察，最後是我的結束語：通用人工智能（AGI）奇點是不是已經來臨？

如果你要問馬斯克（Elon Musk），他説已經到了；如果問美國 AI 大模型獨角獸 Anthropic CEO Dario Amodei，他説 2026 年；如果你要問谷歌 DeepMind CEO Demis Hassabis，他説可能還有十年；如果問辛頓（Geoffrey Hinton），他説還有 5-20 年。

所以這意味着，技術發展比人們學習 AI 的速度要快，人類進化的速度是一條直線，但 AI 技術發展的速度是一條指數級增長曲線，始終沒有與人類學習能力的曲線相交叉。那麼，一旦它們之間出現 " 交叉 "，那就是奇點的來臨。