今天小編分享的互聯網經驗:張宏江消除“Scaling Law放緩”恐懼,直言未來将迎來“自主智能”的世界,歡迎閱讀。
北京智源人工智能研究院創始理事長,美國國家工程院外籍院士 張宏江
12 月 6 日 -7 日,2024 T-EDGE 創新大會暨钛媒體财經年會在北京市大興區舉辦,以 "ALL-in on Globalization ,ALL-in on AI" 為主題,匯聚全球科技和商業領導者,共同探讨人工智能對全球各行業的巨大影響,以及企業全球化增長新格局新趨勢。作為钛媒體集團每年年終舉辦的科技和财經領網域的頂級盛會,T-EDGE 一直代表了钛媒體在科技與經濟前瞻性,以及推動國際創新交流上的高質量追求。
12 月 7 日,T-EDGE 全球 AI 論壇:All-in On AI 會議上,北京智源人工智能研究院創始理事長,美國國家工程院外籍院士 張宏江,以 "ChatGPT 發布 24 個月後的 6 點觀察 " 為主題,圍繞 AI 大模型發展與應用展開深度演講。
張宏江表示,随着 ChatGPT 風靡全球,世界迎來新的 AI 革命,模型參數規模形成指數級 "Scaling Law" 發展。在發布 24 個月後的今天,張宏江認為大模型領網域有六個比較重要的技術趨勢:Scaling Law 沒有全面放緩,AI 将創造新的作業系統、新平台、新生态,大模型推動存量和新增應用,多模态大模型是 AGI 的終極模型,多模态大模型賦能機器人,以及大模型的未來将迎來 " 自主智能 " 的世界。
張宏江指出,對于最近 "Scaling Law 放緩 "、大模型面臨挑戰等傳聞和說法,他認為并不用擔心 Scaling Law 放緩。" 即使在 pre-training(預訓練)有放緩趨勢,但 GPT-o1 的發布,讓我們看到另外一個天地,就是相對于預訓練模型的‘快思考’模式,推理模型 o1 可以給更多的思考時間,Scaling Law 的推理性能已出現‘拐點’,有一個指數級增長。"
在張宏江看來,未來,多模态大模型将是 AGI 的終極模型形态,形成從語音、圖片、視頻,到端到端統一的多模态大模型十分重要。同時,AI 應用層面将從 AI Infra(基礎設施)、AI PC、AI 手機,到 AI 軟體、自動駕駛、(人形智能)機器人、AI for Science(科學智能)等領網域都将迎來新的機遇。
" 過去一年,美國有很多 ToB 應用爆發,但很遺憾,中國與美國在這點上有很大的差距,中國 To B 市場非常小,或者 To B 軟體公司收入規模遠不如美國,所以 AI 大模型重寫軟體服務依然需要時間進行落地。" 張宏江稱。
張宏江強調,未來每個人都從 AI 助理走向 Agent,最後每個人都擁有一個 AutoPilot,大模型将迎來一個自主智能的世界。随着大模型發展,統一的多模态大模型有望實現 " 突破 ",這些新的技術變革,将讓 AGI 奇點即将到來。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)
以下是張宏江演講全文,經整理:
各位钛媒體的嘉賓,大家下午好!
今天,我想用下面的時間,跟大家分享一下我對于大模型的發展與應用、過去 ChatGPT 發布的 24 個月的幾點觀察,我這邊總結出 6 點:
1、Scaling Law(規模效應)還有效嗎?
近日,OpenAI 發布了 o1 模型,其在推理方面很大程度上超過了人的平均 IQ(通常智商)。這也是我們第一次看到在推理上,過去這些模型,第一次超過了人類的 IQ 的平均值。
那麼,先說我的第一個觀察,因為最近大家這個聊得比較多的,就是說 Scaling Law 是不是發展 " 到頭 " 了?
在此之前,我們先回答,為什麼 Scaling Law 如此重要?
當 ChatGPT 這個幾千億參數的模型發布之時,自然語言處理的性能形成了指數級提高,就是我們所說的 Scaling Law,它是大模型的規模定律。Scaling Law 認為,模型的參數增大,到一定程度的時候,你才真正能看到模型的精度,有一個突飛猛進的增長,也就是出現 " 湧現 "。
如果我們從圖上來看的話,這事實上是我們看到一個明确的拐點,從一開始現象的非常緩慢的增加,它的精度,突然到了一個拐點,當我們的規模到了一定程度以後,就出現一個拐點衝兒,它的性能有足夠性的往上講,那麼在幾個方面都出現了這樣的拐點,那麼這個拐點我們把它叫做 " 湧現 "。所以,我們過去的十幾年來,看到模型越做越大,繼而看到了這個 " 規模效應 "。
最近這種說法受到了一些挑戰。
首先,我們看到,現在很多模型訓練到一定規模以後,好像沒有辦法的往前走,主要有幾個方面:一方面是說,數據是不是不夠;另一方面是說,算力是不是還夠。
其次,更重要的是,我好像很長時間沒有看到大模型性能大的改善。比如,人們一直沒有看到 GPT-5 的發布,大家是不是認為,這個模型到了某個規模的話,數據可能不夠了訓練不出來了。這些問題肯定是值得大家思考的。
然而,我想要說的是,其實我們不用擔心 Scaling Law 放緩,因為其即使在 pre-training(預訓練)有放緩趨勢,但 GPT-o1 的發布,讓我們看到另外一個天地,就是相對于預訓練 " 快思考模式 ",推理模型 o1 可以給更多的思考時間,所以,我們看到 Scaling Law 的推理性能出現 " 拐點 ",有一個指數級增長。
01 模型的新方法:引入 " 思考時間 "(thinking time)的概念,允許模型在給定的計算預算内進行更多的計算迭代。推理計算可能随 " 思考時間 " 呈指數級增長,而不是線性增長。
最後,在推理模型領網域,Scaling Law 效應一直在持續而非放緩,這是我對此非常有信心的思考。
2、新作業系統、新平台、新生态
如果大家去年聽過我的演講的話,一定會對這張 PPT 不會陌生。
首先,大模型實際上是一個新的作業系統,從而會建立一個新的平台,那麼,我們同樣也需要建立一個新的生态。
我們看一下所謂的 AI 作業系統是什麼,無非就是能夠獲取人的命令,能夠執行人的命令,能夠調用數據來進行計算。今天,大模型通過自然語言的互動,通過多模态的互動,就能夠理解人們的需求,能夠開始執行計算,所以我們說,大模型是新一代的作業系統。
其次,AI 大模型擁有如此強大的技術能力,它将會重寫所有的軟體。
最後,既然是一個新的作業系統、一個新的平台,那一定會產生一個新的生态。如果我們看一下,如果把模型作為最核心的一塊底層的話,實際上我們可以看到,雲架構、數據中心底層是芯片。
這就是為什麼我們看到,英偉達過去兩年快速成長,雲廠商和數據中心廠商過去兩年也快速成長,這都是由于大模型訓練、推理所拉動的。那同樣,為了訓練模型,我們在數據處理、數據存儲、數據互動建立一個新生态,AI infra 也需要快速發展,才能讓大模型應用落地。所以,這是一個非常豐富的生态,比傳統的軟體生态要豐富的多,它能帶來的創新、影響、技術變革時間,也會相當長。
作為生态的推動者,大模型不止要推動硬體、芯片廠商,而且還要推動數據中心相關的硬體廠商更進一步,帶動能源的需求,帶動能源的發展。所以,我相信,AI 大模型生态鏈會比之前 PC、手機的生态鏈要更加強大。
另外一點,基礎模型訓練成本如此之高,而端側、推理模型需求才剛剛開始,AI PC、AI Phone 手機會慢慢發展。
未來,我相信大模型在數據中心、推理混合模式等方面,以及端側和雲端的結合,會帶動產業鏈快速發展。
3、大模型推動存量和新增應用
第三個觀察,我要分享,大模型将同時推動存量和新增應用。
過去兩年,我們好像沒有看到很多 AI " 殺手級 " 應用出來,所以大家擔心這個 " 浪潮 " 是不是将會失去。但其實,在技術快速發展的時候一定有很多機會,而在技術平緩、成熟的時候,也同樣存在一定的機會,AI 應用的需求和數據中心的昂貴成本将推動邊緣 AI 快速發展。
我認為大模型應用可能分為四個階段:
1)第一波增長的 AI Infra(基礎設施)、芯片和數據中心、能源等;
2)第二部分是 PC、智能手機等硬體應用。
3)大規模 AI 應用。其實在美國,硬體端側設備還沒有起來之前,過去一年有很多 To B 應用爆發性成長,但很遺憾,中國與美國有很大的差距,中國 To B 軟體市場非常小,或者說 To B 軟體公司規模遠不不如美國,所以 AI 重寫大模型依然需要時間落地。
4)大模型在物理層面的爆發,比如自動駕駛、(人形智能)機器人、AI for Science(科學智能)都會越來越廣泛、成熟發展。
所以,我們有理由相信,無論是自動編程,還是智能互動、客服、内容生成,大模型所推動的 AI 應用發展速度一定會超過早期的互聯網、移動互聯網時期。
4、多模态大模型是 AGI 的終極模型
我的第四點觀察是,多模态生成大模型是 AGI(通用人工智能)的終極模型。
實際上,我們人與人交流是通過語言模型,但人與世界之間的互動,還需要視覺、語音等其他不同模型的形态。因此,統一的多模态大模型才能夠解決所有理解的問題。
那麼,我們過去一年就會看到多模态生成模型的快速發展,文生圖、文生視頻、圖生視頻等等,最有代表性的是 OpenAI Sora,具有產生非常漂亮、内容逼真視頻的能力,以及理解、描述和,模拟現實世界能力,展現出世界模型的雛形。世界模型是一個重要方向,是我們達到通用人工智能的重要一環。
近期,李飛飛創立的公司 World Labs 日前分享了一項成果,也非常震撼:只需單張影像即可生成三維世界,團隊研發的 AI 系統可以允許用戶進入任何影像,并以三維方式進行探索其中的世界。這是非常非常重要的進步。
通向通用人工智能(AGI),我們希望把所有理解現實世界的能力、互動能力、和生成能力,建立在一個模型裡面,這樣才能真正接近我們人類思考的方式。要達到這個目标,形成端到端統一的多模态大模型十分重要。
比如,GPT-4o 的發布,給人們呈現了所謂的 "Her" Moment,即電影 "Here" 中的主角—— AI 私人助理,逐漸有情感,開始對人有依賴,能給有情感的與人互動,那麼,GPT-4o 的演示恰恰表現出這種能力雛形,做到了生成、推理、語音、視覺等技術統一到一個模型當中的 " 第一步 "。智源研究院最近發布的 EMU3 大模型把統一的多模态大模型發展向前推進了非常重要的一步。
5、多模态大模型賦能機器人
為什麼我們認為,多模态的發展如此重要?其實有一個點在于,有了多模态大模型的突破,我們才能夠真正的賦能于機器人,才能真正開發出通用、能自我規劃、自主的機器人。
實際上,傳統機器人的模型完全是由人來設計的,把復雜任務分解變成 " 簡單任務 ",然後對于每個簡單任務進行人工設計,由規則來驅動運動的規劃,這是非常原始的模型。那麼,有了語言大模型和世界大模型之後,我們能夠把復雜的任務通過多模态大模型抽成 " 簡單任務 ",能夠聽懂人的這種命令,然後又能夠進一步通過視覺模型分解成機器的動作,從而完成復雜 - 簡單 - 機器動作的過程。
未來,多模态大模型驅動的 " 具身智能 " 模型,能給讓復雜的任務一步到位,分解成機器的動作,這是我們的目标。
正是因為多模态大模型的迅速發展,過去一年迎來了通用、人形機器人 " 熱潮 "。但有一點我們要特别注意,中國在機器人的 " 本體 " 走在世界前列,但是需要有多模态大模型、具身智能的能力,只有具備這些能力後才能看到通用機器人的 " 起飛 "(迅速發展)。
6、大模型的未來:自主智能的世界
最後一點我的觀察就是,大模型的未來會帶來一個自主智能的世界。
我們過去幾十年看到 IT 產業不斷進步,但 PC、互聯網真正實現的是 " 信息系統 "。而我們今天真正進入的則是 AI 時代、模型時代。
那麼未來,随着 AI 大模型的發展驅動,一定會讓我們進入 " 自主智能 " 的時代。無論是軟體,還是機器人本體,都能夠有自主決策和行為能力,從而真正進入所謂自主智能的世界。
無論是現有應用,還是新的應用層面,我們都可以看到大模型智能體(AI Agent)的廣泛賦能,而 Agent 的這種方式廣泛應用需要智力、AI 能力的迅速提升。那麼,随着 AI 這一輪浪潮不斷發展,未來所有應用都會像 Copilot 一樣無處不在,而且會越來越智能,從而将 Copilot 變成 "AutoPilot"。
未來,我們每個人都将有一個 Agent。從助理、代理,再到 AutoPilot,意味着未來大模型會給整個產品設計、社會組織、就業變化、業務成長等方面帶來巨大機遇,會迎來一個自主智能的世界。
而這意味着,我們需要增加更多的 GPU,訓練更大模型、更強模型,以及更多的數據,這些都會成為企業的核心資產,大模型的未來對于我們生活和工作、企業組織、人員就業帶來非常深刻的變化。
7、結語
講了六點觀察,最後是我的結束語:通用人工智能(AGI)奇點是不是已經來臨?
如果你要問馬斯克(Elon Musk),他說已經到了;如果問美國 AI 大模型獨角獸 Anthropic CEO Dario Amodei,他說 2026 年;如果你要問谷歌 DeepMind CEO Demis Hassabis,他說可能還有十年;如果問辛頓(Geoffrey Hinton),他說還有 5-20 年。
所以這意味着,技術發展比人們學習 AI 的速度要快,人類進化的速度是一條直線,但 AI 技術發展的速度是一條指數級增長曲線,始終沒有與人類學習能力的曲線相交叉。那麼,一旦它們之間出現 " 交叉 ",那就是奇點的來臨。
今天,我們有理由相信,随着大模型學習能力越來越強,Scaling Law 發展速度越來越快,AI 原生應用迅速落地和成長,統一的多模态大模型實現 " 突破 ",這些技術變革将讓奇點很快到來,也就是所謂 " 自主智能 " 的時代很快到來。
好,謝謝大家!
更多嘉賓精彩分享,點擊進入2024T-EDGE 創新大會官網查看。