“世界模型”大争議：楊立昆狠批Sora不是世界模型，生成式路線注定失敗

今天小編分享的互聯網經驗：“世界模型”大争議：楊立昆狠批Sora不是世界模型，生成式路線注定失敗，歡迎閱讀。

圖片來源 @視覺中國

文 | 甲子光年，作者 | 蘇霍伊，編輯 | 趙健

過去一周，Sora 的光芒有多耀眼，谷歌與 Meta 就有多落寞。

就在 Sora 發布的同一天，另有兩款重磅產品推出：一是谷歌發布支持 100 萬 tokens 上下文的大模型 Gemini 1.5 Pro；二是 Meta 發布 " 能夠以人類的理解方式看世界 " 的視頻聯合嵌入預測架構 V-JEPA（Video Joint Embedding Predictive Architecture）。

只是由于發布日期與 Sora " 撞車 "，與它們有關的消息基本都被埋在了鋪天蓋地的 Sora 新聞流裡。可以說在話題熱度這塊兒，Gemini 1.5 Pro 和 V-JEPA 被 Sora 殺得片甲不留。

如果說作為語言模型的 Gemini 1.5 Pro 與 Sora 還不在同維度競争的話，與 Sora 同屬視頻生成模型的 V-JEPA 便是 " 實慘 " 了，發布的前兩天基本無人問津，甚至連業内都很少關注到。

Sora 之所以引發了全世界的關注，不僅僅在于它是一個高質量的視頻生成模型，更在于 OpenAI 把它定義為一個 " 世界模拟器 "（world simulators）。

OpenAI 表示：" Sora 是能夠理解和模拟現實世界模型的基礎，我們相信這種能力将成為實現 AGI 的重要裡程碑。"

英偉達高級研究科學家 Jim Fan 更是直接斷言，"Sora 是一個數據驅動的物理引擎，是一個可學習的模拟器，或世界模型 "。

Sora 是世界模型？這讓圖靈獎得主、Meta 首席科學家 Yann LeCun（楊立昆）坐不住了，LeCun 多次在社交平台 X 上 " 狠批 " Sora，表示 Sora 的生成式技術路線注定失敗。

LeCun 顯然出離地憤怒：" 我從未預料到，看到那麼多從未對人工智能或機器學習做出任何貢獻的人，其中一些人在達克效應（Dunning-Kruger effect）上已經走得很遠，卻告訴我我在人工智能和機器學習方面是錯誤、愚蠢、盲目、無知、誤導、嫉妒、偏見、脫節的 ......"

Yann LeCun 的 X 截圖

這場關于世界模型的巨大争議，到底是如何發生的？

01 OpenAI 的生成式路線，大佬們怎麼看？

目前，幾乎所有的深度學習模型都是建立在 Transformer 架構上。但是在追求通用人工智能（AGI）的道路上，存在不同的流派。

OpenAI 是自回歸生成式路線（Auto-regressive models），遵循 " 大數據、大模型、大算力 " 的暴力美學路線。從 ChatGPT 到 Sora，都是這一思路的代表性產物。

簡而言之，Sora 通過分析視頻來捕捉現實世界的動态變化，并利用計算機視覺技術重現這些變化，創造新的視覺内容。它的學習不限于視頻的畫面和像素，還包括視頻中展示的物理規律。

Sora 采用了以 Transformer 為骨架的 Diffusion Model（擴散模型），其拔群的效果也驗證了擴展法則（scaling law）與智能湧現（Emergent）依舊成立。

值得一提的是，OpenAI 把 Scale 作為核心價值觀之一：我們相信規模——在我們的模型、系統、自身、過程以及抱負中——具有魔力。當有疑問時，就擴大規模。

但是，LeCun 卻認為"自回歸生成模型弱爆了（Auto-Regressive Generative Models suck）"！

他認為，自回歸路徑是無法通往 AGI 的。LeCun 本人不止一次公開表達了對自回歸生成模型熱潮的批評：" 從現在起 5 年内，沒有哪個頭腦正常的人會使用自回歸模型。"

2 月 13 日，在 2024 年世界政府峰會（World Government Summit）上，LeCun 就談到 " 他并不看好生成式技術 "。他認為 " 文本處理的方法無法直接應用于視頻 "，并順水推舟地宣傳一下自家研究，" 目前為止，唯一看起來可能适用于視頻的技術，是我們研發的 JEPA 架構 "。

幾天後，他再次 " 狠批 " Sora，僅根據文字提示生成逼真的視頻，并不代表模型理解了物理世界。LeCun 表示：" 生成視頻的過程與基于世界模型的因果預測完全不同 "；2 月 19 日，他又一次發文駁斥道：通過生成像素來對世界進行建模是一種浪費，就像那些被廣泛抛棄的 " 通過合成來分析 " 的想法一樣，注定會失敗。

LeCun 認為文本生成之所以可行，是因為文本本身是離散的，有着有限數量的符号。在這種情況下，處理預測中的不确定性相對容易。在高維連續的感覺輸入中處理預測不确定性基本上是不可能的。" 這就是為什麼針對感輸入的生成模型注定會失敗的原因 "。

在不看好 Sora 技術路徑的質疑聲中，不只有 LeCun。

Keras 之父 Fran ç ois Chollet 也持有相似觀點。他認為僅僅通過讓 AI 觀看視頻是無法完全學習到世界模型的。盡管像 Sora 這樣的視頻生成模型确實融入了物理模型，問題在于這些模型的準确性及其泛化能力——即它們是否能夠适應新的、非訓練數據插值的情況。

Fran ç ois Chollet 的 X 截圖

Chollet 強調，這些問題至關重要。因為它們決定了生成影像的應用範圍——是僅限于媒體生產，還是用作現實世界的可靠模拟。

同時他還指出，僅僅依靠拟合大量數據（例如通過遊戲引擎生成的影像或視頻）來期待構建出能廣泛适用于現實世界所有情況的模型是不現實的。原因在于，現實世界的復雜度和多樣性遠遠超出了任何模型通過有限數據所能學習到的範圍。

Artificial Intuition 作者 Carlos E. Perez 則認為 Sora 并不是學會了物理規律，" 只是看起來像學會了，就像幾年的煙霧模拟一樣。 "

Carlos E. Perez 的 X 截圖

知名 AI 學者、Meta AI 研究科學家田淵棟也表示，關于 Sora 是否有潛力學到精确物理（當然現在還沒有）的本質在是：為什麼像 " 預測下一個 token " 或 " 重建 " 這樣簡單的思路會產生如此豐富的表示？

Yuandong Tian 的 X 截圖

最初，世界模型的概念源于人類對理解和模拟現實世界的追求。

它與動物（包括人類）如何理解和預測周圍環境的研究相關，這些研究起源于認知科學和神經科學。随着時間的推移，這一思想被引入到計算機科學、特别是人工智能領網域，成為研究者設計智能系統時的一個重要考慮因素。

在人工智能領網域，所謂的世界模型，是指機器對世界運作方式的理解和内部表示，也可以理解為抽象概念和感受的集合。它能幫助 AI 系統理解、學習和控制環境中發生的事情。因此世界模型也可以看作是 AI 系統的 " 心智模型 "，是 AI 系統對自身和外部世界的認知和期望。

比如，玩家正在玩一個賽車遊戲，世界模型可以協助玩家模拟賽車預測不同駕駛策略的結果，從而選擇最佳的行駛路線；或者在現實中，一個機器人可以使用世界模型來預測移動一件物體可能引起的連鎖反應，從而做出更安全、更有效的決策。

世界模型對于發展通用人工智能至關重要，因為它不僅提高了 AI 的抽象和預測能力，使其能夠理解復雜環境并規劃未來行動，還促進了 AI 的創造性問題解決和社會互動能力。通過内部模拟和推理，世界模型使 AI 能夠适應新環境、有效合作以及自主學習，從而推動 AI 技術向更高層次的智能進化。

02 Meta 力推非生成式世界模型

既然 LeCun 說生成式路線的 Sora 不行，那麼 Meta 發布的非生成式路線的 V-JEPA 水平如何？

去年，LeCun 提出了一個全新思路，希望 " 打造接近人類水平的 AI"。他指出，構建能夠學習世界模型或許就是關鍵。

通過這種方式，機器不僅能更迅速地學習和規劃解決復雜問題的策略，而且也能更有效地适應新穎或未知的環境。并且 LeCun 還斷言：" 掌握了如何學習和應用這種世界模型的 AI ，将能夠真正地接近人類水平的智能 "。

動物和人類的大腦運行着一種模拟世界的模型，這種模型在嬰兒期通過觀察世界就已經學會，是動物（包括人類）對周圍發生情況做出良好猜測的方法。

LeCun 将這種直覺性的推理稱為 " 常識 "（包含我們對簡單物理學的掌握）。他根據大腦運行機制，提出了一個端到端的仿生架構，包含 6 個核心模塊：配置器、感知模塊、世界模型、成本模塊、參與者模塊和短期記憶模塊。

Yann LeCun 的自主智能系統的架構示意圖，來源：《通向自主機器智能的路徑版本 0.9.2, 2022-06-27》

其中世界模型模塊是最復雜的部分。它主要承擔兩個關鍵任務：一是補充感知模塊未能捕獲的信息；二是對世界未來狀态進行預測，這不僅包括世界自然發展的趨勢，還有參與者行為可能引起的變化。

簡而言之，世界模型就像是一個現實世界的虛拟模拟器，它需要能夠應對各種不确定性，做出多種可能的預測。

基于該理念設計的 V-JEPA 是一種 " 非生成模型 "，通過預測抽象表示空間中視頻的缺失或屏蔽部分來進行學習。

這與影像聯合嵌入預測架構（I-JEPA）相似，I-JEPA 通過比較影像的抽象表示來進行學習，而不是直接對比 " 像素 "。與嘗試重建每個缺失像素的生成式方法不同，V-JEPA 摒棄了預測那些難以捉摸的信息，這種方式使其在訓練和樣本效率上實現了 1.5 到 6 倍的提高。

V-JEPA 采用了自我監督的學習方法，就好比一個初生兒，通過觀察來理解世界，建立自己的認知。因此，Meta 完全使用未标記的數據進行預訓練。标籤僅用于在預訓練後使模型适應特定任務。Meta 表示，這種類型的架構比以前的模型更有效，無論是在所需的标記示例數量方面，還是在學習未标記數據方面投入的總工作量方面。

V-JEPA 模型的訓練過程是，先遮蔽掉視頻中的大部分内容，只向模型展示一小部分上下文，然後要求預測器填補缺失的部分——不是以實際像素的形式，而是在這個表示空間中以更抽象的描述來填補。

V-JEPA 通過預測學習的潛在空間中的屏蔽時空區網域來訓練視覺編碼器，圖片來自 Meta。

這個過程涉及到兩個核心步驟，一是掩蔽技術，二是高效預測。

V-JEPA 并未接受過理解某一特定類型操作的訓練。相反，它對一系列視頻進行了自我監督訓練，并了解了許多有關世界如何運作的知識。Meta 團隊仔細考慮了屏蔽策略——如果你不遮擋視頻的大片區網域，而是到處随機采樣補丁，那麼任務就會變得過于簡單，并且模型不會學到任何關于世界的特别復雜的東西。

在抽象表示空間進行預測至關重要，因為這使得模型能夠集中于視頻中更高層次的概念信息，而非那些對大多數任務來說并不重要的細節。畢竟，當視頻展示一棵樹時，觀看者通常不會對每片葉子的細微動作感興趣。

Meta 表示，V-JEPA 是第一個擅長 " 凍結評估 " 的視頻模型，只要在編碼器和預測器上進行所有自監督預訓練。當想讓模型學習一項新技能時，只需訓練一個小型輕量級專業層或在此之上訓練一個小型網絡，這是非常高效和快速的。

V-JEPA 中的 "V" 代表 " 視頻 "，它只是一個關于感知的視頻模型。但 Meta 表示，正在仔細考慮将音頻與視覺效果結合起來，進一步構建世界模型。

現在，Meta 已經将 V-JEPA 代碼開源，供用戶下載使用。而 Sora 仍然沒有向普通用戶開放。

不論 LeCun 是真心覺得生成式路線無法實現世界模型，還是為了讓 V-JEPA 在與 Sora 的競争中争取用戶的關注度，Meta 都在用開源的方式真正實現 "open 的 AI"。

這一次，V-JEPA 能否像去年的 LLama 一樣，利用開源模式在大模型的競賽中占得先機？

參考資料：

《Meta 發布 V-JEPA, 世界模型更進一步，這是通往通用人工智能（AGI）之路嗎？》，作者：求索，知乎。