為什麼說 Sora 是世界的模拟器？

今天小編分享的教育經驗：為什麼說 Sora 是世界的模拟器？，歡迎閱讀。

編者按：

本文轉載自 " 飛哥說 AI"。作者在文中分析了 " 為什麼說 Sora 是世界的模拟器？" 他表示 ChatGPT 作為語言模型，通過 " 語言 " 這一思維的載體，可以多方面模拟虛拟世界中的各種場景和角色（合理絲滑的故事線），成為虛拟世界的 " 模拟器 "。并且他們認為 ChatGPT 是懂得思維的，是理解思維世界的，具有自己的認知。

作者 | 李維高佳

創意 | 李志飛

AI 視頻生成的「ChatGPT 時刻」比想象中提前了 6 個月。

Sora 的誕生意味着什麼，何以堪稱「世界的模拟器」？

OpenAI 技術報告中透露，Sora 能夠深刻地「理解」運動中的物理世界，堪稱為真正的世界模型。

而 LeCun 則一貫酸溜溜地認為 Sora 不能理解物理世界，在他看來，「僅根據文字提示生成逼真的視頻，并不代表模型理解了物理世界。生成視頻的過程與基于世界模型的因果預測完全不同」。

Sora 真的理解物理世界嗎？與 ChatGPT 的底層邏輯有什麼異同？

成為物理世界的模拟器，Sora 是唯一的解法嗎？

OpenAI 接連核爆，「暴力美學」之路真的能抵達 AGI 嗎？

01.

Sora 是世界的模拟器？

OpenAI 在其技術報告中只字未提與模型架構、數據規模、訓練成本等相關的細節，但其标題赫然指出 Sora 這類視頻生成模型是「世界的模拟器」。

OpenAI 想強調，Sora 不是單純的視頻生成模型，不只是視頻行業颠覆者，而是「世界的模拟器」——它打開了一條通往模拟物理世界的有效路徑。

OpenAI 僅列舉了作為物理世界的模拟器應具備的幾個特點和例子—— 3D 一致性、遠程相關性、物體持久性、與世界互動等，卻并未對 " 什麼是世界的模拟器 " 做任何定義和具體分析。

但我們大概可以總結出它的邏輯：Sora生成的視頻能夠在相當長的時空範圍内，不違反物理世界的常見規律（比如重力、光電、碰撞等）。如果模型規模進一步提升，它有可能模拟生成物理世界的一切視頻。

我們不禁疑問，為什麼 OpenAI 在此時提出「模拟器」這一概念，它究竟是什麼？如何成為「世界的模拟器」？與單純的視頻生成模型有什麼邏輯關系？進而，一個能夠模拟復雜世界動态的 AI 會将人類帶往何處？

在談物理世界的模拟器之前，我們先重溫一下虛拟世界的模拟器—— ChatGPT.

02.

ChatGPT 是虛拟思維世界的 " 模拟器 " ？

何謂 " 模拟器 "，顧名思義，如同動态鏡像一般，模拟器是可以逼真 " 反映 " 虛拟世界或現實世界的模型或系統。

遊戲可視為一種對現實世界的模拟，所謂數字世界。

遊戲的數字世界通常有一個既定的環境，包括人物、場景、功能道具等，還有一個起始的配置。給以目标指令，按下『start』，遊戲主角便可以開始出發探索這個世界，與之互動。

比如在小遊戲《超級馬裡奧》中，主角馬裡奧和每一關卡的場景都是既定的環境，小馬裡奧只身出場是起始配置，在規則下赢得金币是目标指令，『start』遊戲開始，直達旅程目标。

這就是一個最簡單模拟器的模拟過程，構造了一個既定場景的小世界。

在 ChatGPT 這類應用中，我們通常可以為模型設定角色，例如設定為用戶的助理、教師或伴侶（可視為環境），用戶就可以給出目标指令開始與之互動。

比如可以讓 ChatGPT 寫一篇關于 Sora 的文章，給它一段開頭，ChatGPT 就會續寫整篇；給定一段故事結尾，它可以補足故事的來龍去脈；給出一段故事節選，它可以展開前後兩端的想象，予以擴寫；給定完整的篇幅，它也可以縮寫摘要。成篇非常順暢絲滑，符合文法和邏輯。

這些語言任務的完成，其實是在模拟創作者的思維過程。

而對創作者思維的模拟，需要遵從思維背後的邏輯和常識。比如 ChatGPT 在續寫 Sora 原理的文章時，會圍繞深度學習和語言模型層層推進，邏輯線條合理，而不會跳躍到辛亥革命或咖啡機使用指南。

ChatGPT 作為語言模型，通過 " 語言 " 這一思維的載體，可以多方面模拟虛拟世界中的各種場景和角色（合理絲滑的故事線），成為虛拟世界的 " 模拟器 "。

既然 ChatGPT 對答如流，也能模拟不同風格的文學家、詩人寫詩作文，作品不違反常識，也符合人類思維規律，那是否說明它就掌握了這些規律呢？

功能主義角度的回答是肯定的。我們可以認為 ChatGPT 是懂得思維的，是理解思維世界的，具有自己的認知。雖然我們沒有一一教他具體的思維邏輯和常識，但它讀遍浩瀚的書籍數據，已然從數據中汲取了海量的知識，掌握了知識背後的思維邏輯。

ChatGPT 這類語言模型從語言大數據中的學習，實際上就是在模拟一個充滿了人類思維和認知映射的虛拟世界。

今天的 ChatGPT 已經攻下了虛拟世界 " 模拟器 " 的堡壘。它所反映的人類認知，包括常識、百科知識以及推理邏輯，實際上已經遠遠超過了絕大部分人類個體。

那麼物理世界的模拟器會以何種方式呈現？

03.

何為物理世界的模拟器？遵循物理世界規律

如同人類的思維世界要前後自洽，不違反常識，遵循分析歸納、邏輯推理等「規律」（統稱思維邏輯），物理世界也有背後的「規律」，包括能量守恒定律、熱力學定律、力的相互作用定律等等。

比如蘋果不能突然在空中漂浮，這不符合牛頓的萬有引力定律；比如在光線照射下，物體產生的陰影和高光的分布要符合光影規律等；比如物體之間產生碰撞後會破碎或者彈開。

作為 " 物理世界的模拟器 "，需要能夠在虛拟環境中重現物理現實，為用戶提供一個逼真且不違反「物理規律」的數字世界。

技術上至少有兩種方式可以實現這樣的模拟器，一種是通過大數據學習出一個 AI 系統來模拟這個世界，比如說本文讨論的 Sora。

另外一種是弄懂物理世界各種現象背後的數學原理，并把這些原理手工編碼到計算機程式裡，從而讓計算機程式 " 渲染 " 出物理世界需要的各種人、物、場景、以及他們之間的互動。

虛幻引擎（Unreal Engine，UE）就是這種物理世界的模拟器。它内置了光照、碰撞、動畫、剛體、材質、音頻、光電等各種數學模型。一個開發者只需要提供人、物、場景、互動、劇情等配置，系統就能做出一個互動式的遊戲，這種互動式的遊戲可以看成是一個互動式的動态視頻。

UE 這類渲染引擎所創造的遊戲世界已經能夠在某種程度上模拟物理世界，只不過它是通過人工數學建模及渲染而成，而非通過模型從數據中自我學習。而且，它也沒有和語言代表的認知模型連接起來，因此本質上缺乏世界常識。而 Sora 代表的 AI 系統有可能避免這些缺陷和局限。

04.

為什麼 Sora 有望成為世界的通用模拟器？

不同于 UE 這一類渲染引擎，Sora 并沒有顯式地對物理規律背後的數學公式去 " 硬編碼 "，而是通過對互聯網上的海量視頻數據進行自監督學習，從而能夠在給定一段文字描述的條件下生成不違反物理世界規律的長視頻（雖然目前長度只有一分鍾，但是完全碾壓了此前有數秒限制的類似競品，如曾被熱捧的 Pika 和 Runway）。

與 UE 這一類 " 硬編碼 " 的物理渲染引擎不同，Sora 視頻創作的想象力來自于它端到端的數據驅動，以及跟 LLM 這類認知模型的無縫結合。

端到端的數據驅動更加通用、更方便迭代提升

與歷史上所有的數據驅動的端到端 AI 系統一樣，Sora 的優勢是如果數據給力，數據量足夠大，它可以覆蓋各種各樣的邊界條件下的復雜度。與之相比，UE 能夠硬編碼的數學原理和場景模版畢竟是有限的，更何況很多物理世界的現象，人類還沒有發現其背後的數學原理。

所以很多時候，UE 遊戲開發者不得不犧牲用戶體驗，或者手工對某些特殊情況 " 頭痛醫頭 " 地做針對性專門編碼。比如，由于材質和碰撞模型的不完善，大家經常看到數字人直播時的穿模現象（手插到肚子裡去了），而要解決穿模問題得做很多額外的工作。

以迭代完善的角度，對于數據驅動的 AI 系統，我們只要利用摩爾定律，不停地加大數據和算力，系統就會自動越來越完善。而 " 硬編碼 " 的系統則依賴于 " 人工 " 的努力和進展。

與認知模型的無縫融合讓多模态模型更加通用和魯棒

與很多人一樣，我們為 Sora 視頻的高質量所折服，但讓我們真正興奮的是， Sora 類視頻生成模型的架構終于向 LLM 的架構靠近。

比如 Sora 采用 Transformer 作為模型的骨架來學習文本和視頻的關系以及視頻内部的時空關系。又比如 Sora 把視頻數據 token 化。這樣的好處是視頻生成模型能跟 LLM 在模型層面無縫融合。

雖然我們現在無法判斷 Sora 的訓練是否将 LLM 作為起點，然後再加入視頻的模态繼續訓練。但是幾乎可以肯定的是，未來的多模态模型都會把 LLM 作為起點，從而把 LLM 的認知能力遷移到下遊的其它模态裡。

這既提升了下遊模型的智能天花板，也大大降低了下遊模型的數據需求。筆者多次強調，這種跨模态的知識遷移可能是 LLM 對 AI 建模的最大貢獻，已經在RT-2、Gemini、出門問問魔音工坊的語音大模型等很多實踐中得到證明。

為什麼 LLM 的認知賦能及其與視頻模型的無縫融合這麼重要？

前文提到如果視頻生成模型要成為世界的模拟器，那它生成的視頻必須得符合物理規律。我們可以從大量的視頻數據裡學習這些規律，也可以直接繼承語言模型裡海量的常識，而繼承這些常識會大大降低對視頻數據的質量和數量的需求，也會大大降低模型學習的難度。

比如，如果我們讓 Sora 生成一只杯子掉在地板上的視頻。今天的大語言模型，比如出門問問的「序列猴子」，就含有玻璃會碎、水會濺出等常識（見下圖）。

有了這些常識，視頻生成模型将不再需要大量的類似玻璃掉地的視頻數據來訓練，從而大大降低了生成逼真視頻的難度。語言模型還包含了對其它物理規律（比如聲光電、碰撞等）的各種描述。

所以，如果 Sora 訓練的基礎是一個語言模型，這個模型不僅僅處理文本數據，而且繼承了對世界常識的理解。

通過引入多模态數據處理能力——特别是視頻與文本對應的數據—— Sora 能夠實現更深層次的 Grounding，即将語言的虛拟概念與物理世界的具體實例緊密關聯。

這種能力使得 Sora 在模拟物理世界時，能夠更準确地反映出現實世界的復雜性和多樣性。具象的視頻訓練數據總是有限的，因此模型所能學到的物理現象總有局限。

但語言模型中的物理常識幾乎是面面俱到的，這是由語言作為思維認知模型的本性所決定的。這種知識遷移彌補了視頻數據不可能面面俱到的短板。

語言模型是多模态大模型的核心，必将居于獨一無二的中心賦能地位。而「視頻」作為物理世界的映像，是世界模型渲染出來的結果。

相比語言數據，通過視頻大數據學習到的模型是 " 模型的模型 " ，同時學到了很多物理世界規律，讓模型更加逼近模拟物理世界。

文本與視頻的區别在于，前者是理解人類的邏輯思維，後者在于理解物理世界。所以，視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合，那它真有望成為世界的通用模拟器。如果有一天，這樣的系統自己通過模拟駕車場景，學會了在城市復雜的交通環境下開車，我們應該也不會奇怪。

我們認為，Sora 之所以有潛力成為下一代物理世界模拟器的翹楚，主要歸功于其基于多模态大模型的設計理念及其實現中巨大算力和工程能力。

Sora 在視頻賽道重現 ChatGPT 式的成功，很可能得力于其把虛拟世界的模型（LLM）落地到具象化的物理世界模型（視頻生成），如果現在不是這樣，将來也大概率是。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

（Sora 可以通過鏡像原理等世界常識生成逼真的帶有反光影像的視頻）

能生成世界，就意味着理解世界？

類比語言模型，面對 ChatGPT 的對答如流、通情達理，我們反思語言模型到底是否學會了 " 思維 " 和 " 理解 "？

雖然尚無法從原理上解釋，但從結果上看，它與基于對語言的深刻理解所呈現出來的行為是一致的，我們可以認為它其實已經學會了虛拟世界的 " 思維 " 和 " 理解 "；那今天的 Sora 已經可以在長時空的範圍裡生成不違反物理規律和常識的視頻，我們是否也可以認為，它已經理解了物理世界？它具備了世界模型的能力？

模拟物理世界，Sora 是唯一解法嗎？

如果 Sora 深度融合 LLM （如 ChatGPT）被認知智能充分賦能，它的确有望成為「世界的模拟器」。除此之外，還有其他成為世界模拟器的可能性解法嗎？另外一種可能是：ChatGPT + UE。

如果我們能把自然語言模型（如 ChatGPT）與物理渲染引擎（如 UE）結合起來，把自然語言模型的描述轉換成 UE 的描述語言，然後由 UE 來渲染出視頻，是不是也意味着一個可行的物理世界模拟器？

在很多對通用性的要求不那麼高的場景中，這可能是優于 Sora 這種端到端模型的選擇，估計未來很快會看到這樣的嘗試。但是，UE 的天花板就是整個系統的天花板。

另外一個相關話題，Sora 的訓練可能用了 UE 合成的數據，但 Sora 模型本身應該沒有調用 UE 的能力。

05.

從虛拟到物理，如果世界皆可被模拟，什麼是現實？

如果說這個世界（無論是虛拟世界還是物理世界），其背後存在着簡單的規律和模型，那麼文本和視頻等模态就是這些規律的具體呈現，也可以說是渲染。

OpenAI 的 ChatGPT 和 Sora 通過互聯網上海量的自然的文本和視頻數據，" 隐式 " 地學會了這些數據背後的規律和模型。那麼，未來是否有一天，ChatGPT 和 Sora 之類的系統還将融合味覺、觸覺等其他模态，從而可以模拟我們的整個世界呢？

如果這一天到來，什麼是現實呢？我們是否還那麼堅定地相信我們這個物理世界不是被模拟出來的？科幻電影 <Matrix> 所描述的世界是否仍是科幻呢？這是現代版的莊周夢蝶，古老的哲學思辨在後現代的技術浪潮中再度衝擊我們的信仰，細思有點恐。

展開想象，為什麼 AI 模拟器不可以模拟巴以衝突、中美關系，模拟人類從山頂洞走向農耕文明的過程呢？「世界模拟器」通過模拟不同的事件和情景，預測未來的發展趨勢，或可輔助決策制定。Sora 類不僅能夠模拟政治經濟、人類社會等宏觀層面的動态，也應該可以深入到病毒傳播、交通規劃等微觀領網域。這一切最終是否會改變各種學科研究的方式？

我們可以展望，AI 有能力通過模拟學會各種物理世界的技能。比如城市駕駛，AI 可以從文本裡學到各種駕駛規則，自己渲染一些交通視頻場景并在這些場景裡學習提升，從而學會基本駕駛技能。當然，模型最後還是會有真正物理環境下的 Fine Tuning。如果機器人能夠自主學習各種技能，這是否也會改變機器人服務世界的發展路徑？

總之，如果未來的 AI 既理解了人類思維，又理解了物理世界，而且還不知疲倦自主模拟學習，下一步将會 " 湧現 " 怎樣的斑斓世界？人類如何自處？

06.

暴力美學能抵達 AGI 嗎？

回看 OpenAI 的最初勝利，主要并非算法上的創新，而是「暴力美學」的勝利。

如今，以 GPT 為代表的「暴力美學」已成為工業界凝聚了共識的做 AI 的方法論：把模型架構做得簡簡單單，但足夠通用，然後把精力放在猛搞數據和算力上。

這一次 Sora 的成功延續了 OpenAI 的暴力美學的套路。把 Diffusion Model 裡的 Unet 換成 Transformer、把視頻的時空 Patch 轉換成 Token 等之類的想法應該很多人拍腦袋都能想到，都是對模型的簡化從而更便于 Scale Up。但是，能夠堅信這些簡單的 ideas、并有能力和有條件把規模真正做上去修成正果的卻是鳳毛麟角。

OpenAI 這次關于 Sora 的技術 blog 裡的兩段話，把這種信念的力量體現得淋漓盡致。

"These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them."

"We find that video models exhibit a number of interesting emergent capabilities when trained at scale. These capabilities enable Sora to simulate some aspects of people, animals and environments from the physical world. These properties emerge without any explicit inductive biases for 3D, objects, etc. — they are purely phenomena of scale."

第一段話表達了他們對 Scaling 的信念，而第二段話強調了 Scaling 導致湧現的實證。

這次 Sora 的發布又讓很多人對 AGI 的實現更加樂觀了，可能也讓心高氣盛的 OpenAI 對 Scaling Law 和暴力美學的信念進一步堅定。但是，沿着 Scaling Law 和暴力美學一定能抵達 AGI 嗎？面對飛速發展的 AI 科技，也許只能拷問自己，到底是因為看見而相信，還是因為相信而看見？

可以肯定的是，Sora 如果真能實現對物理世界的模拟、能夠跟 LLM 代表的虛拟世界無縫融合，那它必然是通往 AGI 路上的裡程碑。

結語

當我們回到人類文明的前夜，從用石頭砸開堅果，從山洞走向茅屋，一一回望人類最早的科技成就——石制工具、火、衣服、長矛和弓箭是如何被發明的。正是有了讓能力邊界不斷延伸的它們，人類才得以走出非洲。

其中最重要的一項能力——語言能力，它使現代智人能有效傳遞信息，不斷完成物理世界的任務，最終将尼安德特人趕到比利牛斯半島的盡頭，成為世界主人。

而今天，掌握人類語言的 AI，将能進一步地通過視頻生成模拟世界，面向我們為之雀躍的 AGI 時刻，是否已是另一種文明的前夜？