全球首個多模态世界模型Emu3來了！智源王仲遠：為多模态大模型訓練範式指明新方向

今天小編分享的汽車經驗：全球首個多模态世界模型Emu3來了！智源王仲遠：為多模态大模型訓練範式指明新方向，歡迎閲讀。

智源 Emu3 生成的 AI 視頻案例

全球首個原生多模态世界模型來了。

钛媒體 App 獲悉，10 月 21 日，北京 AI 領網域新型非營利研究機構北京智源人工智能研究院（以下簡稱 " 智源研究院 "，BAAI）發布采用了自回歸（autoregressive）技術路線的原生多模态世界模型 Emu3，并同步上線技術文檔、開源關鍵技術等供產業界進一步探索。

據悉，Emu3 參數量為 8B（80 億），只基于下一個 token（輸入數據的基本部門）預測，無需擴散模型或組合式方法，把影像、文本和視頻編碼為一個離散空間，在多模态混合序列上從頭開始聯合訓練一個 Transformer 模型。該模型實現了視頻、影像、文本三種模态的統一理解與生成，傳統模型則只能處理一種類型。而在影像生成、視覺語言理解、視頻生成任務中，Emu3 的表現超過了影像生成模型 Stable Diffusion SDXL 、視覺語言理解模型 LLaVA、視頻生成模型 OpenSora 等國内外主流開源模型，展示了國際領先的 AI 技術。

智源研究院院長王仲遠向钛媒體 App 等表示，Emu3 證明了下一個 token 預測能在多模态任務中有高性能的表現，這為構建多模态 AGI 提供了廣闊的技術前景。Emu3 有機會将基礎設施建設收斂到一條技術路線上，為大規模的多模态訓練和推理提供基礎，這一簡單的架構設計将利于產業化。未來，多模态世界模型将促進機器人大腦、自動駕駛、多模态對話和推理等場景應用。

王仲遠強調，行業一定會有一個統一的多模态模型。

" 智源會堅持做原始創新。我們認為原生大一統的多模态大模型，是整個大模型發展技術路線上必須要去攻克的一個技術方向。Emu3 是全球首個基于該技術路線的原生多模态世界模型，并面向國際社區進行了開源。" 王仲遠坦言，中國在大模型的技術路線上要有自己的核心技術，而 Emu3 能為多模态大模型訓練範式指明新的方向。

影像文本視頻大一統，王仲遠：原生多模态世界模型處在 "GPT-3 時刻 "

智源研究院成立于 2018 年 11 月，是全球最早開展 AI 大模型的中國非營利性新型研究機構，也是北京市繼腦科學與類腦研究中心、量子信息科學研究院之後，着力建設的又一個重要的新型研發機構。

智源研究院為了加快 AI 前沿技術落地，圍繞大模型、類腦脈衝芯片、認知知識圖譜、安全人工智能、疾病腦電、智能信息處理等領先技術的成熟化、工程化建立創新中心，推動 AI 原創成果轉化及產業化。

2024 年 2 月，智源研究院宣布王仲遠博士擔任新任院長，全面負責研究院各項工作。在此之前，王仲遠在 AI 學術及產業領網域深耕長達 15 年以上，曾在微軟、Facebook（現 Meta）、美團、快手等多家頭部公司任職過。

Emu3 所使用的自回歸技術路線的核心思想是利用序列數據中的上下文依賴性來預測未來的數據點。該類型模型中，不同模态數據共享同一套參數，可實現跨模态的關聯和生成，無需人工設計的特征工程。同時因自回歸技術路線的特點，在生成數據時模型必須按順序進行，限制了并行計算的能力，導致生成速度較慢。也會遇到長期依賴問題，即模型難以捕捉序列中較遠距離的依賴關系。

所謂 " 世界模型 " 是目前技術流派中難度最高的一種，其特點在于讓機器能夠像人類一樣對真實世界有一個全面而準确的認知，不僅包括對事物的描述和分類，還包括對事物的關系、規律、原因和結果的理解和預測，從而進行推理和決策，而 " 世界模型 " 也被認為是通往 AGI 的最優解。

同期，谷歌與麻省理工學院（MIT）何恺明團隊聯合推進了一個新研究項目，推出名為 Fluid 的影像自回歸模型，采用連續 token 生成方式和随機順序生成單張圖片；圖靈獎得主、Meta 首席 AI 科學家楊立昆（Yann LeCun）領導的 Meta AI 團隊曾推出 V-JEPA 世界模型，一種通過觀看視頻來教機器理解和模拟物理世界的方法；李飛飛提到的所謂 " 空間智能 " 也是世界模型的一種技術方向；而在國内，智源研究院也率先推出自回歸路線多模态世界模型 Emu3。

王仲遠認為，Emu3 的發布意味着大模型能夠通過更多維度的數據來理解、學習真實世界。

具體來看，根據智源研究院 9 月底發布的技術報告，Emu3 模型參數量為 80 億，包括了文字、圖片和視頻原始數據，并将視覺數據 Token 化從而在統一的架構下進行訓練，可以生成文字、多樣化風格的圖片和最長為 5 秒的視頻，并且能持續預測下一個 Token 詞元。

評測結果顯示，英文提示詞下，該模型圖片生成得分為 70.0 分，領先于 Stability AI 于 2023 年 7 月推出的 SDXL 的 66.9，落後于 OpenAI 于 2023 年 8 月推出的 DALL E3 的 73.4 分；文生視頻得分則為 81.0 分，領先于今年 6 月開源的 OpenSora 1.2 的 79.6 分；語言能力，技術報告未提供相關測評數據，主要由于 Emu3 語言類數據占比小，參數遠小于市面上其他的語言大模型，因此目前語言能力并不在第一梯隊，但 Emu3 模型詞匯量達 184622，上下文長度達到 131072，具有很多語言模型的技術能力。

王仲遠認為，目前采用自回歸架構構建統一的多模态世界模型仍處在應用爆發前的 "GPT-3 時刻 "，如今的多模态領網域還處于非常早期，因此 Emu3 只是在前沿技術層面證明了該路線的可能性，未來仍需和產業界合作進一步擴大訓練規模，并将 Emu3 推向大眾能夠觸及的應用。

算力、數據、生态仍是當前多模态世界模型的挑戰

事實上，近期關于 "OpenAI 研發的 AI 模型技術是否是未來通用人工智能（AGI）的方向 " 争議頗多。其中，蘋果公司内部員工承認 " 生成式 AI 技術落後競品兩年以上 "，外部直接質疑 OpenAI o1 的 AI 推理能力較差，無法解決部分小學數學題内容；而楊立昆則直言，今天的 AI 大模型比貓還笨，甚至認為 Sora 并不能真的理解物理世界，這樣的視頻生成與世界模型的因果預測仍然存在巨大差異。

對此，王仲遠向钛媒體 App 坦言，他部分認同楊立昆的説法，确實需要多模态世界模型通往 AGI 目标，但不一定要借鑑生物大腦設計多個可以類比的自主性 AI 系統子功能模塊這種方案。

" 楊立昆提的關于現在大模型比貓還笨，很重要的一個論點是他認為純語言模型無法抵達 AGI。我們也認為純語言模型是不夠的，因為僅從文本層面無法完全理解世界。事實上，一些科學家，包括謝賽寧博士，在嘗試通過視覺信号直接觸發智能能力的技術路線。語言是重要的，但只有語言是不夠的。如果要理解感知、推理這個世界，首先要看得到、感覺到世界，才能把不同模态的信息進行互動理解。這恰恰是 Emu3 統一多模态技術路線的重要貢獻。但另一方面，對于楊立昆提出來仿照人腦設計自主 AI 系統模塊，我認為應該永遠鼓勵和支持不同的技術路線的探索，統一多模态世界模型就是其一。" 王仲遠表示。

Keras 之父 Francois Chollet 也認為，大模型通過提示使用時，無法理解與訓練數據中情況大相徑庭的情況，因此不具備通用智能，而大模型的主要作用是作為實際 AGI 的知識和程式存儲，它們是一種記憶形式，而智能不僅僅是記憶。

不過，當前 Emu3 這種原生多模态世界模型依然存在諸多 " 局限性 "，比如整個訓練數據規模不夠大，低于 Emu2 的 370 億參數和人類的 860 萬億 -1000 萬億神經元規模，使得語言效果無法達到 GPT-o1 水平；算力規模不夠大，目前智源的 AI 異構算力平台與行業最大規模的算力集群規模依然有一定距離；另外，當前世界模型路線沒有生态和實踐者，亟待更多企業和大公司進行商業落地，從而驗證這條路線的正确性。

" 我們需要更多資源，例如，Emu3 參數擴大 10 倍所需的算力、工程化的能力是指數級增加的，所以需要合作夥伴和我們一起訓練下一代的模型。" 王仲遠對钛媒體 App 表示。

談及預訓練大模型不再訓練時，王仲遠強調，在技術路線收斂的趨勢下，廠商會更積極地探索模型的落地場景。從樂觀的角度來看，説明基礎大模型已經達到一定的能力水平。另從謹慎的角度來説，訓練轉推理説明僅靠市場驅動，會令廠商陷入 " 追随者 " 的境地，不利于原始技術創新。

" 我們一直強調智源的定位，是做原始創新，做企業不願意做，高校做不了的事情，所以這使得我們必須做下一代 AI 技術探索，做未來 3 年 -5 年可能被行業認可的技術路線。在多模态方向上，智源需要為整個行業指明一個方向。" 王仲遠稱。

以下是智源研究院團隊與钛媒體 App 等部分對話交流整理：

問：相比 Emu 2，Emu3 模型參數量減少，幻覺會不會更嚴重？

智源研究院：首先簡單介紹 Emu3 和 Emu 2 的技術區别。Emu2 視覺用的還是 embedding 的方式，Emu3 變成了離散的 token。Emu1，Emu 2 是概念驗證加探索迭代。當時用了預訓好的語言模型和擴散的 decoder，快速驗證統一的生成式是否能走通，智源是國際上最早做的探索。因為不需要訓練語言模型，基于已有的，成本會比較低。Emu3 我們是完全從頭訓練，是為視頻影像文本原生多模态設計的。

問：Emu3 視頻好像最多 5 秒 24 的 FPS，這與其他預測模型的區别？

智源研究院：下一個 token 天然的好處是本身就可以續寫，看到前面的 token 預測後面的 token，可以無限續下去。只是如果在一個場景續寫，看到的長視頻都是一個場景，意義不大。現在整體的續寫能力還沒有突破長的有情節的視頻生成。Emu3 這套框架的獨特優勢就是因果性，可以基于前面發生的事情預測後面發生的事情，而不是基于一堆噪聲去想象。Emu3 現在可以 5 秒一直續寫。

問：有沒有計劃在科學計算上的應用？

智源研究院：AI for Science 多模态是非常必須的。GPT 3 到 ChatGPT 花了兩年半的時間，Emu3 好比當年的 GPT3，Emu3 是一個中間的 milestone（裏程碑），下一個期待類似 ChatGPT 的的 milestone。

問：智源未來三到五年之内的重點是什麼？

智源研究院：繼續研發原生多模态世界模型 Emu 系列，解決更大規模的數據、算力以及訓練。統一多模态基座大模型是人工智能進入到物理世界非常重要的基座。多模态具身大腦也是研究院正在做的研究。今年我們也看到了諾貝爾的物理學獎給了 Hinton 教授，化學獎是給了 DeepMind 團隊。AI for Science 也是智源非常關注的重要研究方向。

問：從 To C 端角度來説，APP 肯定是最好的方式，智源未來有沒有計劃和一些其他合作夥伴推出一些 c 端 APP？

智源研究院：當前市場上的語言模型 APP 已經開始基于百億模型在使用，這個前提是有了千億、萬億模型，達到更高的性能，百億模型效果随之更好。而現在，多模态大模型還在不斷探索能力上限。智源探索出了 Emu3 這樣一條技術路線，那麼接下來需要展示，也期待在多模态領網域的 "ChatGPT" 的時刻。

我想再一次強調 Emu3 架構的優越性，将來多模态大模型都能夠非常容易使用，這是 Emu3 模型的意義。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）