智源的壓軸模型：370億參數“開源版Gemini”，能理解亂序圖文輸入，還能生成視頻

今天小編分享的互聯網經驗：智源的壓軸模型：370億參數“開源版Gemini”，能理解亂序圖文輸入，還能生成視頻，歡迎閱讀。

從 OpenAI 的 GPT-4V 到谷歌的 Gemini，逼着 AI 寫詩的人少了，多模态大模型（MLLM）成了新的香饽饽。一篇關于多模态大模型的綜述很好的概括了其相比于 LLM 的優越：

· MLLM 更符合人類感知世界的方式。作者人類自然地接受多感官輸入，這些輸入往往是互補和合作的。因此，多模态信息有望使 MLLM 更加智能；

· MLLM 提供了一個更用戶友好的界面。得益于多模态輸入的支持，用戶可以以更靈活的方式與智能助手進行互動和交流；

· MLLM 是一個更全面的任務解決者。雖然 LLM 通常可以執行 NLP 任務，但 MLLM 通常可以支持更大範圍的任務。

于是相比于純粹的 Coding 能力，人們更期待 AI 能直接把一個白板上的數學公式變成代碼，能拆解一張復雜的電路圖并且變成一份組裝說明，甚至能自己給一段足球視頻配上解說。

近日，智源研究院發布了新一代的多模态基礎模型—— Emu2。

論文地址：https://arxiv.org/abs/2312.13286

以智源人工智能研究院的總工程師林詠華的話來說，這個矚目的開源項目是智源視覺大模型團隊的 " 年度壓軸 "。

今年 8 月，智源研究院提出了一種新的多模态大模型訓練範式，發布并開源了首個打通從多模态輸入到多模态輸出的統一多模态預訓練模型 Emu。Emu 發布 4 個月，在 GitHub 上積累了 720 顆星，而此次 Emu2 發布不到一周就收獲了 300 顆星，這個項目現在的星标已經過千。

圖源：GitHub

相較 2023 年 7 月發布（8 月開源）的第一代「多模态 to 多模态」Emu 模型，Emu2 使用了更簡單的建模框架，訓練了從編碼器語義空間重建影像的解碼器、并把模型規模化到 37B 參數實現模型能力和通用性上的突破。

值得一提的是，Emu2 是目前最大參數的開源生成式多模态模型。

它在大規模多模态序列上延續采用大量圖、文、視頻的序列，進行了統一的自回歸目标訓練，将影像、視頻等模态的 token 序列直接和文本 token 序列交錯在一起輸入到模型中訓練。從模型表現上來看，Emu2 展示了強大的多模态上下文學習能力，甚至能夠解決需要即時推理的任務，如視覺提示和基于對象的生成。在少樣本設定下，Emu2 在多個多模态理解任務中創造了新的記錄。

圖源：智源研究院

智源研究院的測試結果顯示，Emu2 在少樣本多模态理解任務上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模态預訓練大模型，在包括 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在内的多項少樣本理解、視覺問答、主體驅動影像生成等任務上取得最優性能。

而當根據特定指令進行調整時，Emu2 在大型多模态模型的問題回答基準測試和開放式主題驅動生成等具有挑戰性的任務上進一步實現了新的最佳狀态。

基于 Emu2 微調的 Emu2-Chat 和 Emu2-Gen 模型分别是目前開源的性能最強的視覺理解模型和能力最廣的視覺生成模型。Emu2-Chat 可以精準理解圖文指令，實現更好的信息感知、意圖理解和決策規劃。Emu2-Gen 可接受影像、文本、位置交錯的序列作為輸入，實現靈活、可控、高質量的影像和視頻生成。

這些成就表明 Emu2 可以作為基礎模型和通用接口，服務于廣泛的多模态任務。代碼和模型已公開，以促進未來的研究。目前 Emu2 的模型、代碼均已開源，并提供 Demo 試用。

強勢的理解和生成能力

通過對多模态理解和生成能力的定量評測，Emu2 在包括少樣本理解、視覺問答、主體驅動影像生成在内的多個任務上取得最優性能。在少樣本評測上，Emu2 在各個場景下顯著超過 Flamingo-80B，例如在 16-shot TextVQA 上較 Flamingo-80B 超過 12.7 個點。

圖源：智源研究院

經過指令微調的 Emu2 可以對影像和視頻輸入進行自由問答，以統一模型在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等十餘個影像和視頻問答評測集上取得最優性能。

圖源：智源研究院

在零樣本的 DreamBench 主體驅動影像生成測試上，Emu2 在較此前方法取得顯著提升，在視覺上更接近于真實影像，以及在主題和風格上的多樣性和創造性。例如比 Salesforce 的 BLIP-Diffusion 的 CLIP-I 分數高 7.1%, 比微軟的 Kosmos-G 的 DINO 分數高 7.2%。

DreamBench 是一個用于評估文本到影像生成模型的基準測試，它包含了多種類型的影像編輯任務，如重新上下文化、風格化、修改、區網域可控生成和多實體組合等。

Emu2-Gen 在 DreamBench 上展示了其在零樣本設定下的多模态生成能力。它能夠接受文本、位置和影像的混合輸入，并在上下文中生成影像。Emu2-Gen 在 DreamBench 上的表現表明了其在多模态生成任務中的優越性能，比如它能夠根據單一影像輸入重建主體，并在零樣本設定下通過強大的視覺解碼能力展示出色的主體忠實度。

主體忠實度（subject fidelity）是一個衡量影像生成模型在生成影像時保持輸入影像中主體特征準确性的指标。在影像編輯或生成任務中，如果模型能夠準确地保留或重現輸入影像中的主體元素，如人物、動物、物體等，那麼就可以認為模型具有高主體忠實度。

圖源：智源研究院多模态上下文學習

上下文學習能力是 LLM 湧現出的重要能力之一，而當我們談論多模态大模型時，ICL 也就擴展到了多模态 ICL（M-ICL）。

生成式預訓練完成後，Emu2 具備全面且強大的多模态上下文學習能力。關于 Emu2 的論文中展示了幾個例子，模型可以照貓畫虎的完成對應理解和生成任務。例如在上下文中描述影像、在上下文中理解視覺提示（覆蓋影像上的紅圈）、在上下文中生成類似風格的影像、在上下文中生成對應主體的影像等。

圖源：智源研究院

值得一提的是，在訓練過程中 Emu2 使用了多樣化的數據集，包括影像 - 文本對、視頻 - 文本對和交錯的影像 - 文本數據。這種數據的多樣性有助于模型學習到更廣泛的多模态表示，并提高其在不同任務上的适應性。而通過平均池化将影像分割成小塊并與文本标記交錯的方法，Emu2 的模型結構得以簡化，并提高了效率。

強大的看圖說話能力

下面來談談 Emu2-Chat。

Emu2-Chat 的設計目标是成為一個能夠進行多模态對話的智能體，也是目前我們能夠理解的最熟悉的多模态大模型的形态。經過對話數據指令微調的 Emu2-Chat，可以精準理解圖文指令、更好的完成多模态理解任務。

比如它可以分辨多邊形：