世界頂尖多模态大模型開源！又是零一萬物，又是李開復

今天小編分享的科學經驗：世界頂尖多模态大模型開源！又是零一萬物，又是李開復，歡迎閲讀。

允中發自凹非寺

量子位 | 公眾号 QbitAI

領跑中英文兩大權威榜單，李開復零一萬物交出多模态大模型答卷！

距離其首款開源大模型 Yi-34B 和 Yi-6B 的發布，僅間隔不到三個月的時間。

模型名為 Yi Vision Language（Yi-VL），現已正式面向全球開源。

同屬 Yi 系列，同樣具有兩個版本：

Yi-VL-34B 和 Yi-VL-6B。

先來看兩個例子，感受一波 Yi-VL 在圖文對話等多元場景中的表現：

Yi-VL 對整幅圖做了詳細分析，不僅説明了指示牌上的内容，甚至連 " 天花板 " 都有照顧到。

中文方面，Yi-VL 也能清晰有條理地準确表達：

此外，官方也給出了測試結果。

Yi-VL-34B 在英文數據集 MMMU 上準确率41.6%，僅次于準确率 55.7% 的 GPT-4V，超越一系列多模态大模型。

而在中文數據集 CMMMU 上，Yi-VL-34B 準确率36.5%，領先于當前最前沿的開源多模态模型。

Yi-VL 長啥樣？

Yi-VL 基于 Yi 語言模型研發，可以看到基于 Yi 語言模型的強大文本理解能力，只需對圖片進行對齊，就可以得到不錯的多模态視覺語言模型——這也是 Yi-VL 模型的核心亮點之一。

在架構設計上，Yi-VL 模型基于開源 LLaVA 架構，包含三個主要模塊：

Vision Transformer（簡稱 ViT）用于影像編碼，使用開源的 OpenClip ViT-H/14 模型初始化可訓練參數，通過學習從大規模 " 影像 - 文本 " 對中提取特征，使模型具備處理和理解影像的能力。

Projection 模塊為模型帶來了影像特征與文本特征空間對齊的能力。該模塊由一個包含層歸一化（layer normalizations）的多層感知機（Multilayer Perceptron，簡稱 MLP）構成。這一設計使得模型可以更有效地融合和處理視覺和文本信息，提高了多模态理解和生成的準确度。

Yi-34B-Chat 和 Yi-6B-Chat 大語言模型的引入為 Yi-VL 提供了強大的語言理解和生成能力。該部分模型借助先進的自然語言處理技術，能夠幫助 Yi-VL 深入理解復雜的語言結構，并生成連貫、相關的文本輸出。

△圖説：Yi-VL 模型架構設計和訓練方法流程一覽

在訓練方法上，Yi-VL 模型的訓練過程分為三個階段，旨在全面提升模型的視覺和語言處理能力。

第一階段，使用 1 億張的 " 影像 - 文本 " 配對數據集訓練 ViT 和 Projection 模塊。

在這一階段，影像分辨率被設定為 224x224，以增強 ViT 在特定架構中的知識獲取能力，同時實現與大型語言模型的高效對齊。

第二階段，将 ViT 的影像分辨率提升至 448x448，讓模型更加擅長識别復雜的視覺細節。此階段使用了約 2500 萬 " 影像 - 文本 " 對。

第三階段，開放整個模型的參數進行訓練，目标是提高模型在多模态聊天互動中的表現。訓練數據涵蓋了多樣化的數據源，共約 100 萬 " 影像 - 文本 " 對，确保了數據的廣泛性和平衡性。

零一萬物技術團隊同時也驗證了可以基于 Yi 語言模型強大的語言理解和生成能力，用其他多模态訓練方法比如 BLIP、Flamingo、EVA 等快速訓練出能夠進行高效影像理解和流暢圖文對話的多模态圖文模型。

Yi 系列模型可以作為多模态模型的基座語言模型，給開源社區提供一個新的選項。同時，零一萬物多模态團隊正在探索從頭開始進行多模态預訓練，更快接近、超過 GPT-4V，達到世界第一梯隊水平。

目前，Yi-VL 模型已在 Hugging Face、ModelScope 等平台上向公眾開放，用户可親身體驗這款模型在圖文對話等多元場景中的表現。

超越一系列多模态大模型

在全新多模态基準測試 MMMU 中，Yi-VL-34B、Yi-VL-6B 兩個版本均有不俗表現。

MMMU（全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大規模多學科多模态理解和推理）數據集包含了 11500 個來自六大核心學科（藝術與設計、商業、科學、健康與醫學、人文與社會科學以及技術與工程）的問題，涉及高度異構影像類型和交織文本影像信息，對模型的高級知覺和推理能力提出了極高要求。