3B模型不輸7B LLaVA！北大多模态MoE模型登GitHub熱榜

今天小編分享的科學經驗：3B模型不輸7B LLaVA！北大多模态MoE模型登GitHub熱榜，歡迎閱讀。

混合專家（MoE）架構已支持多模态大模型，開發者終于不用卷參數量了！

北大聯合中山大學、騰訊等機構推出的新模型MoE-LLaVA，登上了 GitHub 熱榜。

它僅有 3B 激活參數，表現卻已和 7B 稠密模型持平，甚至部分指标比 13B 的模型還要好。

從一張圖表中，MoE-LLaVA 可以精準分析之中的細節，連線條的顏色都能把控到位。

推理能力也十分優秀，能夠根據照片場景針對性地給出旅行建議。

在物體幻覺基準測試中，MoE-LLaVA 取得了近 87 分的成績，超過了一眾 13B 模型，占據了成為成績 - 參數量圖線左上角的位置。

性能方面，在 8 塊 V100 上，僅需兩天時間就能完成 MoE-LLaVA 的訓練。

與簡單粗暴地提高參數量相比，MoE 架構大幅降低了多模态模型的訓練和推理成本。

目前，研究團隊已經開放了所有的數據、代碼和模型，那麼它的表現到底如何呢？

成績不輸 13B 稠密模型

在影像問答數據集和 Benchmark 工具上，MoE-LLaVA 都取得了優異的測試成績。

與前 SOTA 方法 LLaVA-1.5 相比，MoE-LLaVA-2.7B × 4 展現了強大的圖片理解能力，在 5 個數據集上的表現非常接近 LLaVA-1.5。

其中，在 SQA 數據集上，MoE-LLaVA 的成績比 LLaVA-1.5-7B 還要領先 1.9 個百分點。

而相比于小規模多模态模型 TinyGPT-V，MoE-LLaVA-1.8B × 4 在相當的激活參數下，在 GQA 和 VisWiz 數據集中分别超出 27.5 和 10 個百分點，說明了 MoE-LLaVA 擁有強大的視覺理解能力。

為了更全面的驗證 MoE-LLaVA 的多模态理解能力，研究團隊在 4 個 Benchmark 工具包上評估了它的性能。

Benchmark 工具包中的答案通常是開放性的，而且沒有固定模板，目的是驗證模型能否能完成自然語言問答任務。

結果，MoE-LLaVA-1.8B × 4 超過了圖片分辨率更高的 Qwen-VL，說明 MoE-LLaVA 這一稀疏模型可以用更少的激活參數達到和稠密模型相當甚至更好的性能。

此外，研究團隊還采用 POPE 工具評估了驗證 MoE-LLaVA 的幻覺，結果它表現最好的性能，意味着它能準确辨别影像内容。

具體來說，MoE-LLaVA-1.8B × 4 以 2.2B 的激活參數量，超過了 13B 的 LLaVA-1.5。

另外，MoE-LLaVA 的 yes ratio 占比處于較均衡狀态，說明它能夠根據問題做出正确的反饋。

那麼，MoE-LLaVA 具體是如何實現的呢？

向多模态模型中引入 MoE 架構

MoE-LLaVA 采用三階段的訓練策略，整體工作流程如下圖所示。

前兩個階段中，影像和文本信息分别被視覺編碼器（VE）和文本嵌入層（WEL）轉化為 token。

具體來看，階段 1的目标是把視覺 token 轉換成 LLM 能理解的形式。

為了實現這一點，研究團隊采用一個多層感知機（MLP）将視覺 token 投影到 LLM 的輸入網域，使其作為 LLM 能理解的偽文本 token。

在這個階段，LLM 被訓練學會描述圖片，為理解更高層次的圖片語義的打下基礎。

階段 2是用多模态的指令數據來對 LLM 進行微調，使之成為有多模态理解能力的模型。

這個階段的指令更加復雜，包含圖片邏輯推理、文字識别等高級任務，對模型的多模态理解能力有了更高的要求。

通常來說，如果是稠密多模态模型，訓練過程到此就完成了，但研究團隊發現同時将 LLM 多模态化和稀疏化是有一定困難的。

為了解決這個問題，研究團隊把該階段的權重作為階段 3的初始化依據，以降低稀疏模型學習的難度。

作為初始化，研究團隊把前饋神經網絡（FFN）復制多份，作為專家集合的初始化權重。

當視覺 token 和文本 token 被送入 MoE 架構時，router 會計算每一個 token 和專家們的匹配權重，然後被送入最匹配的 top-k 個專家進行處理，最後根據 router 的權重加權求和匯聚成輸出。

當 top-k 個專家被激活時，其餘的專家保持靜默，這種模型構成了具有無限可能的稀疏通路的 MoE-LLaVA。

整體上，在 ScienceQA 數據集上訓練時，所有的 MoE layer 中的專家的負載比較平衡。

然而随着模型逐漸被稀疏化，第 17 到 27 層的專家的負載突然增大，甚至幾乎包攬了所有 tokens。

對于淺層的 5-11 層，主要是由專家 2、3、4 共同協作。值得關注的是，專家 1 幾乎只在第 1-3 層工作，随着模型變深，專家 1 逐漸退出了工作。

可以看出，MoE-LLaVA 的專家們學到了某種特定的模式，它能夠按照一定的規律進行專家們的分工。

進一步地，研究團隊還分析了不同專家的模态分布，發現文本和影像的專家分布極其相似。

例如，當專家 3 在 17-27 層工作時，它所處理的文本和影像的占比是相似的，這展現出 MoE-LLaVA 中的專家對于模态并無明顯的偏好。

同時，研究團隊還在 token 層次上觀察了專家們的行為，跟蹤了所有 token 在稀疏網絡中的軌迹在下遊任務。

通過 PCA 降維方式，研究團隊分析了對文本和影像所有的激活的通路，得到了主要的 10 條通路。

團隊還發現，對于某個未見的文本或影像 token，MoE-LLaVA 始終偏向于派發專家 2 和 3 來處理；專家 1、4 則傾向于處理初始化的 token。

作者簡介

MoE-LLaVA 由北大深研院信息工程學院袁粒課題組主導，該課題組主要研究機器視覺、機器學習和腦科學。

去年推出的法律大模型 ChatLaw 和 AI 表格工具酷表（ChatExcel），該課題組都有參與其中。

本文第一作者是該實驗室的碩士生林彬，此前他還以一作或共同一作的身份參與過和多模态對齊框架 LanguageBind（入選 ICLR 2024）、視頻大模型 Video-LLaVA 等工作。

此外，來自中山大學、騰訊、FarReel AI Lab、鵬城實驗室等機構的研究人員也參與了本項目。

Github:

https://github.com/PKU-YuanGroup/MoE-LLaVA

論文地址 :

https://arxiv.org/abs/2401.15947

Demo:

https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~