大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

3B模型不輸7B LLaVA!北大多模态MoE模型登GitHub熱榜

2024-02-11 简体 HK SG TW

今天小編分享的科學經驗:3B模型不輸7B LLaVA!北大多模态MoE模型登GitHub熱榜,歡迎閱讀。

混合專家(MoE)架構已支持多模态大模型,開發者終于不用卷參數量了!

北大聯合中山大學、騰訊等機構推出的新模型MoE-LLaVA,登上了 GitHub 熱榜。

它僅有 3B 激活參數,表現卻已和 7B 稠密模型持平,甚至部分指标比 13B 的模型還要好。

從一張圖表中,MoE-LLaVA 可以精準分析之中的細節,連線條的顏色都能把控到位。

推理能力也十分優秀,能夠根據照片場景針對性地給出旅行建議。

在物體幻覺基準測試中,MoE-LLaVA 取得了近 87 分的成績,超過了一眾 13B 模型,占據了成為成績 - 參數量圖線左上角的位置。

性能方面,在 8 塊 V100 上,僅需兩天時間就能完成 MoE-LLaVA 的訓練。

與簡單粗暴地提高參數量相比,MoE 架構大幅降低了多模态模型的訓練和推理成本。

目前,研究團隊已經開放了所有的數據、代碼和模型,那麼它的表現到底如何呢?

成績不輸 13B 稠密模型

在影像問答數據集和 Benchmark 工具上,MoE-LLaVA 都取得了優異的測試成績。

與前 SOTA 方法 LLaVA-1.5 相比,MoE-LLaVA-2.7B × 4 展現了強大的圖片理解能力,在 5 個數據集上的表現非常接近 LLaVA-1.5。

其中,在 SQA 數據集上,MoE-LLaVA 的成績比 LLaVA-1.5-7B 還要領先 1.9 個百分點。

而相比于小規模多模态模型 TinyGPT-V,MoE-LLaVA-1.8B × 4 在相當的激活參數下,在 GQA 和 VisWiz 數據集中分别超出 27.5 和 10 個百分點,說明了 MoE-LLaVA 擁有強大的視覺理解能力。

為了更全面的驗證 MoE-LLaVA 的多模态理解能力,研究團隊在 4 個 Benchmark 工具包上評估了它的性能。

Benchmark 工具包中的答案通常是開放性的,而且沒有固定模板,目的是驗證模型能否能完成自然語言問答任務。

結果,MoE-LLaVA-1.8B × 4 超過了圖片分辨率更高的 Qwen-VL,說明 MoE-LLaVA 這一稀疏模型可以用更少的激活參數達到和稠密模型相當甚至更好的性能。

此外,研究團隊還采用 POPE 工具評估了驗證 MoE-LLaVA 的幻覺,結果它表現最好的性能,意味着它能準确辨别影像内容。

具體來說,MoE-LLaVA-1.8B × 4 以 2.2B 的激活參數量,超過了 13B 的 LLaVA-1.5。

另外,MoE-LLaVA 的 yes ratio 占比處于較均衡狀态,說明它能夠根據問題做出正确的反饋。

那麼,MoE-LLaVA 具體是如何實現的呢?

向多模态模型中引入 MoE 架構

MoE-LLaVA 采用三階段的訓練策略,整體工作流程如下圖所示。

前兩個階段中,影像和文本信息分别被視覺編碼器(VE)和文本嵌入層(WEL)轉化為 token。

具體來看,階段 1的目标是把視覺 token 轉換成 LLM 能理解的形式。

為了實現這一點,研究團隊采用一個多層感知機(MLP)将視覺 token 投影到 LLM 的輸入網域,使其作為 LLM 能理解的偽文本 token。

在這個階段,LLM 被訓練學會描述圖片,為理解更高層次的圖片語義的打下基礎。

階段 2是用多模态的指令數據來對 LLM 進行微調,使之成為有多模态理解能力的模型。

這個階段的指令更加復雜,包含圖片邏輯推理、文字識别等高級任務,對模型的多模态理解能力有了更高的要求。

通常來說,如果是稠密多模态模型,訓練過程到此就完成了,但研究團隊發現同時将 LLM 多模态化和稀疏化是有一定困難的。

為了解決這個問題,研究團隊把該階段的權重作為階段 3的初始化依據,以降低稀疏模型學習的難度。

作為初始化,研究團隊把前饋神經網絡(FFN)復制多份,作為專家集合的初始化權重。

當視覺 token 和文本 token 被送入 MoE 架構時,router 會計算每一個 token 和專家們的匹配權重,然後被送入最匹配的 top-k 個專家進行處理,最後根據 router 的權重加權求和匯聚成輸出。

當 top-k 個專家被激活時,其餘的專家保持靜默,這種模型構成了具有無限可能的稀疏通路的 MoE-LLaVA。

整體上,在 ScienceQA 數據集上訓練時,所有的 MoE layer 中的專家的負載比較平衡。

然而随着模型逐漸被稀疏化,第 17 到 27 層的專家的負載突然增大,甚至幾乎包攬了所有 tokens。

對于淺層的 5-11 層,主要是由專家 2、3、4 共同協作。值得關注的是,專家 1 幾乎只在第 1-3 層工作,随着模型變深,專家 1 逐漸退出了工作。

可以看出,MoE-LLaVA 的專家們學到了某種特定的模式,它能夠按照一定的規律進行專家們的分工。

進一步地,研究團隊還分析了不同專家的模态分布,發現文本和影像的專家分布極其相似。

例如,當專家 3 在 17-27 層工作時,它所處理的文本和影像的占比是相似的,這展現出 MoE-LLaVA 中的專家對于模态并無明顯的偏好。

同時,研究團隊還在 token 層次上觀察了專家們的行為,跟蹤了所有 token 在稀疏網絡中的軌迹在下遊任務。

通過 PCA 降維方式,研究團隊分析了對文本和影像所有的激活的通路,得到了主要的 10 條通路。

團隊還發現,對于某個未見的文本或影像 token,MoE-LLaVA 始終偏向于派發專家 2 和 3 來處理;專家 1、4 則傾向于處理初始化的 token。

作者簡介

MoE-LLaVA 由北大深研院信息工程學院袁粒課題組主導,該課題組主要研究機器視覺、機器學習和腦科學。

去年推出的法律大模型 ChatLaw 和 AI 表格工具酷表(ChatExcel),該課題組都有參與其中。

本文第一作者是該實驗室的碩士生林彬,此前他還以一作或共同一作的身份參與過和多模态對齊框架 LanguageBind(入選 ICLR 2024)、視頻大模型 Video-LLaVA 等工作。

此外,來自中山大學、騰訊、FarReel AI Lab、鵬城實驗室等機構的研究人員也參與了本項目。

Github:

https://github.com/PKU-YuanGroup/MoE-LLaVA

論文地址 :

https://arxiv.org/abs/2401.15947

Demo:

https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們