大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

開源多模态大模型哪家強?TOP12榜單來了,GitHub攬獲2.2k+星

2023-07-05 简体 HK SG TW

今天小編分享的科學經驗:開源多模态大模型哪家強?TOP12榜單來了,GitHub攬獲2.2k+星,歡迎閱讀。

GPT-4 的爆火,徹底掀起了學術界對于多模态大模型的研究熱潮。

不過,這類模型的性能究竟要如何衡量,業界卻一直眾說紛纭,沒有一個覆蓋面足夠廣泛的評價标準。

此外,也還沒有一篇完整綜述對其進行定義和研究。

考慮到這一點,騰訊優圖分别聯合中國科學技術大學以及廈門大學,一連發布了兩篇關于多模态大模型的論文。

這裡面不僅有首篇多模态大模型綜述——

還有一個全面的評測榜單!

相關項目在 GitHub 上爆火,截至 7 月 3 号已經攬獲2200+星。

那麼,當前業界最好用的多模态大模型究竟有哪些?它的定義、關鍵技術、優勢和存在的挑戰又是什麼?

我們一起來看看。

多模态大模型 TOP12 排行

研究人員一共設定了16 個榜單,包括了兩個總榜單和 14 個子任務。

總榜單可以看做是模型 " 整體能力 " 的評分,分為感知類和認知類,14 個子任務則是其中的一些細分小任務,可以評測多模态大模型是不是更擅長做某件事。

研究人員一共挑選了 12 個開源多模态大模型,給評測标準做個 " 示範 "。

感知類總榜單,是将各項感知任務綜合起來的總評分,顯示是 BLIP-2 最高:

認知類總榜單,則是各種涉及認知類任務的榜單,加起來是 MiniGPT-4 最高:

評測結果發現,BLIP-2 和 InstructBLIP 在這兩個榜單中都保持在前三,屬實是當前開源多模态大模型的 " 頂流玩家 " 了。

具體到 14 個子任務上,模型的排名又有所不同。

評測結果具體如下,誰更 " 偏科 "、誰更能在各種任務上做到綜合性最優,可以說是一目了然:

所以,這個榜單的評分結果究竟是如何得出的呢?

評分标準如何得出

論文認為,一個好的多模态大模型評分标準,應該具備以下四大特性:

(1)應該覆蓋盡可能多的範圍,包括感知和認知能力(感知是認知的基礎)。

其中,前者指的是識别物體,包括其存在性、數量、位置和顏色等;後者指的是基于綜合感知信息以及 LLM 中的知識來進行更復雜的推理,包括包括常識推理、數值計算、文本翻譯和代碼推理等任務。

(2)它的數據或者标注應該盡可能避免采用已有的公開數據集,以減少數據洩露的風險。

因此,評測中所有的指令 - 答案對都應該是人工構建的,對于少量使用到的公開數據集,僅使用其影像而沒有依賴其原始标注。同時,盡力通過人工拍攝和影像生成的方式來采集數據。

(3)指令設計應該盡可能簡潔,并且符合人類的認知習慣。

不同的指令設計可能會極大影響模型的輸出,但所有的模型都在統一的簡潔指令下進行評測可以保證公平性。一個好的多模态大模型應該具備泛化到這種簡潔指令上的能力,避免陷入提示工程。

(4)多模态大模型在該簡潔指令下的輸出應該是直觀的、并且便于定量統計。

多模态大模型開放式的回答給量化統計提出了很大挑戰。現有方法傾向于使用 GPT 或者人工打分,但可能面臨着不準确和主觀性的問題。

因此,在經過制作後,最後的評測問題大約長這樣:

随後, 根據模型回答的準确性來進行判分。

值得一提的是,作者們也嘗試過設計選擇題的指令,但發現當前的多模态大模型還難以跟随這類較為復雜的指令。(doge)

首篇多模态大模型綜述

當然,這個榜單的評測标準并非 " 空穴來風 "。

要想知道為什麼榜單這樣評分,可以去看看另一篇關于多模态大模型的論文綜述,後者仔細整理了它的定義、關鍵技術和挑戰。

具體來說,論文将多模态大模型(MLLM)定義為 " 由 LLM 擴展而來的具有接收與推理多模态信息能力的模型 "。

這類模型相較于熱門的單模态 LLM,具有以下優勢:

更符合人類認知世界的習慣。人類具有多種感官來接受多種模态信息,這些信息通常是互為補充、協同作用的。因此,使用多模态信息一般可以更好地認知與完成任務。

更加強大與用戶友好的接口。通過支持多模态輸入,用戶可以通過更加靈活的方式輸入與傳達信息。

更廣泛的任務支持。LLM 通常只能完成純文本相關的任務,而 MLLM 通過多模态可以額外完成更多任務,如圖片描述和視覺知識問答等。

因此,要想研究這類多模态大模型,往往需要掌握三個關鍵技術:

1、多模态指令微調(Multimodal Instruction Tuning, M-IT)

2、多模态上下文學習(Multimodal In-Context Learning, M-ICL)

3、多模态思維鏈(Multimodal Chain of Thought, M-CoT)

除此之外,還需要針對它的一個應用進行研究(以 LLM 為核心的多模态系統),即 LLM 輔助的視覺推理(LLM-Aided Visual Reasoning, LAVR)。

不過,目前多模态大模型還處于起步階段,因此也存在一些挑戰,如感知能力受限、推理鏈較為脆弱、指令服從能力需要進一步提升以及物體幻視問題普遍存在等。

更多綜述細節和榜單詳情,可以戳論文查看 ~

多模态大模型榜單:

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

論文地址:

[ 1 ] 綜述:https://arxiv.org/abs/2306.13549

[ 2 ] 評測:https://arxiv.org/abs/2306.13394

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們