開源多模态大模型哪家強？TOP12榜單來了，GitHub攬獲2.2k+星

今天小編分享的科學經驗：開源多模态大模型哪家強？TOP12榜單來了，GitHub攬獲2.2k+星，歡迎閱讀。

GPT-4 的爆火，徹底掀起了學術界對于多模态大模型的研究熱潮。

不過，這類模型的性能究竟要如何衡量，業界卻一直眾說紛纭，沒有一個覆蓋面足夠廣泛的評價标準。

此外，也還沒有一篇完整綜述對其進行定義和研究。

考慮到這一點，騰訊優圖分别聯合中國科學技術大學以及廈門大學，一連發布了兩篇關于多模态大模型的論文。

這裡面不僅有首篇多模态大模型綜述——

還有一個全面的評測榜單！

相關項目在 GitHub 上爆火，截至 7 月 3 号已經攬獲2200+星。

那麼，當前業界最好用的多模态大模型究竟有哪些？它的定義、關鍵技術、優勢和存在的挑戰又是什麼？

我們一起來看看。

多模态大模型 TOP12 排行

研究人員一共設定了16 個榜單，包括了兩個總榜單和 14 個子任務。

總榜單可以看做是模型 " 整體能力 " 的評分，分為感知類和認知類，14 個子任務則是其中的一些細分小任務，可以評測多模态大模型是不是更擅長做某件事。

研究人員一共挑選了 12 個開源多模态大模型，給評測标準做個 " 示範 "。

感知類總榜單，是将各項感知任務綜合起來的總評分，顯示是 BLIP-2 最高：

認知類總榜單，則是各種涉及認知類任務的榜單，加起來是 MiniGPT-4 最高：

評測結果發現，BLIP-2 和 InstructBLIP 在這兩個榜單中都保持在前三，屬實是當前開源多模态大模型的 " 頂流玩家 " 了。

具體到 14 個子任務上，模型的排名又有所不同。

評測結果具體如下，誰更 " 偏科 "、誰更能在各種任務上做到綜合性最優，可以說是一目了然：

所以，這個榜單的評分結果究竟是如何得出的呢？

評分标準如何得出

論文認為，一個好的多模态大模型評分标準，應該具備以下四大特性：

（1）應該覆蓋盡可能多的範圍，包括感知和認知能力（感知是認知的基礎）。

其中，前者指的是識别物體，包括其存在性、數量、位置和顏色等；後者指的是基于綜合感知信息以及 LLM 中的知識來進行更復雜的推理，包括包括常識推理、數值計算、文本翻譯和代碼推理等任務。

（2）它的數據或者标注應該盡可能避免采用已有的公開數據集，以減少數據洩露的風險。

因此，評測中所有的指令 - 答案對都應該是人工構建的，對于少量使用到的公開數據集，僅使用其影像而沒有依賴其原始标注。同時，盡力通過人工拍攝和影像生成的方式來采集數據。

（3）指令設計應該盡可能簡潔，并且符合人類的認知習慣。

不同的指令設計可能會極大影響模型的輸出，但所有的模型都在統一的簡潔指令下進行評測可以保證公平性。一個好的多模态大模型應該具備泛化到這種簡潔指令上的能力，避免陷入提示工程。

（4）多模态大模型在該簡潔指令下的輸出應該是直觀的、并且便于定量統計。

多模态大模型開放式的回答給量化統計提出了很大挑戰。現有方法傾向于使用 GPT 或者人工打分，但可能面臨着不準确和主觀性的問題。

因此，在經過制作後，最後的評測問題大約長這樣：

随後，根據模型回答的準确性來進行判分。

值得一提的是，作者們也嘗試過設計選擇題的指令，但發現當前的多模态大模型還難以跟随這類較為復雜的指令。（doge）

首篇多模态大模型綜述

當然，這個榜單的評測标準并非 " 空穴來風 "。

要想知道為什麼榜單這樣評分，可以去看看另一篇關于多模态大模型的論文綜述，後者仔細整理了它的定義、關鍵技術和挑戰。

具體來說，論文将多模态大模型（MLLM）定義為 " 由 LLM 擴展而來的具有接收與推理多模态信息能力的模型 "。

這類模型相較于熱門的單模态 LLM，具有以下優勢：

更符合人類認知世界的習慣。人類具有多種感官來接受多種模态信息，這些信息通常是互為補充、協同作用的。因此，使用多模态信息一般可以更好地認知與完成任務。

更加強大與用戶友好的接口。通過支持多模态輸入，用戶可以通過更加靈活的方式輸入與傳達信息。

更廣泛的任務支持。LLM 通常只能完成純文本相關的任務，而 MLLM 通過多模态可以額外完成更多任務，如圖片描述和視覺知識問答等。

因此，要想研究這類多模态大模型，往往需要掌握三個關鍵技術：

1、多模态指令微調（Multimodal Instruction Tuning, M-IT）

2、多模态上下文學習（Multimodal In-Context Learning, M-ICL）

3、多模态思維鏈（Multimodal Chain of Thought, M-CoT）

除此之外，還需要針對它的一個應用進行研究（以 LLM 為核心的多模态系統），即 LLM 輔助的視覺推理（LLM-Aided Visual Reasoning, LAVR）。

不過，目前多模态大模型還處于起步階段，因此也存在一些挑戰，如感知能力受限、推理鏈較為脆弱、指令服從能力需要進一步提升以及物體幻視問題普遍存在等。

更多綜述細節和榜單詳情，可以戳論文查看 ~

多模态大模型榜單：

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

論文地址：

[ 1 ] 綜述：https://arxiv.org/abs/2306.13549

[ 2 ] 評測：https://arxiv.org/abs/2306.13394