今天小編分享的科學經驗:開源多模态大模型哪家強?TOP12榜單來了,GitHub攬獲2.2k+星,歡迎閱讀。
GPT-4 的爆火,徹底掀起了學術界對于多模态大模型的研究熱潮。
不過,這類模型的性能究竟要如何衡量,業界卻一直眾說紛纭,沒有一個覆蓋面足夠廣泛的評價标準。
此外,也還沒有一篇完整綜述對其進行定義和研究。
考慮到這一點,騰訊優圖分别聯合中國科學技術大學以及廈門大學,一連發布了兩篇關于多模态大模型的論文。
這裡面不僅有首篇多模态大模型綜述——
還有一個全面的評測榜單!
相關項目在 GitHub 上爆火,截至 7 月 3 号已經攬獲2200+星。
那麼,當前業界最好用的多模态大模型究竟有哪些?它的定義、關鍵技術、優勢和存在的挑戰又是什麼?
我們一起來看看。
多模态大模型 TOP12 排行
研究人員一共設定了16 個榜單,包括了兩個總榜單和 14 個子任務。
總榜單可以看做是模型 " 整體能力 " 的評分,分為感知類和認知類,14 個子任務則是其中的一些細分小任務,可以評測多模态大模型是不是更擅長做某件事。
研究人員一共挑選了 12 個開源多模态大模型,給評測标準做個 " 示範 "。
感知類總榜單,是将各項感知任務綜合起來的總評分,顯示是 BLIP-2 最高:
認知類總榜單,則是各種涉及認知類任務的榜單,加起來是 MiniGPT-4 最高:
評測結果發現,BLIP-2 和 InstructBLIP 在這兩個榜單中都保持在前三,屬實是當前開源多模态大模型的 " 頂流玩家 " 了。
具體到 14 個子任務上,模型的排名又有所不同。
評測結果具體如下,誰更 " 偏科 "、誰更能在各種任務上做到綜合性最優,可以說是一目了然:
所以,這個榜單的評分結果究竟是如何得出的呢?
評分标準如何得出
論文認為,一個好的多模态大模型評分标準,應該具備以下四大特性:
(1)應該覆蓋盡可能多的範圍,包括感知和認知能力(感知是認知的基礎)。
其中,前者指的是識别物體,包括其存在性、數量、位置和顏色等;後者指的是基于綜合感知信息以及 LLM 中的知識來進行更復雜的推理,包括包括常識推理、數值計算、文本翻譯和代碼推理等任務。
(2)它的數據或者标注應該盡可能避免采用已有的公開數據集,以減少數據洩露的風險。
因此,評測中所有的指令 - 答案對都應該是人工構建的,對于少量使用到的公開數據集,僅使用其影像而沒有依賴其原始标注。同時,盡力通過人工拍攝和影像生成的方式來采集數據。
(3)指令設計應該盡可能簡潔,并且符合人類的認知習慣。
不同的指令設計可能會極大影響模型的輸出,但所有的模型都在統一的簡潔指令下進行評測可以保證公平性。一個好的多模态大模型應該具備泛化到這種簡潔指令上的能力,避免陷入提示工程。
(4)多模态大模型在該簡潔指令下的輸出應該是直觀的、并且便于定量統計。
多模态大模型開放式的回答給量化統計提出了很大挑戰。現有方法傾向于使用 GPT 或者人工打分,但可能面臨着不準确和主觀性的問題。
因此,在經過制作後,最後的評測問題大約長這樣:
随後, 根據模型回答的準确性來進行判分。
值得一提的是,作者們也嘗試過設計選擇題的指令,但發現當前的多模态大模型還難以跟随這類較為復雜的指令。(doge)
首篇多模态大模型綜述
當然,這個榜單的評測标準并非 " 空穴來風 "。
要想知道為什麼榜單這樣評分,可以去看看另一篇關于多模态大模型的論文綜述,後者仔細整理了它的定義、關鍵技術和挑戰。
具體來說,論文将多模态大模型(MLLM)定義為 " 由 LLM 擴展而來的具有接收與推理多模态信息能力的模型 "。
這類模型相較于熱門的單模态 LLM,具有以下優勢:
更符合人類認知世界的習慣。人類具有多種感官來接受多種模态信息,這些信息通常是互為補充、協同作用的。因此,使用多模态信息一般可以更好地認知與完成任務。
更加強大與用戶友好的接口。通過支持多模态輸入,用戶可以通過更加靈活的方式輸入與傳達信息。
更廣泛的任務支持。LLM 通常只能完成純文本相關的任務,而 MLLM 通過多模态可以額外完成更多任務,如圖片描述和視覺知識問答等。
因此,要想研究這類多模态大模型,往往需要掌握三個關鍵技術:
1、多模态指令微調(Multimodal Instruction Tuning, M-IT)
2、多模态上下文學習(Multimodal In-Context Learning, M-ICL)
3、多模态思維鏈(Multimodal Chain of Thought, M-CoT)
除此之外,還需要針對它的一個應用進行研究(以 LLM 為核心的多模态系統),即 LLM 輔助的視覺推理(LLM-Aided Visual Reasoning, LAVR)。
不過,目前多模态大模型還處于起步階段,因此也存在一些挑戰,如感知能力受限、推理鏈較為脆弱、指令服從能力需要進一步提升以及物體幻視問題普遍存在等。
更多綜述細節和榜單詳情,可以戳論文查看 ~
多模态大模型榜單:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation
論文地址:
[ 1 ] 綜述:https://arxiv.org/abs/2306.13549
[ 2 ] 評測:https://arxiv.org/abs/2306.13394