中科大等意外發現：大模型不看圖也能正确回答視覺問題！

今天小編分享的科學經驗：中科大等意外發現：大模型不看圖也能正确回答視覺問題！，歡迎閱讀。

大模型不看圖，竟也能正确回答視覺問題？！

中科大、香港中文大學、上海 AI Lab 的研究團隊團隊意外發現了這一離奇現象。

他們首先看到像 GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B 以及 LLaVA-Next-34B 等大模型，不管是閉源還是開源，語言模型還是多模态，竟然只根據在多模态基準 MMMU 測試中的問題和選項文本，就能獲得不錯的成績。

△藍色表示能看到圖的 LVLMs，橘色和綠色分别表示只接收問題和選項文本的 LLMs 和 LVLMs

（LLM：大語言模型；LVLMs：多模态大模型）

不知道的還以為是大模型的隐藏技能被發現了。

有網友發出靈魂拷問：我們評估多模态模型的方法正确嗎？

這一結果也激起了研究者們的好奇，于是他們決定對此展開進一步探究。

大模型隐藏技能被發現？

針對現有的評估樣本和評估過程，研究人員認為造成這種現象的兩個主要問題。

第一，一些多模态評估樣本缺少對視覺内容的依賴性。

這種問題反映了現有的 benchmark 中的不合理之處。這個問題包含了兩種情況：

一種是有些評估樣本的答案可以被蘊含在了題目和選項中從而免去了看圖的必要。

比如會有這種問題，這個圓形土圈是什麼形狀？

另外一種則是有些評估樣本可以直接被語言大模型利用嵌入的豐富世界知識進行解答而無需依賴圖片。

比如下圖中的問題：内布拉斯加州的首府是什麼？

第二，現有評估過程未考慮語言和多模态大模型訓練過程中的數據洩露問題。

LVLM 通常由一個 vision encoder，一個語言模型基座，以及一個視覺 - 語言連接件組成。而且現有的多模态 benchmark 中有大量的評估樣本是從單模态的文本語料中轉化過來的（比如從考試題目中轉化而來）。

因此如果大語言模型的訓練數據中無意間洩露了多模态 benchmark 中轉化不充分的評估樣本，就會影響 LVLMs 之間的公平比較。

為了定量觀察大語言模型中廣泛存在的洩露現象，研究者們采用了 22 個大語言模型在 6 個公開 benchmark 上進行評估。

這些大語言模型包含了 2 個閉源模型（GPT4-Turbo 以及 GeminiPro）和 20 個大小、架構各異的開源模型（比如 Qwen 系列，LLaMA2 系列，Baichuan 系列，Mixtral-8x7B 等），并且使用了 2-shot 推理策略來減少拒絕回答的情況以及對齊回答的格式。

結果看到，閉源模型 GeminiPro 和開源模型 Qwen1.5-72B 在極具挑戰性的 MMMU 基準上可以分别取得 42.7 和 42.4 的驚人成績，一度逼近 GeminiPro-Vision ( 44.4 ) ，LLaVA-Next-34B ( 47.0 ) 和 Yi-VL-34B ( 43.2 ) 等多模态模型在能看到圖片情況下的表現。

進一步的，他們還定量觀察多模态大模型在訓練過程中的數據洩露情況：屏蔽了 LVLM 的圖片輸入從而只根據文本問題和選項來進行評估（标記為 LVLM-text）。