DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT

今天小編分享的科學經驗：DeepSeek、OpenAI、Kimi視覺推理到底哪家強？港中文MMLab推出推理基準MME-COT，歡迎閱讀。

OpenAI o1 和 DeepSeek-R1 靠鏈式思維（Chain-of-Thought, CoT）展示了超強的推理能力，但這一能力能多大程度地幫助視覺推理，又應該如何細粒度地評估視覺推理呢？

為此，來自港中文 MMLab 的研究者們提出了 MME-CoT。

這是一個全面且專門用于評估 LMMs 中視覺推理能力的 Benchmark，包括了數學、科學、OCR、邏輯、時空和通用場景。

MME-CoT 與之前的 LMM 的 Benchmark 最大的區别在于，提出了一個嚴格且多方面的評估框架，細粒度地研究視覺 CoT 的不同方面，評估其推理的質量、魯棒性和效率。

各種最新推出的 LMM，包括 Kimi k1.5, GPT-4o, QVQ 等等都在 MME-CoT 上進行了測試。同時，研究者們還把圖片轉成 caption 之後測試了最近爆火的 DeepSeek-R1 以及 o3-mini。

基于實驗結果，文章中得到了很有價值的結論：

CoT 質量：Kimi k1.5 > DeepSeek-R1 >> o3-mini

CoT 魯棒性：o3-mini > Kimi k1.5 > DeepSeek-R1

CoT 效率：o3-mini > Kimi k1.5 > DeepSeek-R1

值得一提的是，DeepSeek-R1 的文本推理能力非常出眾。僅僅使用圖片的 caption 就可以在 precision 上超過真實看到圖片的 GPT-4o。最後的 CoT 質量也與 GPT-4o 僅有 1.9% 之差。

其次，反思能力的引入顯著提升了 CoT 質量，所有具備反思能力的 LMM 都實現了較高的 CoT 質量表現。例如 QVQ 達到了 62.0% 的 F1 分數，大幅超過 Qwen2-VL-72B 6.8%。而 Kimi k1.5 更是超越 GPT-4o 達到最佳質量。

在魯棒性方面，團隊發現大多數早期模型在感知任務中都受到 CoT 的負面影響，表現出有害的過度思考行為，其中最顯著的案例是 InternVL2.5-8B，在感知任務中應用 CoT 後性能下降了 6.8%，這嚴重制約了将 CoT 推理作為默認操作的可行性。

最後，關于 CoT 效率，團隊觀察到輸出長 CoT 的模型普遍存在步驟的相關性不足的問題。模型容易被影像内容分散注意力，過度關注影像而忽視了對題目的解答，尤其是在處理通用場景、時空和 OCR 任務時。實驗結果顯示，約 30% 到 40% 的反思步驟未能有效協助問題解答，這暴露出當前模型反思能力的重要缺陷。

測評指标設計與數據組成

目前絕大多數的 LMM 的 Benchmark 都只評估最終答案的正确性，忽視了 LMM 整個的 CoT 的推理過程。為了能全面地了解視覺 CoT 的各個屬性，研究者們提出了三個不同的評估方向，每個方向致力于回答一個關鍵的問題：

1、CoT 的質量：每個 CoT 步驟是否有用且準确，不存在幻覺？

只評估回答的結果忽略了模型通過錯誤的邏輯或随機猜測得出正确答案的情況。這往往造成了模型推理能力被誇大的假象。為了深入研究推理過程，研究者們引入了兩個可解釋的指标來評估 CoT 的質量：

召回率 ( Recall ) ：評估模型的回答有多少能與正确解題的必要步驟匹配。這個指标是用來量化推理的步驟是否能對于得到正确答案有幫助，以及推理鏈是否完整。匹配的過程由 GPT-4o 完成。

精确率 ( Precision ) ：評估模型回答的每一步的準确程度來考查模型的幻覺以及邏輯的準确性。為了評估這一指标，研究者們首先使用 GPT-4o 将模型的回復切抽成不同類型的步驟：背景知識、圖片描述以及邏輯推理。然後繼續對圖片描述以及邏輯推理步驟判定每步是否正确。

2、CoT 的魯棒性：CoT 是否幹擾感知任務，它在多大程度上增強了推理任務？

現有研究主要關注 CoT 對推理任務帶來的性能改進，卻往往忽視了 CoT 是否會無意中破壞模型對于僅需要感知的任務的能力。随着 o1 以及 R1 的爆火，CoT 逐漸已成為模型的默認的推理策略。然而，模型無法提前預知用戶提出的問題類型，也不确定使用 CoT 來回答是否比直接給出答案會有更高的準确率。因此，在目前的時間點上，CoT 在不同類型任務下的魯棒性變得格外重要。為了衡量魯棒性，MME-CoT 包括了兩個任務類别：感知任務和推理任務，以及兩種不同的 Prompt 形式：要求模型直接回答 ( answer directly ) 以及 CoT 回答 ( think step by step ) 。

穩定性 ( Stability ) ：檢查 CoT 是否對模型在感知任務上的表現產生負面影響

有效性 ( Efficacy ) ：檢查 CoT 是否真的幫助模型提高在復雜推理任務上的表現

3、CoT 的效率：使用 CoT 的推理效率是怎麼樣的？

最近的 o1 類模型通過采用超長的 CoT 和反思步驟而取得了非常好的效果。這提出了一個關鍵的權衡問題：這種方法是否在準确性和計算成本之間取得了最佳平衡？為了研究這一點，研究者們首次對 LMMs 中 CoT 的效率進行研究，使用了兩個關鍵指标評估效率：

相關比例 ( Relevance Rate ) ：評估模型回答中與解決問題有關的比例。

反思質量 ( Reflection Quality ) ：分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗證了目前結論的正确性。

4、MME-CoT 測試集

與純文本推理問題不同，額外的視覺輸入顯著豐富了視覺推理問題的範圍。有了影像輸入，模型需要根據當前的推理進度頻繁查看影像以獲取相關信息。描述感興趣的影像區網域成為了思維鏈（CoT）過程中的關鍵部分。因此，除了需要嚴格邏輯的復雜問題外，通用場景中的許多問題也構成了具有挑戰性的推理問題。

考慮到這一點，MME-CoT 測試集構建起了一個覆蓋專業領網域與常識場景的全景視覺推理評估體系，共包括 6 大領網域以及 17 個子類。為了保持對推理過程的關注，研究者們排除了需要復雜領網域特定定理或專業知識的問題。

MME-CoT 中分為感知任務以及推理任務，現有的 Benchmark 往往混淆這兩類任務，使得這兩類經常出現在相同類别中。為了解決這個問題，研究者們首先使用 GPT-4o 以及 Qwen2-VL 來進行預判，通過對比直接作答與 CoT 作答的表現差異，初步劃分這兩種不同類型的任務。接着，專業的标注團隊逐題審核，确保分類的準确性。

為了便于 CoT 的評估，标注團隊為所有推理問題都給出了必要的推理步驟的 Ground Truth 标注。對于多解的問題，标注者被要求給出了每種可能的解法。最後，MME-CoT 得到了 1130 道精選的問題以及 3865 個關鍵步驟标注。

實驗分析與結論

研究者們在 MME-CoT Benchmark 上測評了 13 個現有的 LMM 以及 2 個最先進的具有超強推理能力的 LLM：DeepSeek-R1 以及 o3-mini。對于 LLM，研究者們将圖片轉化為詳細的 caption 之後再輸入到模型。

實驗結果如下：

基于測評，還得到了如下的發現與結論：

1. 長 CoT 不一定涵蓋關鍵步驟

盡管長思維鏈模型具有更高的精确率，但每個步驟的信息量并不能得到保證。團隊觀察到 GPT-4o、QVQ 和 Virgo 之間的召回率的趨勢和它們最終能否正确解答推理任務的表現（即在使用 CoT 的 prompt 時，模型在推理任務的最終答案準确率，對應表格中的 CoT Reasoning 列）不一致。具體來說，雖然 Virgo 和 QVQ 在僅評估最終答案的正确性上都優于 GPT-4o，但它們在召回率上落後。這表明長 CoT 模型有時會在跳過中間步驟的情況下得出正确答案，這與 CoT 本身奉行的 Think step by step 的原則相矛盾，值得進一步研究。

2. 更多參數使模型更好地掌握推理能力

團隊發現參數量更大的模型往往獲得更高的有效性（Efficacy）分數。這種模式在 LLaVA-OV、InternVL2.5-MPO 和 Qwen2-VL 中都很明顯。例如，雖然 Qwen2-VL-7B 在将 CoT 應用于推理任務時顯示出 4.8% 的性能下降，但其更大的對應模型 Qwen2-VL-72B 展示出 2.4% 的改進。這種差異表明，在相同的訓練範式下，具有更多參數的模型能夠更好地掌握推理能力。這一發現也某種程度上驗證了 R1 論文中的關鍵發現：同等訓練 setting 下，更大參數量的模型往往能更好地學習到推理的能力。

3. 模型的反思的錯誤涵蓋多種類型

四種主要錯誤類型是：

無效反思：模型得出錯誤結論，在反思時，繼續做出錯誤的調整。這是最常見的錯誤類型，也是最頻繁出現的。

不完整：模型提出新的分析方法但未執行它們，僅停留在初始想法階段。模型的反思只是在空想。

重復：模型重述先前的内容或方法，沒有引入新的見解。

幹擾：模型最初達到正确結論，但反思卻引入了錯誤。

理解和消除反思中的這些錯誤對于提高 LMM 的推理效率以及可靠性是至關重要的。

展望未來，MME-CoT 不僅為評估 LMM 的推理能力提供了系統化的基準，更為該領網域的研究指明了關鍵發展方向。通過揭示現有模型在推理質量、魯棒性和計算效率等方面的不足，這項工作為後續研究奠定了重要基礎。這些發現将推動 LMM 實現更強大以及可靠的視覺推理能力。

論文：https://arxiv.org/pdf/2502.09621

主頁：https://mmecot.github.io

代碼：https://github.com/CaraJ7/MME-CoT

數據集：https://huggingface.co/datasets/CaraJ/MME-CoT

— 完 —

投稿請工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！