陳丹琦團隊圖表解讀新基準：新王Claude3.5剛及格，但已是模型最強推理表現

今天小編分享的科學經驗：陳丹琦團隊圖表解讀新基準：新王Claude3.5剛及格，但已是模型最強推理表現，歡迎閱讀。

Claude 3.5 Sonnet 的圖表推理能力，比 GPT-4o 高出了 27.8%。

針對多模态大模型在圖表任務上的表現，陳丹琦團隊提出了新的測試基準。

新 Benchmark 比以往更有區分度，也讓一眾傳統測試中的高分模型暴露出了真實能力。

該數據集名為CharXiv，内容全部選自 arXiv 論文中的真實圖表，共計 2323 張。

相比此前的 FigureQA 等測試基準，CharXiv 涵蓋的任務類型更加廣泛，而且不按套路出牌，難度大幅增加。

為了宣傳這套新 Benchmark，研究團隊還寫出了一首洗腦神曲，并制作了視頻宣傳片。

這段魔性的宣傳片，讓有些網友表示已經被成功 " 洗腦 "，腦海中充滿了（歌詞中的）"2323 張圖表 "。

導師陳丹琦也感到印象十分深刻，直言這是自己見過最 fancy 的視頻。

那麼，CharXiv 究竟新在哪，又難在哪呢？

來自學術論文的圖表測試集

團隊指出，過去的表格測試标準太過簡單，而且不能反映模型的真實水平。

比如 FigureQA、DVQA 和 ChartQA 的子集，只要稍作簡單修改，模型的成績就能下降超過 1/3。

究其原因，作者認為是之前的數據集中圖表都是由程式合成，問答也高度模板化。

于是，研究團隊提出了 CharXiv，由人類專家從 arXiv 論文中精心選擇了 2323 個真實圖表。

圖表的類型也更加豐富，提出的問題也避免了套路化的問題。

根據重點考察能力的不同，作者将測試題目抽成了兩類——描述性問題和推理性問題。

兩類問題的比例為 4:1，即每張圖表配有 4 個描述性問題和 1 個推理性問題。

其中描述性問題包括信息提取（Information extraction）、列舉（Enumeration）、計數（Counting）、模式識别（Pattern recognition）等等。

這當中，模式識别指的是要求模型識别圖表中數據的趨勢和分布模式，如線條是否相交、數據是遞增還是遞減等。

另外還有較難的組合型（Compositionality）任務，模型需要綜合多個視覺元素的信息回答問題，體現圖表信息的組合理解。

比如這道題目就是一道組合型的描述類問題，它需要在識别清楚坐标軸的同時，完成計數的任務：

在當前的圖表中，所有坐标軸中一共有多少明确标記的刻度？（這裡問的是标記的數量，不是求和）

推理性問題則根據答案出現的方式又分為了四個子類：

Text-in-chart：問題的答案是圖表中出現的文本，如圖例标籤、離散刻度标籤等。

Text-in-general：問題的答案是一個易于驗證的文本短語，但不一定顯式出現在圖表中。

Number-in-chart：問題的答案是圖表中給出的一個數值，, 如坐标軸刻度值。

Number-in-general：問題的答案是一個精确到特定小數位數的數值，但可能需要通過閱讀和推理才能得出，而不一定直接出現在圖表中。

舉個例子，下面的問題要求模型對表格中各列的數值進行求和，然後比較後給出和最小的一列對應的标籤，這就是一項推理型任務。

利用這套數據集，作者在零樣本的條件下評估了一些知名的開源和閉源模型。

模型依然不擅長推理

在推理類問題上，作者發現所有模型的表現都不是很理想。

表現最好的是真人，模型當中則是 Claude 3.5 Sonnet，不過也僅僅及格，和人相比還是差了四分之一，成績超過 40 的模型一共也只有三個。

緊随其後的是 GPT-4o、Gemini 1.5 Pro 和 Claude 3 家族，有意思的是，Claude 3 的 " 超大杯 "Opus，表現還不如小一些的 Sonnet 和 Haiku。

開源模型中，表現最好的是微軟的 " 小 " 模型 Phi-3，參數量一共只有 4B，成績卻跻身到了 Claude 3 家族的中間。

在描述類任務當中，表現最好的依然是人類，但模型和人類的差距小了，表現最好的 GPT-4o 和人類只差了不到 10%。

不過開源模型的表現就不那麼好了，分數最高的 Phi-3 才剛剛及格。

另外，其中的組合型問題（COMP）任務，對于模型來說也依舊是難點，沒有任何一個模型得分超過 60，而人類的表現是大于 90 的。

例如，數出 x 軸和 y 軸上的刻度标籤數量，對于人來說是十分簡單的任務，但測試下來，20 個模型在該任務中的準确率無一達到 10%。

而且，随着子圖數量的增加，模型的描述能力也會下降。當有 6 個以上子圖時，商業模型的成績會下降 10-30%，開源模型對子圖的處理則更加困難，性能下降比例達到了 30-50%。

經過綜合比對，作者發具備良好描述能力是推理能力的前提——推理能力強的模型一般描述能力也強，但描述強的模型推理能力不一定強。當模型無法準确描述圖表時，即使使用思維鏈（CoT）推理，成績也不會提升。

論文地址：

https://arxiv.org/abs/2406.18521