o3挑戰ARC-AGI，遇見大網格就懵圈？英國工程師：ARC-AGI不适合大模型 - 大酷樂

今天小編分享的科學經驗：o3挑戰ARC-AGI，遇見大網格就懵圈？英國工程師：ARC-AGI不适合大模型，歡迎閲讀。

o3 在超難推理任務 ARC-AGI 上的成績，屬實給人類帶來了不少震撼。

但有人專門研究了它不會做的題之後，有了更有趣的發現——

o3 之所以不會做這些題，原因可能不是因為太難，而是題目的規模太大了。

來自英國的 ML 工程師 Mikel Bober-Irizar（不妨叫他米哥），對 ARC 題目進行了細致觀察。

結果米哥發現，題目中的網格規模越大，大模型的表現也就越差。

而且不僅是 o3，o1 和 o1 mini，還有隔壁的 Claude，都出現了這樣的現象。

米哥的這項研究，引起了人們對大模型工作機制的許多讨論。

世界首位全職提示詞工程師Riley Goodside看到後，也認為這是一項很好的研究。

大模型被困在了網格規模上

還是先簡單回顧一下 ARC 挑戰，題目帶有色塊的網格陣列（以文本形式表述，用數字代表顏色），大模型需要觀察每道題目中 3 個輸入 - 輸出示例，然後根據規律填充新的空白網格。

米哥發現，在 ARC 挑戰中，規模越大，也就是網格的數量越多，大模型的表現也就越差。

o3 也逃不過這樣的魔咒，但相比于其他模型，o3 表現的明顯下降出現得更晚，大約在網格數量達到 1024 個之後（請記住這個位置，後面還會講到）。

為了進一步驗證這個發現，米哥還用 o1-mini 進行了實際測試。

下圖當中，左右兩欄的題目乍一看上去好像沒什麼區别，但在右邊，米哥對網格進行了細粒度的切割，原來的一個格子被切成了 4（2 × 2）個。

結果原來能做對的題，切成小塊之後，o1-mini 還真就不靈了。

進一步地，米哥還對 ARC 數據集中的規模分布進行了統計，結果剛好是規模在 1024 個像素的題目數量最多。

還記得前面 o3 成績下降趨勢突然變大的位置吧，剛好就是在 1024 附近。

米哥認為，這就是 o3 在 ARC 挑戰上取得優異成績的重要因素，而其他模型成績不佳，是因為對應的小規模試題占比較少。

所以在米哥看來，ARC 挑戰并不能完全反映大模型真實的推理能力——有不少模型都被低估，o3 則是被高估了。

ARC 挑戰不适合大模型？

那麼，為什麼題目中網格數量一多，大模型的表現就不好了呢？

先來看米哥的分析。

米哥引用了紐約大學的一項研究結果（arXiv：2409.01374），這項研究發現人類在挑戰這樣的問題時并不會出現這種現象。

如果在人類和模型之間做個比較，那麼在規模較小時 o3 的表現可以説完勝人類，但規模較大時優勝方就變成了人類。

這説明，大模型在解決此類問題時，思考方式和人類依然存在差别。

當然，大模型在挑戰 ARC 時看到的不是影像，而是用數字代表的矩陣，這是顯而易見的，但差别還不止于此。

人類在面對 ARC 問題時，即使是用這種數字矩陣來表示，也能夠看出視覺信息，理解其中的位置關系。

在空間中，ARC 是一個二維問題，需要跨行和列進行推理，但大模型在處理 token 時是以一維格式進行的。

這意味着，大模型進行跨列推理時，需要組合較長的上下文信息。

而随着網格變得更大，模型需要對更長的上下文進行推理，并且必須對相距較遠的數字進行組合和推理。

米哥之前曾經和劍橋大學高級研究員 Soumya Banerjee 此前進行的一項研究（arXiv：2402.03507）表明，通過對矩陣進行 90 度旋轉，讓模型分别基于行和列進行推理，比直接做題成績提高了一倍。

所以米哥認為，是觀察問題的維度影響了大模型的成績，ARC 這種任務并不适合大模型。

他還表示在 NeurIPS 上聽到了一個很好的類比——

将二維的 ARC 任務交給大模型，就像期望人類在四維空間中進行推理。

同時網友們還指出，雖然本質上涉及了維度差異，但視覺依然是一個重要因素。

想象一下，如果人沒有視覺能力，單純依靠聽或其他方式獲得關于其中網格的信息，也很難直接構建出二維的矩陣。

不過説到這，即便模型擁有 " 視覺 " 能力，也是将視覺信息轉換為 Token，和人類的視覺也未必相同。

網友認為，真正的視覺需要能夠處理并行輸入的信息，而不是逐個 Token 的串行輸入，二進制 IO 數據流或許是一種解決方案。

One More Thing

根據 ARC 挑戰官方的説法，ARC-AGI 的下一代 ARC-AGI-2 即将推出。

早期測試表明，其将對 o3 構成重大挑戰——

即使在高計算量模式下，o3 的得分也可能會降低到 30% 以下（而聰明人仍然能夠得分超過 95%）。

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>