今天小編分享的科技經驗:OpenAI 員工公開指責 xAI:Grok 3 基準測試結果具有誤導性,歡迎閲讀。
IT 之家 2 月 23 日消息,本周,OpenAI 的一名員工公開指責埃隆・馬斯克旗下的 xAI 公司,稱其發布的最新 AI 模型 Grok 3 的基準測試結果具有誤導性。對此,xAI 的聯合創始人伊戈爾・巴布什金(Igor Babushkin)則堅稱公司并無不當。
xAI 在其博客上發布了一張圖表,展示了 Grok 3 在 AIME 2025(一項近期邀請制數學考試中的高難度數學題集)上的表現。盡管一些專家質疑 AIME 作為 AI 基準的有效性,但 AIME 2025 及其早期版本仍被廣泛用于評估模型的數學能力。
IT 之家注意到,xAI 的圖表顯示,Grok 3 的兩個版本 —— Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning —— 在 AIME 2025 上的表現超過了 OpenAI 當前最強的可用模型 o3-mini-high。然而,OpenAI 的員工很快在 X 平台上指出,xAI 的圖表并未包含 o3-mini-high 在 "cons@64" 條件下的 AIME 2025 得分。
"cons@64" 是指 "consensus@64",即允許模型在基準測試中對每個問題嘗試 64 次,并将出現頻率最高的答案作為最終答案。可想而知,這種方式往往會顯著提升模型的基準測試分數,如果圖表中省略這一數據,就可能讓人誤以為某個模型的表現優于另一模型,而實際情況未必如此。
在 AIME 2025 的 "@1" 條件下(即模型首次嘗試的得分),Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表現也略低于 OpenAI 的 o1 模型在 " 中等計算 " 設定下的得分。然而,xAI 仍在宣傳 Grok 3 為 " 世界上最聰明的 AI"。
巴布什金在 X 平台上辯稱,OpenAI 過去也曾發布過類似的誤導性基準測試圖表。盡管這些圖表是用于比較其自身模型的表現。
在這場争議中,一位中立的第三方重新繪制了一張更為 " 準确 " 的圖表:
但正如 AI 研究員内森・蘭伯特(Nathan Lambert)在一篇文章中指出的,或許最重要的指标仍然未知:每個模型達到最佳分數所需的計算(和金錢)成本。這恰恰表明,大多數 AI 基準測試在傳達模型的局限性和優勢方面仍然存在很大的不足。