Llama 4遭競技場背刺！實錘用特供版刷榜，2000+對戰記錄公開

今天小編分享的科學經驗：Llama 4遭競技場背刺！實錘用特供版刷榜，2000+對戰記錄公開，歡迎閱讀。

Llama 4 真要被錘爆了，這次是大模型競技場（Chatbot Arena）官方親自下場開怼：

競技場上，Meta 提供給他們的是特供版！

以下是競技場背後 lmarena.ai 團隊的原話：

我們注意到社區對 Llama-4 最新版本在 Arena 平台的發布存在疑問。為确保完全透明，現公開 2000 餘組模型對戰數據供公眾審閱，包含用戶提示詞、模型回復及用戶偏好數據（鏈接詳見下一條推文）。

初步分析表明，模型回復風格與語氣是重要影響因素（詳見風格控制排名），我們正在進行更深入的分析！（比如表情符号控制？）

此外，我們即将在 Arena 平台上線 Llama-4-Maverick 的 HuggingFace 版本，排行榜結果将稍後公布。

Meta 對我們平台政策的理解與我們對模型提供商的期待存在偏差—— Meta 本應明确标注"Llama-4-Maverick-03-26-Experimental" 是經過人類偏好優化的定制模型。

為此，我們正在更新排行榜政策，以強化對公平性、可復現性評估的承諾，避免未來再出現此類混淆。

總結一下就是：

公開對戰數據，正分析排名受影響因素

譴責 Meta 未明确标注模型版本導致評測混淆

後續：上線 Llama-4-Maverick 的 HuggingFace 版、更新排行榜政策

官方下場表态後，Llama 4 和 Meta 的路人緣進一步下降。

2000+ 輪對戰記錄完整公開

來看看 lmarena.ai 公開的模型對戰記錄詳情。

首先來看網友實測時對 Llama 4 抱怨較大的代碼生成任務。

競技場中 Llama-4-Maverick-03-26-Experimental 版本生成代碼的表現的确是 OK 的。

prompt：

create me fun web based game that i can just run the code and works（幫我創建一個有趣的網頁遊戲，我只需運行代碼就能玩）

Llama-4-Maverick-03-26-Experimental 對戰加拿大 AI 初創公司 Cohere 的command-a-03-2025。

上文 lmarena.ai 調查表示 " 模型回復風格與語氣是重要影響因素 "，從對戰數據中的确可以看出 Llama-4-Maverick-03-26-Experimental 的回復中會增加如 "A very nice and very direct request!" "That ’ s it! ""Happy gaming!" 等展示友好的語句以及表情包。

運行兩個模型生成的代碼。

command-a-03-2025 生成的小遊戲是移動滑鼠控制綠色籃子接住橙色小球，看效果顯然有 bug，小球直接穿過籃子，分數也沒有變動：

Llama-4-Maverick-03-26-Experimental 生成的小遊戲玩法是移動滑鼠控制紅色方塊，點擊四處移動的藍色圓點 +10 分，點擊黑色炸彈 -10 分，每局遊戲 30 秒。

可以正常運行，計分也比較準确：

這局 command-a-03-2025 輸的不冤。

另外，之所以展示 Llama-4-Maverick-03-26-Experimental 和 command-a-03-2025 的對比，是因為有網友發現 Llama 4 聲稱的關鍵創新 "interleaved no-RoPE attention" 和 command-a 的如出一轍：

再看一個起标題的任務，prompt：

I will give a congress talk "On Naevi" — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation ( 我将在一個學術會議上作關于 " 痣 " 的演講——痣是黑素細胞良性病變，可作為黑色素瘤的标志物，有時甚至是其前驅病變。您能否為我的演講推薦一個簡潔有力的标題？ )

Llama-4-Maverick-03-26-Experimental 對戰的是 claude-3-5-sonnet-20241022。

對比來看，claude-3-5-sonnet-20241022 的回復言簡意赅，直接給出 5 個标題：

Llama-4-Maverick-03-26-Experimental 的回復更為詳細。

不僅會提供情緒價值，如 A very timely and relevant topic! Congrats on getting the slot at congress, by the way!（選題非常應景且切合實際！恭喜拿下大會報告機會），而且從不同角度分别提供了幾個标題：

這還沒完，Llama-4-Maverick-03-26-Experimental 還會貼心地指出選擇标題時需要考慮的因素以及它自己選擇的 top 3 标題。

最後再來随機看一道中文題目：

解析一下這部微小說題目自駕遊當年我自駕遊不小心壓死了一頭羊羊的主人好熱情宰了羊給我們吃還送我們到火車站在回來的路上看着火車外的風景真的好感人

對戰 o3-mini，Llama-4-Maverick-03-26-Experimental 再次展現出超長輸出的特點，故事分析完了還拆解了作者為啥要這樣設計，作者本人可能都沒想這麼多（doge）：

對戰數據看下來，Llama-4-Maverick-03-26-Experimental 的排名會這麼高，也不奇怪。

此前網友質疑 Llama-4-Maverick-03-26-Experimental 刷票的可能性降低。

Llama 4 深陷 " 造假 " 醜聞

如開頭所述，Llama 4 被 lmarena.ai 站出來抨擊的原因，是因為測試排名和實際表現不符。

在大模型競技場中，Llama 4 得分 1417，不僅大大超越了此前 Meta 自家的 Llama-3-405B（提升了 149 分），還成為史上第 4 個突破 1400 分的模型。

而且跑分超越了 DeepSeek-V3，直接成為榜單上排名第一的開源模型。

但沒過多久，人們就發現 Llama 4 的實際表現相當拉胯，一時間差評如潮，甚至還被做成了表情包。

比如經典 " 氛圍編程 " 小球反彈測試，小球直接穿過牆壁掉了下去。

其它跑分方面，到了各種第三方基準測試中，情況也大多直接逆轉，排名掉到了末尾。

并且從 Meta GenAI 負責人 Ahmad Al-Dahle 的推文當中也能看懂，競技場中的 Llama 4，确實是一個特殊版本。

而在最新的推文中，Ahmad 表示 Llama 4 絕對沒有使用測試集進行訓練，表現存在差異的原因是還需要穩定的部署。

對于這一解釋，有人并不買賬，直言這種現象在其他模型當中從未見過。

Meta 的支持者則表示，希望表現不佳真的是供應商的問題所致。

大模型競技場，還能信嗎？

被卷入這次旋渦的不僅是 Llama 4 和背後的 Meta，涉及到的大模型競技場也引起了人們的廣泛讨論。

畢竟 Llama 4 的 " 造假 " 風波就是發生在競技場上，所以也自然有人質疑起了榜單的權威性。

有人指出，競技場的偏差不只體現在 Llama 4 被高估上，還有 Claude 3.7 的表現被低估了。

當然，官方快速回應并公開了測試中的細節，這個做法獲得了網友的肯定，說明至少在态度和透明度上是說得過去的。

但也有人認為，無論官方态度端不端正，Llama 4 事件說明這種 " 人類評價 AI" 的方法，本身已經不适用了。

人們日常生活中的問題，幾乎所有領先模型都能完美解答，誰還會去認真投票，這個基準已經過時了。

有人補充說，" 人類偏好 " 不是評價高級大模型能力的可靠标準，產生較大偏差是正常的。

還有人表示，從官方發布的消息來看，lmarena.ai 自己都不清楚自己的基準。

這名網友解釋，特調版 Llama 4 獲得用戶投票的原因并非 lmarena.ai 所說的 " 表情符号 "，而是因為更具親和力。

當然也有人提了些建設性的意見，比如更改 ELO 評分的算法，或者啟用強制風格轉換。

但總之，無論是迭代改進還是另辟蹊徑，都是時候更新對大模型的評價方式了。

參考鏈接：

[ 1 ] https://x.com/lmarena_ai/status/1909397817434816562

[ 2 ] https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

[ 3 ] https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國 AIGC 產業峰會觀眾報名通道已開啟 ‍♀️

最新嘉賓曝光啦百度、華為、AWS、MSRA、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會，讓更多人用上 AI、用好 AI，與 AI 一同加速成長～

4 月 16 日，就在北京，一起來深度求索 AI 怎麼用

一鍵星标

科技前沿進展每日見