大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Llama 4遭競技場背刺!實錘用特供版刷榜,2000+對戰記錄公開

2025-04-08 简体 HK SG TW

今天小編分享的科學經驗:Llama 4遭競技場背刺!實錘用特供版刷榜,2000+對戰記錄公開,歡迎閱讀。

Llama 4 真要被錘爆了,這次是大模型競技場(Chatbot Arena)官方親自下場開怼:

競技場上,Meta 提供給他們的是特供版!

以下是競技場背後 lmarena.ai 團隊的原話:

我們注意到社區對 Llama-4 最新版本在 Arena 平台的發布存在疑問。為确保完全透明,現公開 2000 餘組模型對戰數據供公眾審閱,包含用戶提示詞、模型回復及用戶偏好數據(鏈接詳見下一條推文)。

初步分析表明,模型回復風格與語氣是重要影響因素(詳見風格控制排名),我們正在進行更深入的分析!(比如表情符号控制?)

此外,我們即将在 Arena 平台上線 Llama-4-Maverick 的 HuggingFace 版本,排行榜結果将稍後公布。

Meta 對我們平台政策的理解與我們對模型提供商的期待存在偏差—— Meta 本應明确标注"Llama-4-Maverick-03-26-Experimental" 是經過人類偏好優化的定制模型。

為此,我們正在更新排行榜政策,以強化對公平性、可復現性評估的承諾,避免未來再出現此類混淆。

總結一下就是:

公開對戰數據,正分析排名受影響因素

譴責 Meta 未明确标注模型版本導致評測混淆

後續:上線 Llama-4-Maverick 的 HuggingFace 版、更新排行榜政策

官方下場表态後,Llama 4 和 Meta 的路人緣進一步下降。

2000+ 輪對戰記錄完整公開

來看看 lmarena.ai 公開的模型對戰記錄詳情。

首先來看網友實測時對 Llama 4 抱怨較大的代碼生成任務。

競技場中 Llama-4-Maverick-03-26-Experimental 版本生成代碼的表現的确是 OK 的。

prompt:

create me fun web based game that i can just run the code and works(幫我創建一個有趣的網頁遊戲,我只需運行代碼就能玩)

Llama-4-Maverick-03-26-Experimental 對戰加拿大 AI 初創公司 Cohere 的command-a-03-2025。

上文 lmarena.ai 調查表示 " 模型回復風格與語氣是重要影響因素 ",從對戰數據中的确可以看出 Llama-4-Maverick-03-26-Experimental 的回復中會增加如 "A very nice and very direct request!" "That ’ s it!    ""Happy gaming!" 等展示友好的語句以及表情包。

運行兩個模型生成的代碼。

command-a-03-2025 生成的小遊戲是移動滑鼠控制綠色籃子接住橙色小球,看效果顯然有 bug,小球直接穿過籃子,分數也沒有變動:

Llama-4-Maverick-03-26-Experimental 生成的小遊戲玩法是移動滑鼠控制紅色方塊,點擊四處移動的藍色圓點 +10 分,點擊黑色炸彈 -10 分,每局遊戲 30 秒。

可以正常運行,計分也比較準确:

這局 command-a-03-2025 輸的不冤。

另外,之所以展示 Llama-4-Maverick-03-26-Experimental 和 command-a-03-2025 的對比,是因為有網友發現 Llama 4 聲稱的關鍵創新 "interleaved no-RoPE attention" 和 command-a 的如出一轍:

再看一個起标題的任務,prompt:

I will give a congress talk "On Naevi" — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation ( 我将在一個學術會議上作關于 " 痣 " 的演講——痣是黑素細胞良性病變,可作為黑色素瘤的标志物,有時甚至是其前驅病變。您能否為我的演講推薦一個簡潔有力的标題? )

Llama-4-Maverick-03-26-Experimental 對戰的是 claude-3-5-sonnet-20241022。

對比來看,claude-3-5-sonnet-20241022 的回復言簡意赅,直接給出 5 個标題:

Llama-4-Maverick-03-26-Experimental 的回復更為詳細。

不僅會提供情緒價值,如 A very timely and relevant topic!   Congrats on getting the slot at congress, by the way!(選題非常應景且切合實際!恭喜拿下大會報告機會),而且從不同角度分别提供了幾個标題:

這還沒完,Llama-4-Maverick-03-26-Experimental 還會貼心地指出選擇标題時需要考慮的因素以及它自己選擇的 top 3 标題。

最後再來随機看一道中文題目:

解析一下這部微小說 題目 自駕遊 當年我自駕遊 不小心壓死了一頭羊 羊的主人好熱情 宰了羊給我們吃 還送我們到火車站 在回來的路上 看着火車外的風景 真的好感人

對戰 o3-mini,Llama-4-Maverick-03-26-Experimental 再次展現出超長輸出的特點,故事分析完了還拆解了作者為啥要這樣設計,作者本人可能都沒想這麼多(doge):

對戰數據看下來,Llama-4-Maverick-03-26-Experimental 的排名會這麼高,也不奇怪。

此前網友質疑 Llama-4-Maverick-03-26-Experimental 刷票的可能性降低。

Llama 4 深陷 " 造假 " 醜聞

如開頭所述,Llama 4 被 lmarena.ai 站出來抨擊的原因,是因為測試排名和實際表現不符。

在大模型競技場中,Llama 4 得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個突破 1400 分的模型。

而且跑分超越了 DeepSeek-V3,直接成為榜單上排名第一的開源模型。

但沒過多久,人們就發現 Llama 4 的實際表現相當拉胯,一時間差評如潮,甚至還被做成了表情包。

比如經典 " 氛圍編程 " 小球反彈測試,小球直接穿過牆壁掉了下去。

其它跑分方面,到了各種第三方基準測試中,情況也大多直接逆轉,排名掉到了末尾。

并且從 Meta GenAI 負責人 Ahmad Al-Dahle 的推文當中也能看懂,競技場中的 Llama 4,确實是一個特殊版本。

而在最新的推文中,Ahmad 表示 Llama 4 絕對沒有使用測試集進行訓練,表現存在差異的原因是還需要穩定的部署。

對于這一解釋,有人并不買賬,直言這種現象在其他模型當中從未見過。

Meta 的支持者則表示,希望表現不佳真的是供應商的問題所致。

大模型競技場,還能信嗎?

被卷入這次旋渦的不僅是 Llama 4 和背後的 Meta,涉及到的大模型競技場也引起了人們的廣泛讨論。

畢竟 Llama 4 的 " 造假 " 風波就是發生在競技場上,所以也自然有人質疑起了榜單的權威性。

有人指出,競技場的偏差不只體現在 Llama 4 被高估上,還有 Claude 3.7 的表現被低估了。

當然,官方快速回應并公開了測試中的細節,這個做法獲得了網友的肯定,說明至少在态度和透明度上是說得過去的。

但也有人認為,無論官方态度端不端正,Llama 4 事件說明這種 " 人類評價 AI" 的方法,本身已經不适用了。

人們日常生活中的問題,幾乎所有領先模型都能完美解答,誰還會去認真投票,這個基準已經過時了。

有人補充說," 人類偏好 " 不是評價高級大模型能力的可靠标準,產生較大偏差是正常的。

還有人表示,從官方發布的消息來看,lmarena.ai 自己都不清楚自己的基準。

這名網友解釋,特調版 Llama 4 獲得用戶投票的原因并非 lmarena.ai 所說的 " 表情符号 ",而是因為更具親和力。

當然也有人提了些建設性的意見,比如更改 ELO 評分的算法,或者啟用強制風格轉換。

但總之,無論是迭代改進還是另辟蹊徑,都是時候更新對大模型的評價方式了。

參考鏈接:

[ 1 ] https://x.com/lmarena_ai/status/1909397817434816562

[ 2 ] https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

[ 3 ] https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟  ‍♀️

最新嘉賓曝光啦   百度、華為、AWS、MSRA、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們