開源巨頭Meta陷“刷榜”争議，Llama 4暴露大模型評測機制隐憂

今天小編分享的财經經驗：開源巨頭Meta陷“刷榜”争議，Llama 4暴露大模型評測機制隐憂，歡迎閲讀。

圖片來源：視覺中國

藍鲸新聞 4 月 9 日訊（記者朱俊熹）開源霸主 Meta 近來陷入了尴尬的境地。當地時間 4 月 5 日，Meta 發布了全新的 Llama 4 系列模型。但很快便因為實測效果不及預期，而遭遇 " 刷榜 " 争議。

Meta 此次率先推出了 Llama 4 系列中的 Scout（偵察者）、Maverick（獨行俠）兩款模型，并預覽了仍在訓練中的 Behemoth（巨獸）模型。據其介紹，Llama 4 Maverick 在 LM Arena 評測榜中位居第二，超越了 ChatGPT-4o、DeepSeek-V3 等領先模型，僅次于谷歌的 Gemini 2.5 pro。

圖片來源：Meta

但引起注意的是，Meta 在公告的注腳處提到，該項測試使用的是針對對話優化版的 Llama 4 Maverick 模型。4 月 8 日，LM Arena 平台在社交媒體 X 上回應稱，"Meta 對我們政策的理解與我們對模型提供商的預期不符。Meta 本應更明确地説明‘ Llama-4-Maverick-03-26-Experimental ’是一個針對人類偏好優化的定制模型。"LM Arena 表示，将會添加 Maverick 的公開版本，并會對排行榜政策進行更新，以強化公平、可重復評估性。

LM Arena 模型基準測試平台由加州大學伯克利分校 SkyLab 的研究人員創建。有别于其他評測集，它采用的是眾包的投票方式。在該平台上，用户可以向兩個匿名的 AI 對話助手提出任何問題，投票選出認為更優的答案，以此評選得到最佳的大模型。

在關于 Llama 4 的回應中，LM Arena 提到，初步分析顯示，風格和模型回應的語氣是影響排名的重要因素，正在進行更深入的分析，表情符号的使用或許也會產生影響。一位國内大廠大模型從業者告訴藍鲸新聞，用户在評測時，會偏向于選擇回答更長的、活潑的、會誇人的模型。

根據 LM Arena 公布的評選過程不難發現，Llama 4 Maverick 實驗版在回答時，篇幅要顯著長于其他模型，語氣更貼近真人對話，還會積極使用表情符号。但有使用者發現，當詢問同樣的問題時，用于 LM Arena 測試的實驗版和部署在其他平台上的版本所生成的回復風格存在較大出入。

圖片來源：Llama 4 Maverick 實驗版生成的回復

北京理工大學研究語言模型評測與推理方向的博士生袁沛文對藍鲸新聞表示，通過 LM Arena 所采用的眾包形式，盡管大眾的提問足夠有泛化性，是模型訓練時不可知的，但依然存在 " 刷榜 " 風險。LM Arena 平台主打盲測，但可以借助各種隐蔽的方式實現去匿名化，例如直接詢問它是哪個模型、通過一些後門特征來判别模型，或通過水印技術檢測出自家模型。在去匿名化之後，大模型廠商就可以通過海量 IP 來為自己的模型刷票。

除了眾包投票外，業内也會采用其他的大模型評測方式，但當下都難以做到完全的客觀、全面。據袁沛文介紹，最為廣泛采用的評測形式是大模型 Benchmark（基準測試），即人類專家圍繞某項任務來出題，讓模型進行回答，看是否與人類期望相同。由于模型從互聯網平台上獲取訓練語料，難免會摻雜一些基準測試。負責任的開發者會主動從訓練集中過濾這部分測試集，也有人可能會采取相反的做法，甚至可能在後訓練階段讓模型在一些主流基準測試上做強化，使其測試表現明顯虛高，" 就像訓練時背過了題目和答案 "。

此前 Meta 首席 AI 科學家、圖靈獎得主楊立昆還參與發起了一項評測榜單 LiveBench，被稱作 " 最難作弊 " 的榜單。LiveBench 主打提供具有挑戰性、無污染的基準測試，每月對問題進行更新。袁沛文指出，雖然這能避免模型提前背題，但一個問題在于是否總能收集到足夠多的數據實現更新。實際上，LiveBench 的更新頻率也越來越慢，除本月的更新外，上一次更新還要追溯到五個月前。此外，一些垂類評測領網域也無法被覆蓋，難以知道模型在具體業務場景上的能力表現。

" 不難發現，現有的範式都沒法從根本上同時滿足兩個評測領網域的核心願景：一是可信，沒有辦法刷榜；二是可擴展，任何評測需求、能力、場景都能被滿足。" 袁沛文表示。

面對 " 刷榜 " 質疑風波，Meta 副總裁兼 GenAI 負責人 Ahmad Al-Dahle 在社交媒體上否認了在測試集上進行模型訓練的説法，" 我們絕不會這麼做 "。據其説法，用户感知到的質量差異是由于穩定性還沒有完全調整到位。

抛開備受争議的 LM Arena 測試，Meta 公布的結果顯示，Llama 4 Maverick 在部分基準測試上表現優于 GPT-4o、Gemini 2.0 Flash、DeepSeek-V3 等模型，但不及更為領先的 GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro 等。尚未發布的 Llama 4 Behemoth 會在以 STEM 為重點的基準測試上對标這些頂尖模型。此外，目前 Meta 公布的模型中還沒有類似 OpenAI o1、DeepSeek-R1 的推理模型。

自 DeepSeek 年初引發海内外熱議以來，對此前在開源領網域占據領先的 Meta 同樣造成巨大衝擊。據媒體此前報道，Meta 為此組建了多個專門的研究小組，對 DeepSeek 進行分析并希望借此改進 Llama 模型。

Meta 表示，全新的 Llama 4 模型是其首批使用 MoE（混合專家）架構的模型。DeepSeek-V3、阿裏 Qwen2.5-Max 等模型也是基于 MoE 架構，在處理單個 token 時只激活模型中的部分參數，以實現更高的計算效率。

硅谷科技媒體 The Information 引述知情人士説法稱，在過去一年多的時間裏，Meta 的研究人員一直在激烈地争論，究竟要将 Llama 4 變成 MoE 模型還是延續一直采用的 Dense 模型。對 Meta 來説，做出改變技術方案的決定并不容易。