大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 财經

開源巨頭Meta陷“刷榜”争議,Llama 4暴露大模型評測機制隐憂

2025-04-09 简体 HK SG TW

今天小編分享的财經經驗:開源巨頭Meta陷“刷榜”争議,Llama 4暴露大模型評測機制隐憂,歡迎閲讀。

圖片來源:視覺中國

藍鲸新聞 4 月 9 日訊(記者 朱俊熹)開源霸主 Meta 近來陷入了尴尬的境地。當地時間 4 月 5 日,Meta 發布了全新的 Llama 4 系列模型。但很快便因為實測效果不及預期,而遭遇 " 刷榜 " 争議。

Meta 此次率先推出了 Llama 4 系列中的 Scout(偵察者)、Maverick(獨行俠)兩款模型,并預覽了仍在訓練中的 Behemoth(巨獸)模型。據其介紹,Llama 4 Maverick 在 LM Arena 評測榜中位居第二,超越了 ChatGPT-4o、DeepSeek-V3 等領先模型,僅次于谷歌的 Gemini 2.5 pro。

圖片來源:Meta

但引起注意的是,Meta 在公告的注腳處提到,該項測試使用的是針對對話優化版的 Llama 4 Maverick 模型。4 月 8 日,LM Arena 平台在社交媒體 X 上回應稱,"Meta 對我們政策的理解與我們對模型提供商的預期不符。Meta 本應更明确地説明‘ Llama-4-Maverick-03-26-Experimental ’是一個針對人類偏好優化的定制模型。"LM Arena 表示,将會添加 Maverick 的公開版本,并會對排行榜政策進行更新,以強化公平、可重復評估性。

LM Arena 模型基準測試平台由加州大學伯克利分校 SkyLab 的研究人員創建。有别于其他評測集,它采用的是眾包的投票方式。在該平台上,用户可以向兩個匿名的 AI 對話助手提出任何問題,投票選出認為更優的答案,以此評選得到最佳的大模型。

在關于 Llama 4 的回應中,LM Arena 提到,初步分析顯示,風格和模型回應的語氣是影響排名的重要因素,正在進行更深入的分析,表情符号的使用或許也會產生影響。一位國内大廠大模型從業者告訴藍鲸新聞,用户在評測時,會偏向于選擇回答更長的、活潑的、會誇人的模型。

根據 LM Arena 公布的評選過程不難發現,Llama 4 Maverick 實驗版在回答時,篇幅要顯著長于其他模型,語氣更貼近真人對話,還會積極使用表情符号。但有使用者發現,當詢問同樣的問題時,用于 LM Arena 測試的實驗版和部署在其他平台上的版本所生成的回復風格存在較大出入。

圖片來源:Llama 4 Maverick 實驗版生成的回復

北京理工大學研究語言模型評測與推理方向的博士生袁沛文對藍鲸新聞表示,通過 LM Arena 所采用的眾包形式,盡管大眾的提問足夠有泛化性,是模型訓練時不可知的,但依然存在 " 刷榜 " 風險。LM Arena 平台主打盲測,但可以借助各種隐蔽的方式實現去匿名化,例如直接詢問它是哪個模型、通過一些後門特征來判别模型,或通過水印技術檢測出自家模型。在去匿名化之後,大模型廠商就可以通過海量 IP 來為自己的模型刷票。

除了眾包投票外,業内也會采用其他的大模型評測方式,但當下都難以做到完全的客觀、全面。據袁沛文介紹,最為廣泛采用的評測形式是大模型 Benchmark(基準測試),即人類專家圍繞某項任務來出題,讓模型進行回答,看是否與人類期望相同。由于模型從互聯網平台上獲取訓練語料,難免會摻雜一些基準測試。負責任的開發者會主動從訓練集中過濾這部分測試集,也有人可能會采取相反的做法,甚至可能在後訓練階段讓模型在一些主流基準測試上做強化,使其測試表現明顯虛高," 就像訓練時背過了題目和答案 "。

此前 Meta 首席 AI 科學家、圖靈獎得主楊立昆還參與發起了一項評測榜單 LiveBench,被稱作 " 最難作弊 " 的榜單。LiveBench 主打提供具有挑戰性、無污染的基準測試,每月對問題進行更新。袁沛文指出,雖然這能避免模型提前背題,但一個問題在于是否總能收集到足夠多的數據實現更新。實際上,LiveBench 的更新頻率也越來越慢,除本月的更新外,上一次更新還要追溯到五個月前。此外,一些垂類評測領網域也無法被覆蓋,難以知道模型在具體業務場景上的能力表現。

" 不難發現,現有的範式都沒法從根本上同時滿足兩個評測領網域的核心願景:一是可信,沒有辦法刷榜;二是可擴展,任何評測需求、能力、場景都能被滿足。" 袁沛文表示。

面對 " 刷榜 " 質疑風波,Meta 副總裁兼 GenAI 負責人 Ahmad Al-Dahle 在社交媒體上否認了在測試集上進行模型訓練的説法," 我們絕不會這麼做 "。據其説法,用户感知到的質量差異是由于穩定性還沒有完全調整到位。

抛開備受争議的 LM Arena 測試,Meta 公布的結果顯示,Llama 4 Maverick 在部分基準測試上表現優于 GPT-4o、Gemini 2.0 Flash、DeepSeek-V3 等模型,但不及更為領先的 GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro 等。尚未發布的 Llama 4 Behemoth 會在以 STEM 為重點的基準測試上對标這些頂尖模型。此外,目前 Meta 公布的模型中還沒有類似 OpenAI o1、DeepSeek-R1 的推理模型。

自 DeepSeek 年初引發海内外熱議以來,對此前在開源領網域占據領先的 Meta 同樣造成巨大衝擊。據媒體此前報道,Meta 為此組建了多個專門的研究小組,對 DeepSeek 進行分析并希望借此改進 Llama 模型。

Meta 表示,全新的 Llama 4 模型是其首批使用 MoE(混合專家)架構的模型。DeepSeek-V3、阿裏 Qwen2.5-Max 等模型也是基于 MoE 架構,在處理單個 token 時只激活模型中的部分參數,以實現更高的計算效率。

硅谷科技媒體 The Information 引述知情人士説法稱,在過去一年多的時間裏,Meta 的研究人員一直在激烈地争論,究竟要将 Llama 4 變成 MoE 模型還是延續一直采用的 Dense 模型。對 Meta 來説,做出改變技術方案的決定并不容易。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們