今天小編分享的科學經驗:Llama 4發布36小時差評如潮!匿名員工爆料拒絕署名技術報告,歡迎閱讀。
Meta 最新基礎模型 Llama 4 發布 36 小時後,評論區居然是這個畫風:
失望,非常失望
不知道他們後訓練怎麼搞的,總之不太行
在 [ 各種測試 ] 2 中失敗
……
還被做成表情包調侃,總結起來就是一個 " 差評如潮 "。
具體來看,大家的抱怨主要集中在代碼能力。
最直觀的要數經典 " 氛圍編程 " 小球反彈測試,小球直接穿過牆壁掉下去了。
反映在榜單上,成績也相當割裂。
發布時的官方測評(LiveCodeBench)分數和在大模型競技場表現明明都很不錯。
但到了各種第三方基準測試中,情況大多直接逆轉,排名末尾。
讓人不由得懷疑,這個競技場排名到底是數據過拟合,還是刷票了。
就在 Llama 4 即将發布前幾天,Meta AI 研究主管 Joelle Pineau 在工作 8 年之後突然宣布離職,總之就是不太妙。
大模型關注者們火熱實測吐槽之際,一則有關 Llama 4 的匿名爆料,突然引起軒然大波:
有網友稱自己已向 Meta GenAI 部門提交提交辭職,并要求不要署名在 Llama 4 的技術報告上。
原貼發布在海外留學求職交流平台一畝三分地,在國内也引起很多讨論。
此爆料尚未得到證實,但有人搬出 Meta GenAI 負責人 Ahmad Al-Dahle 的帖子,至少能看出在 Llama 4 大模型競技場裡運行的是特殊版本模型。
還有 Meta 前員工借此話題貼出 2024 年 11 月的一項研究,指出從 Llama 1 開始數據洩露的問題就存在了。
也不只是編程能力一個方面有問題,在 EQBench 測評基準的的長文章寫作榜中,Llama 4 系列也直接墊底。
榜單維護者 _sqrkl 說明了具體情況。
測試非常簡單,模型需要先完成一個短篇小說的頭腦風暴、反思并修改寫作計劃,最終每輪寫 1000 字,重復 8 輪以上。
由 Claude-Sonnet 3.7 來當裁判,先對每個章節單獨打分,再對整個作品打分。
Llama 4 的低分表現在寫到後面開始大段的内容重復,以及寫作非常公式化。
對此結果,有一個猜想是之前的版權訴訟讓 Meta 删除了網絡和書籍數據,使用了更多的合成數據。
在這場訴訟中,許多作家發現自己的作品可能被用于 AI 訓練,還到倫敦的 Meta 辦公室附近發起抗議。
Llama 4 發布後的種種,讓人聯想到年初的匿名員工爆,有網友表示當初只是随便看看,現在卻開始相信了:
在這條爆料中,Deepseek v3 出來之後,訓練中的 Llama4 就顯得落後了,中層管理的薪水都比 DeepSeek V3 的訓練成本都高,Meta 内部陷入恐慌模式。
讓人不由得感嘆,DeepSeel-R1 橫空出世僅僅兩個月時間,卻像過了幾輩子。
參考鏈接:
[ 1 ] https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
[ 2 ] https://www.1point3acres.com/bbs/thread-1122600-1-1.html
[ 3 ] https://x.com/suchenzang/status/1909070231517143509
https://x.com/TheAhmadOsman/status/1908833792111906894
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟 ♀️
最新嘉賓曝光啦 百度、華為、AWS、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見