Llama 4發布36小時差評如潮！匿名員工爆料拒絕署名技術報告

今天小編分享的科學經驗：Llama 4發布36小時差評如潮！匿名員工爆料拒絕署名技術報告，歡迎閱讀。

Meta 最新基礎模型 Llama 4 發布 36 小時後，評論區居然是這個畫風：

失望，非常失望

不知道他們後訓練怎麼搞的，總之不太行

在 [ 各種測試 ] 2 中失敗

……

還被做成表情包調侃，總結起來就是一個 " 差評如潮 "。

具體來看，大家的抱怨主要集中在代碼能力。

最直觀的要數經典 " 氛圍編程 " 小球反彈測試，小球直接穿過牆壁掉下去了。

反映在榜單上，成績也相當割裂。

發布時的官方測評（LiveCodeBench）分數和在大模型競技場表現明明都很不錯。

但到了各種第三方基準測試中，情況大多直接逆轉，排名末尾。

讓人不由得懷疑，這個競技場排名到底是數據過拟合，還是刷票了。

就在 Llama 4 即将發布前幾天，Meta AI 研究主管 Joelle Pineau 在工作 8 年之後突然宣布離職，總之就是不太妙。

大模型關注者們火熱實測吐槽之際，一則有關 Llama 4 的匿名爆料，突然引起軒然大波：

有網友稱自己已向 Meta GenAI 部門提交提交辭職，并要求不要署名在 Llama 4 的技術報告上。

原貼發布在海外留學求職交流平台一畝三分地，在國内也引起很多讨論。

此爆料尚未得到證實，但有人搬出 Meta GenAI 負責人 Ahmad Al-Dahle 的帖子，至少能看出在 Llama 4 大模型競技場裡運行的是特殊版本模型。

還有 Meta 前員工借此話題貼出 2024 年 11 月的一項研究，指出從 Llama 1 開始數據洩露的問題就存在了。

也不只是編程能力一個方面有問題，在 EQBench 測評基準的的長文章寫作榜中，Llama 4 系列也直接墊底。

榜單維護者 _sqrkl 說明了具體情況。

測試非常簡單，模型需要先完成一個短篇小說的頭腦風暴、反思并修改寫作計劃，最終每輪寫 1000 字，重復 8 輪以上。

由 Claude-Sonnet 3.7 來當裁判，先對每個章節單獨打分，再對整個作品打分。

Llama 4 的低分表現在寫到後面開始大段的内容重復，以及寫作非常公式化。

對此結果，有一個猜想是之前的版權訴訟讓 Meta 删除了網絡和書籍數據，使用了更多的合成數據。

在這場訴訟中，許多作家發現自己的作品可能被用于 AI 訓練，還到倫敦的 Meta 辦公室附近發起抗議。

Llama 4 發布後的種種，讓人聯想到年初的匿名員工爆，有網友表示當初只是随便看看，現在卻開始相信了：

在這條爆料中，Deepseek v3 出來之後，訓練中的 Llama4 就顯得落後了，中層管理的薪水都比 DeepSeek V3 的訓練成本都高，Meta 内部陷入恐慌模式。

讓人不由得感嘆，DeepSeel-R1 橫空出世僅僅兩個月時間，卻像過了幾輩子。

參考鏈接：

[ 1 ] https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/

[ 2 ] https://www.1point3acres.com/bbs/thread-1122600-1-1.html

[ 3 ] https://x.com/suchenzang/status/1909070231517143509

https://x.com/TheAhmadOsman/status/1908833792111906894

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國 AIGC 產業峰會觀眾報名通道已開啟 ‍♀️

最新嘉賓曝光啦百度、華為、AWS、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會，讓更多人用上 AI、用好 AI，與 AI 一同加速成長～

4 月 16 日，就在北京，一起來深度求索 AI 怎麼用

一鍵星标

科技前沿進展每日見