今天小編分享的科學經驗:LIama 4發布重奪開源第一!DeepSeek同等代碼能力但參數減一半,一張H100就能跑,還有兩萬億參數超大杯,歡迎閲讀。
AI 不過周末,硅谷也是如此。
大周日的,Llama 家族上新,一群 LIama 4 就這麼突然發布了。
這是 Meta 首個基于 MoE 架構模型系列,目前共有三個款:
Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。
最後一個尚未推出,只是預告,但 Meta 已經毫不避諱地稱前兩者是" 我們迄今為止最先進的型号,也是同類產品中最好的多模态型号 "。
詳細來看一些關鍵詞——
Llama 4 Scout,16 位專家的 170 億激活參數的多模态模型,單個 H100 GPU 可運行, 同類 SOTA,并擁有 10M 上下文視窗
Llama 4 Maverick,128 位專家的 170 億激活參數多模态模型,擊敗 GPT-4o 和 Gemini 2.0 Flash,與 DeepSeek-V3 同等代碼能力參數只要一半,主打與 DeepSeek 一樣的性價比,單個 H100 主機即可運行。
Llama 4 Behemoth:2 萬億參數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
Meta 官推激情表示,這些 Llama 4 模型标志着 Llama 生态系統新時代——原生多模态 AI 創新的開始。
與此同時,大模型競技場排名迎來一輪更新。
此次發布的 Llama 4 Maverick,在困難提示、編碼、數學、創意寫作方面并列第一;得分 1417,不僅大大超越了此前 Meta 自家的 Llama-3-405B(提升了 149 分),還成為史上第 4 個突破 1400 分的模型;。
而且跑分明确——超越 DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型。
谷歌 CEO 劈柴哥第一時間發來賀電:
AI 世界,從不平淡!
恭喜呀!前進吧,Llama 4 團隊!
中杯、大杯首批亮相
了解了 Llama 4 家族全體成員後,我們先來見識一下首批發布的 2 個模型:
中杯
:Llama 4 Scout(偵查兵 Llama 4)。
大杯
:Llama 4 Maverick(特立獨行的 Llama 4)。
兩者均已能在 Llama 官網和抱抱臉上下載。
我們抓取并提煉出這倆模型的一些特點:
Meta 首批 MoE 架構模型
這是 Llama 系列,第一批使用 MoE(混合專家模型)構建的模型。
中杯 Llama 4 Scout 有 17B 激活參數,擁有 16 個專家模型。
大杯 Llama 4 Maverick 擁有 17B 激活參數,擁有 128 個專家模型。
至于還沒和大家正式見面的超大杯 Llama 4 Maverick,擁有 288B 激活參數,擁有 16 個專家模型。
非常長————的上下文
Llama 4 系列,均具有很長的上下文視窗。
這一點主要體現在 Meta 公布的中杯 Llama 4 Scout 的詳細數據裏:
Llama 4 Scout 提供了行業領先的100 萬上下文視窗。
經過預訓練和後訓練,Llama 4 Scout 長度為 256K,這使基本模型具有高級長度泛化能力。
這個配置,讓它在廣泛的測評集上,比 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1 的結果更優秀。
它在「大海撈針」測試上的表現如下:
結果如下:
那麼之前的 Llama 系列模型的上下文視窗情況呢?
Llama 1,上下文視窗為 2k;
Llama 2,上下文視窗默認為 4k,但可以通過微調等可以拓展到 32k;
Llama 3,上下文視窗是 8k,後來 Llama 3.1 的長文本能力拓展到了 128k。
Meta 官方博客中是這麼寫的:
(Llama 4 的長上下文)開辟了一個充滿可能性的世界,包括多文檔摘要、解析廣泛的用户活動以執行個性化任務以及對龐大的代碼庫進行推理。
原生多模态設計
Llama 4 系列,開啓了 Llama 的原生多模态時代。
而已經公開對外的中杯和大杯,被官方稱為 "輕量級原生多模态模型"。
給用户的體驗就是,上傳一張圖片,可以直接在對話框中提問關于這張圖片的各種問題。
不是我説,Llama 終于長眼睛了!!!
上面這張動圖展示的僅僅是最基礎的," 為難 " 程都更新也不怕。
比如喂它一張鋪滿工具的圖片,問它哪些适合來幹某個活。
它會很快地把适用的工具圈出來:
要認顏色 + 認小鳥,也沒在怕的:
中杯和大杯都在官方介紹中被打上了 " 世界上同類產品中最好的多模态模型 " 的 tag。
來看和 Llama 系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite 的對比結果——
可以看到,在各個測評集上的表現,Llama 4 Scout 樣樣都是新 SOTA。
語言天賦 Max
經過了預訓練和微調的 Llama 4,掌握全球 12 種語言,以此 " 方便全球開發者的部署 "。
比 DeepSeek 更狠的 "AI 模型拼多多 "
一定要跟大家分享的一個細節,Meta 這次在模型 API 價格方面,下狠手了!
先説結果:
系列超大杯 Llama 4 Maverick,不僅超越了同類型号其它模型,價格還非常之美麗。
更直觀地來看這張表格,真的狠過 DeepSeek ——從性能到價格各個緯度。
要知道,超大杯 Llama 4 Behemoth 屬于是 Llama 4 系列的教師模型。
如果説中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。
288B 激活參數,16 個專家模型。
最重要的是,它的總參數量高達 2000B!
在數學、多語言和影像基準測試中,它提供了非推理模型的最先進性能。
當 " 最牛 " 和 " 最便宜 " 擺在一起的時候,試問哪位開發者會不心動?(doge)
訓練細節
用他們自己的話來説,Llama 系列是進行了徹底的重新設計。目前第一組 LIama 4 系列模型,他們也公布了具體的訓練細節。
預訓練
他們首次使用混合專家 MoE 架構,在 MoE 架構中,單個 token 僅激活總參數的一小部分。MoE 架構在訓練和推理方面具有更高的計算效率,固定訓練 FLOP 成本情況下質量更高。
比如,Llama 4Maverick 模型有 17B 個激活參數和 400B 個總參數。他們使用交替的密集層和混合專家 ( MoE ) 層來提高推理效率。
MoE 層使用 128 位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及 128 位路由(Routed)專家之一。
因此,雖然所有參數都存儲在内存中,但在為這些模型提供服務時,只有總參數的子集被激活。
這通過降低模型服務成本和延遲來提高推理效率—— Llama 4 Maverick 可以在單個 H100 DGX 主機上運行,以便于部署,也可以通過分布式推理實現最高效率。
他們早期融合,将文本和視覺 token 無縫集成到統一模型中。
他們開發了一種新的訓練技術:MetaP,可以設定關鍵模型超參數,比如每層的學習率和初始化尺度。
結果發現,所選的超參數能在批量大小、模型寬度、深度和訓練 token 的不同值之間很好地擴展和泛化——
Llama 4 通過在 200 種語言(包括 100 多種語言,每種語言有超過 10 億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是 Llama 3 的 10 倍。
此外,他們使用 FP8 精度進行高效模型訓練,同時不犧牲質量并确保模型 FLOPs 的高利用率—在使用 FP8 和 32K GPU 預訓練 Llama 4 Behemoth 模型時,結果他們實現了 390TFLOPs/GPU。
用于訓練的整體混合數據包括 30 多萬億個 token,是 Llama 3 預訓練混合物的兩倍多,其中包括各種文本、影像和視頻數據集。
在所謂的 " 中期訓練 " 中繼續訓練模型,通過新的訓練方法(包括使用專業數據集進行長上下文擴展)來提高模型的核心功能。
後訓練
後訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲性能。
在 Llama 4 中,采用了一種不同的方法來改造我們的後期訓練管道:
輕量級監督微調 ( SFT ) > 在線強化學習 ( RL ) > 輕量級直接偏好優化 ( DPO ) 。
一個關鍵的教訓是,SFT 和 DPO 可能會過度約束模型,限制在線強化學習階段的探索,并導致精度降低,尤其是在推理、編碼和數學領網域。
為了解決這個問題,他們使用 Llama 模型作為評判标準,删除了 50% 以上被标記為簡單的數據,并對剩餘的較難數據集進行了輕量級 SFT 處理。
在随後的在線強化學習階段,通過仔細選擇較難的提示,我們實現了性能上的飛躍。
此外,他們還實施了一種連續的在線強化學習策略,即交替訓練模型,然後利用模型不斷過濾并只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準确性的權衡方面非常有利。
然後,他們采用輕量級 DPO 來處理與模型響應質量相關的拐角情況,從而有效地在模型的智能性和對話能力之間實現了良好的平衡。流水線架構和帶有自适應數據過濾功能的連續在線 RL 策略,最後造就了現在的 LIama 4。
總結來看,Llama 4 架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還采用了注意力推理時間温度縮放來增強長度泛化。
這些他們稱之為iRoPE 架構,其中 "i" 代表 " 交錯 " 注意力層,突出了支持 " 無限 " 上下文長度的長期目标,而 "RoPE " 指的是大多數層中采用的旋轉位置嵌入。
Llama 4 Behemoth
最後,他們還透露了超大模型 Llama 4 Behemoth 一些蒸餾和訓練細節。
我們開發了一種新穎的蒸餾損失函數,可通過訓練動态加權軟目标和硬目标。
預訓練階段,Llama 4 Behemoth 的代碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練數據計算蒸餾目标所需的資源密集型前向傳遞的計算成本。對于納入學生訓練的其他新數據,他們在 Behemoth 模型上運行前向傳遞,以創建蒸餾目标。
後訓練階段,為了最大限度地提高性能,他們删減了 95% 的 SFT 數據,而小型模型只需删減 50% 的數據,以實現對質量和效率的必要關注。
他們在進行輕量級 SFT 後,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高。
強化學習方法側重于通過對策略模型進行 pass@k 分析來抽取高難度提示,并根據提示難度的增加精心設計訓練課程。
此外還發現,在訓練過程中動态過濾掉優勢為零的提示語,并構建包含多種能力的混合提示語的訓練批次,有助于提高數學、推理和編碼的性能。最後,從各種系統指令中取樣對于确保模型在推理和編碼方面保持指令跟随能力并在各種任務中表現出色至關重要。
由于其規模空前,要為兩萬億個參數模型擴展 RL,還需要改造底層 RL 基礎設施。
他們優化了 MoE 并行化的設計,從而加快了迭代速度;并開發了一個完全異步的在線 RL 訓練框架,提高了靈活性。
現有的分布式訓練框架會犧牲計算内存以将所有模型堆疊在内存中,相比之下,他們新基礎架構能夠将不同模型靈活分配到不同 GPU 上,并根據計算速度在多個模型之間平衡資源。
與前幾代產品相比,這一創新使訓練效率提高了約 10 倍。
One More Thing
要知道,由于昨天 DeepSeek 發了新論文,搞得奧特曼都坐不住了,趕緊出來發聲:
計劃改變:我們可能在幾周之後先發布 o3 和 o4-mini。
GPT-5 就在幾個月後啊~
但,誰知道半路又殺出個 Llama 4?!
前有猛虎,後有豺狼,OpenAI 你真的得加油了……
網友調侃道,當奧特曼一睜眼,看到 Llama 4 來了,而且 Llama 4 的成本比 GPT-4.5 降低了 3 個數量級後——
他的狀态一定是醬嬸兒的:
以及相比 Llama,現在可能神秘低調的 DeepSeek,可能不知道什麼時候突然就會推出 DeepSeek R2 和 V4 …同在杭州的通義千問也幹勁十足,Llama 也好 GPT 也好,基本成為平行參考了。
太平洋這頭,已經開始落地應用和智能體了。
參考鏈接:
[ 1 ] https://www.llama.com/
[ 2 ] https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[ 3 ] https://x.com/AIatMeta/status/1908598456144531660
[ 4 ] https://x.com/lmarena_ai/status/1908601011989782976
[ 5 ] https://x.com/IOHK_Charles/status/1908635624036590070
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啓 ♀️
最新嘉賓曝光啦 百度、華為、AWS、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見