今天小編分享的互聯網經驗:比DeepSeek R2先發!阿裡巴巴Qwen3上新8款,登頂全球最強開源模型,歡迎閱讀。
Qwen3 千呼萬喚始出來,直接登頂全球最強開源模型。
4 月 29 日凌晨,阿裡巴巴開源新一代通義千問模型 Qwen3(簡稱千問 3),旗艦模型 Qwen3-235B-A22B 參數量僅為 DeepSeek-R1 的 1/3,總參數量 235B,激活僅需 22B,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強開源模型。
千問 3 預訓練數據量達 36T ,并在後訓練階段多輪強化學習,将快思考模式和慢思考模式無縫整合,同時在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,創下所有國產模型及全球開源模型的性能新高。
千問 3 共計八款模型,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,每款模型均斬獲同尺寸開源模型 SOTA(最佳性能)。
其中,千問 3 的 30B 參數 MoE 模型實現了 10 倍以上的模型性能杠杆提升,僅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能;千問 3 的稠密模型性能繼續突破,一半的參數量可實現同樣的高性能,如 32B 版本的千問 3 模型可跨級超越 Qwen2.5-72B 性能。
4 月是大模型集中發布的一月,OpenAI 發布了 GPT-4.1 o3、o4 mini 系列模型,谷歌 Gemini 2.5 Flash Preview 混合推理模型上新,豆包也公布了 1.5 · 深度思考模型,其他大模型廠商也開源或者更新了不少模型,業内也傳出 DeepSeek R2 模型即将發布的消息,但目前大部分消息都是捕風捉影。
不論 DeepSeek R2 發布與否," 先發制人 " 的千問 3,先一步站在大模型 " 平民化 " 的真正起點上。
國内首個混合推理思考模型,增強 Agent 能力且支持 MCP
千問 3 模型支持兩種思考模式:
慢思考模式:在這種模式下,模型會逐步推理,經過深思熟慮後給出最終答案。這種方法非常适合需要深入思考的復雜問題。
快思考模式:在此模式中,模型提供快速、近乎即時的響應,适用于那些對速度要求高于深度的簡單問題。
所有千問 3 模型都是混合推理模型,這也使其成為國内首個 " 混合推理模型 "," 快思考 " 與 " 慢思考 " 集成進同一個模型,對簡單需求可低算力 " 秒回 " 答案,對復雜問題可多步驟 " 深度思考 ",大大節省算力消耗。
API 可按需設定 " 思考預算 "(即預期最大深度思考的 tokens 數量),進行不同程度的思考,靈活滿足 AI 應用和不同場景對性能和成本的多樣需求。比如,4B 模型是手機端的絕佳尺寸;8B 可在電腦和汽車端側絲滑部署應用;32B 最受企業大規模部署歡迎,有條件的開發者也可輕松上手。
在奧數水平的 AIME25 測評中,千問 3 斬獲 81.5 分,刷新開源紀錄;在考察代碼能力的 LiveCodeBench 評測中,千問 3 突破 70 分大關,表現甚至超過 Grok3;在評估模型人類偏好對齊的 ArenaHard 測評中,千問 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。
性能大幅提升的同時,千問 3 的部署成本還大幅下降,僅需 4 張 H20 即可部署千問 3 滿血版,顯存占用僅為性能相近模型的三分之一。
千問 3 模型還支持 119 種語言和方言。目前這些模型均在 Apache 2.0 許可下開源,現已在 Hugging Face、ModelScope 和 Kaggle 等平台上開放使用。
阿裡巴巴也推薦使用 SGLang 和 vLLM 等框架部署,而對于本地使用,Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具也支持。
千問 3 也考慮了智能體 Agent 和大模型應用落地。在評估模型 Agent 能力的 BFCL 評測中,千問 3 創下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等頂尖模型,将大幅降低 Agent 調用工具的門檻。
同時,千問 3 原生支持 MCP 協定,并具備強大的工具調用(function calling)能力,結合封裝了工具調用模板和工具調用解析器的 Qwen-Agent 框架,将大大降低編碼復雜性,實現高效的手機及電腦 Agent 操作等任務。
36萬億 token預訓練,四階段後訓練
在預訓練方面,Qwen3 的數據集相比 Qwen2.5 有了顯著擴展。Qwen2.5 是在 18 萬億個 token 上進行預訓練的,而 Qwen3 使用的數據量幾乎是其兩倍,達到了約 36 萬億個 token。
為了構建這個龐大的數據集,千問團隊不僅從網絡上收集數據,還從 PDF 文檔中提取信息。例如使用 Qwen2.5-VL 從這些文檔中提取文本,并用 Qwen2.5 改進提取内容的質量。
為了增加數學和代碼數據的數量,千問團隊利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領網域的專家模型合成數據,合成了包括教科書、問答對以及代碼片段等多種形式的數據。
預訓練過程分為三個階段。在第一階段(S1),模型在超過 30 萬億個 token 上進行了預訓練,上下文長度為 4K token。這一階段為模型提供了基本的語言技能和通用知識。
在第二階段(S2),千問團隊通過增加知識密集型數據(如 STEM、編程和推理任務)的比例來改進數據集,随後模型又在額外的 5 萬億個 token 上進行了預訓練。
在最後階段,千問團隊使用高質量的長上下文數據将上下文長度擴展到 32K token,确保模型能夠有效地處理更長的輸入。
由于模型架構的改進、訓練數據的增加以及更有效的訓練方法,Qwen3 Dense 基礎模型的整體性能與參數更多的 Qwen2.5 基礎模型相當。
例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分别與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現相當。特别是在 STEM、編碼和推理等領網域,Qwen3 Dense 基礎模型的表現甚至超過了更大規模的 Qwen2.5 模型。
對于 Qwen3 MoE 基礎模型,它們在僅使用 10% 激活參數的情況下達到了與 Qwen2.5 Dense 基礎模型相似的性能。這帶來了訓練和推理成本的顯著節省。
後訓練方面,為了開發能夠同時具備思考推理和快速響應能力的混合模型,千問團隊實施了一個四階段的訓練流程。該流程包括:(1)長思維鏈冷啟動,(2)長思維鏈強化學習,(3)思維模式融合,以及(4)通用強化學習。
在第一階段,先使用多樣的的長思維鏈數據對模型進行了微調,涵蓋了數學、代碼、邏輯推理和 STEM 問題等多種任務和領網域。這一過程旨在為模型配備基本的推理能力。
第二階段的重點是大規模強化學習,利用基于規則的獎勵來增強模型的探索和鑽研能力。
在第三階段,在一份包括長思維鏈數據和常用的指令微調數據的組合數據上對模型進行微調,将非思考模式整合到思考模型中,确保了推理和快速響應能力的無縫結合。
在第四階段,在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多個通用領網域的任務上應用了強化學習,以進一步增強模型的通用能力并糾正不良行為。
目前個人用戶可立即通過通義 APP 直接體驗千問 3,誇克也即将全線接入千問 3。阿裡通義已開源 200 餘個模型,全球下載量超 3 億次,千問衍生模型數超 10 萬個,已超越美國 Llama,成為全球第一開源模型。(本文首發于钛媒體 APP,作者 | 張帥,編輯 | 蓋虹達)