今天小編分享的科技經驗:阿裡千問 3 登頂全球最強開源模型,性能超越 DeepSeek-R1、OpenAI-o1,歡迎閱讀。
4 月 29 日凌晨,阿裡巴巴開源新一代通義千問模型 Qwen3(簡稱千問 3),參數量僅為 DeepSeek-R1 的 1/3,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球頂尖模型,登頂全球最強開源模型。千問 3 是國内首個「混合推理模型」,「快思考」與「慢思考」集成進同一個模型,對簡單需求可低算力「秒回」答案,對復雜問題可多步驟「深度思考」,大大節省算力消耗。
千問 3 采用混合專家(MoE)架構,總參數量 235B,激活僅需 22B。千問 3 預訓練數據量達 36T,并在後訓練階段多輪強化學習,将非思考模式無縫整合到思考模型中。千問 3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,即創下所有國產模型及全球開源模型的性能新高:在奧數水平的 AIME25 測評中,千問 3 斬獲 81.5 分,刷新開源紀錄;在考察代碼能力的 LiveCodeBench 評測中,千問 3 突破 70 分大關,表現甚至超過 Grok3;在評估模型人類偏好對齊的 ArenaHard 測評中,千問 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。性能大幅提升的同時,千問 3 的部署成本還大幅下降,僅需 4 張 H20 即可部署千問 3 滿血版,顯存占用僅為性能相近模型的三分之一。
千問 3 性能圖
千問 3 還提供了豐富的模型版本,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,每款模型均斬獲同尺寸開源模型 SOTA(最佳性能):千問 3 的 30B 參數 MoE 模型實現了 10 倍以上的模型性能杠杆提升,僅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能;千問 3 的稠密模型性能繼續突破,一半的參數量可實現同樣的高性能,如 32B 版本的千問 3 模型可跨級超越 Qwen2.5-72B 性能。
同時,所有千問 3 模型都是混合推理模型,API 可按需設定「思考預算」(即預期最大深度思考的 tokens 數量),進行不同程度的思考,靈活滿足 AI 應用和不同場景對性能和成本的多樣需求。比如,4B 模型是手機端的絕佳尺寸;8B 可在電腦和汽車端側絲滑部署應用;32B 最受企業大規模部署歡迎,有條件的開發者也可輕松上手。
Qwen3 開源模型家族
千問 3 為即将到來的智能體 Agent 和大模型應用爆發提供了更好的支持。在評估模型 Agent 能力的 BFCL 評測中,千問 3 創下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等頂尖模型,将大幅降低 Agent 調用工具的門檻。同時,千問 3 原生支持 MCP 協定,并具備強大的工具調用(function calling)能力,結合封裝了工具調用模板和工具調用解析器的 Qwen-Agent 框架,将大大降低編碼復雜性,實現高效的手機及電腦 Agent 操作等任務。
據了解,千問 3 系列模型依舊采用寬松的 Apache2.0 協定開源,并首次支持 119 多種語言,全球開發者、研究機構和企業均可免費在魔搭社區、HuggingFace 等平台下載模型并商用,也可以通過阿裡雲百煉調用千問 3 的 API 服務。個人用戶可立即通過通義 APP 直接體驗千問 3,誇克也即将全線接入千問 3。
據悉,阿裡通義已開源 200 餘個模型,全球下載量超 3 億次,千問衍生模型數超 10 萬個,已超越美國 Llama,成為全球第一開源模型。