阿裏通義千問大模型 Qwen3 發布并開源：支持兩種思考模式

今天小編分享的科技經驗：阿裏通義千問大模型 Qwen3 發布并開源：支持兩種思考模式，歡迎閲讀。

IT 之家 4 月 29 日消息，今日凌晨，阿裏巴巴發布了新一代通義千問 Qwen3 模型，一舉登頂全球最強開源模型。

Models

Layers

Heads

( Q / KV )

Tie Embedding

Context Length

Qwen3-0.6B

16 / 8

Yes

32K

Qwen3-1.7B

Qwen3-4B

32 / 8

Qwen3-8B

128K

Qwen3-14B

40 / 8

Qwen3-32B

64 / 8

Experts ( Total/ Activated )

Qwen3-30B-A3B

32 / 4

128 / 8

Qwen3-235B-A22B

64 / 4

這是國内首個 " 混合推理模型 "，将 " 快思考 " 與 " 慢思考 " 集成進同一個模型，大大節省算力消耗。

經過後訓練的模型，例如 Qwen3-30B-A3B，以及它們的預訓練基座模型（如 Qwen3-30B-A3B-Base）已在各大平台上開放使用。同時，阿裏雲開源了兩個 MoE 模型的權重：

Qwen3-235B-A22B，一個擁有 2350 多億總參數和 220 多億激活參數的大模型Qwen3-30B-A3B，一個擁有約 300 億總參數和 30 億激活參數的小型 MoE 模型。

此外，六個 Dense 模型也已開源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B，均在 Apache 2.0 許可下開源。

據阿裏雲介紹，其旗艦模型 Qwen3-235B-A22B 在代碼、數學、通用能力等基準測試中，與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比，表現出極具競争力的結果。

此外，小型 MoE 模型 Qwen3-30B-A3B 的激活參數數量是 QwQ-32B 的 10%，表現更勝一籌，甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。

核心亮點多種思考模式

Qwen3 模型支持兩種思考模式：

思考模式：在這種模式下，模型會逐步推理，經過深思熟慮後給出最終答案。這種方法非常适合需要深入思考的復雜問題。非思考模式：在此模式中，模型提供快速、近乎即時的響應，适用于那些對速度要求高于深度的簡單問題。

這種靈活性使用户能夠根據具體任務控制模型進行 " 思考 " 的程度。例如，復雜的問題可以通過擴展推理步驟來解決，而簡單的問題則可以直接快速作答，無需延遲。

至關重要的是，這兩種模式的結合大大增強了模型實現穩定且高效的 " 思考預算 " 控制能力。如上文所述，Qwen3 展現出可擴展且平滑的性能提升，這與分配的計算推理預算直接相關。這樣的設計讓用户能夠更輕松地為不同任務配置特定的預算，在成本效益和推理質量之間實現更優的平衡。

多語言

Qwen3 模型支持 119 種語言和方言，例如簡體中文、繁體中文、粵語等。這一廣泛的多語言能力為國際應用開辟了新的可能性，讓全球用户都能受益于這些模型的強大功能。

預訓練

在預訓練方面，Qwen3 的數據集相比 Qwen2.5 有了顯著擴展。Qwen2.5 是在 18 萬億個 token 上進行預訓練的，而 Qwen3 使用的數據量幾乎是其兩倍，達到了約 36 萬億個 token，涵蓋了 119 種語言和方言。

為了構建這個龐大的數據集，阿裏雲不僅從網絡上收集數據，還從 PDF 文檔中提取信息，通過 Qwen2.5-VL 從這些文檔中提取文本，并用 Qwen2.5 改進提取内容的質量。

為了增加數學和代碼數據的數量，阿裏雲還利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領網域的專家模型合成數據，合成了包括教科書、問答對以及代碼片段等多種形式的數據。

據阿裏雲介紹，Qwen3 預訓練過程分為三個階段。

在第一階段（S1），模型在超過 30 萬億個 token 上進行了預訓練，上下文長度為 4K token。這一階段為模型提供了基本的語言技能和通用知識。在第二階段（S2），通過增加知識密集型數據（如 STEM、編程和推理任務）的比例來改進數據集，随後模型又在額外的 5 萬億個 token 上進行了預訓練。最後階段，使用高質量的長上下文數據将上下文長度擴展到 32K token，确保模型能夠有效地處理更長的輸入。

由于模型架構的改進、訓練數據的增加以及更有效的訓練方法，Qwen3 Dense 基礎模型的整體性能與參數更多的 Qwen2.5 基礎模型相當。例如，Qwen3-1.7B / 4B / 8B / 14B / 32B-Base 分别與 Qwen2.5-3B / 7B / 14B / 32B / 72B-Base 表現相當。

特别是在 STEM、編碼和推理等領網域，Qwen3 Dense 基礎模型的表現甚至超過了更大規模的 Qwen2.5 模型。對于 Qwen3 MoE 基礎模型，它們在僅使用 10% 激活參數的情況下達到了與 Qwen2.5 Dense 基礎模型相似的性能。這帶來了訓練和推理成本的顯著節省。

後訓練