大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

阿里通义千问大模型 Qwen3 发布并开源:支持两种思考模式

2025-04-29 简体 HK SG TW

今天小编分享的科技经验:阿里通义千问大模型 Qwen3 发布并开源:支持两种思考模式,欢迎阅读。

IT 之家 4 月 29 日消息,今日凌晨,阿里巴巴发布了新一代通义千问 Qwen3 模型,一举登顶全球最强开源模型。

Models

Layers

Heads

( Q / KV )

Tie Embedding

Context Length

Qwen3-0.6B

16 / 8

Yes

32K

Qwen3-1.7B

Qwen3-4B

32 / 8

Qwen3-8B

128K

Qwen3-14B

40 / 8

Qwen3-32B

64 / 8

Experts ( Total/ Activated )

Qwen3-30B-A3B

32 / 4

128 / 8

Qwen3-235B-A22B

64 / 4

这是国内首个 " 混合推理模型 ",将 " 快思考 " 与 " 慢思考 " 集成进同一个模型,大大节省算力消耗。

经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base)已在各大平台上开放使用。同时,阿里云开源了两个 MoE 模型的权重:

Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。

此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

据阿里云介绍,其旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

核心亮点多种思考模式

Qwen3 模型支持两种思考模式:

思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

这种灵活性使用户能够根据具体任务控制模型进行 " 思考 " 的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。

至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的 " 思考预算 " 控制能力。如上文所述,Qwen3 展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。

多语言

Qwen3 模型支持 119 种语言和方言,例如简体中文、繁体中文、粤语等。这一广泛的多语言能力为国际应用开辟了新的可能性,让全球用户都能受益于这些模型的强大功能。

预训练

在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 是在 18 万亿个 token 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 token,涵盖了 119 种语言和方言。

为了构建这个庞大的数据集,阿里云不仅从网络上收集数据,还从 PDF 文档中提取信息,通过 Qwen2.5-VL 从这些文档中提取文本,并用 Qwen2.5 改进提取内容的质量。

为了增加数学和代码数据的数量,阿里云还利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领網域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

据阿里云介绍,Qwen3 预训练过程分为三个阶段。

在第一阶段(S1),模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。在第二阶段(S2),通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。最后阶段,使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。

由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当。例如,Qwen3-1.7B / 4B / 8B / 14B / 32B-Base 分别与 Qwen2.5-3B / 7B / 14B / 32B / 72B-Base 表现相当。

特别是在 STEM、编码和推理等领網域,Qwen3 Dense 基础模型的表现甚至超过了更大规模的 Qwen2.5 模型。对于 Qwen3 MoE 基础模型,它们在仅使用 10% 激活参数的情况下达到了与 Qwen2.5 Dense 基础模型相似的性能。这带来了训练和推理成本的显著节省。

后训练

为了开发能够同时具备思考推理和快速响应能力的混合模型,阿里云实施了一个四阶段的训练流程,主要包括:

(1)长思维链冷启动,(2)长思维链强化学习,(3)思维模式融合,(4)通用强化学习。

在第一阶段,阿里云使用多样的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领網域。这一过程旨在为模型配备基本的推理能力。第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。

在第三阶段,阿里云在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。确保了推理和快速响应能力的无缝结合。

最后,在第四阶段,阿里云在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领網域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。

高级用法

阿里云还为部署用户提供了一种软切换机制,允许用户在 enable_thinking=True 时动态控制模型的行为。具体来说,您可以在用户提示或系统消息中添加 /think 和 /no_think 来逐轮切换模型的思考模式。在多轮对话中,模型会遵循最近的指令。

IT 之家提醒:大家可以在 Qwen Chat 网页版 ( chat.qwen.ai ) 和通义 App 中试用 Qwen3。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們