大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

阿里Qwen猛追DeepSeek

2025-03-07 简体 HK SG TW

今天小编分享的互联网经验:阿里Qwen猛追DeepSeek,欢迎阅读。

作者 | 刘宝丹

编辑 | 黄昱

46 天前,DeepSeek-R1 正式发布,并同步开源模型权重,App 也做了更新。此后,DeepSeek 火遍全球,带领中国 AI 向前迈出一大步。46 天之后,阿里复制了这一路径。

3 月 6 日凌晨,阿里发布并开源全新的推理模型通义千问 QwQ-32B,该模型整体性能比肩 DeepSeek-R1,并将部署成本进一步降到了消费级显卡水平上。同时,用户也将可通过通义 APP 免费体验该模型。

这意味着,继 DeepSeek、腾讯、月之暗面等公司之后,阿里也正式推出了深度推理模型,进一步推动模型在更复杂场景的应用。

千问 QwQ-32B 是阿里探索推理模型的最新成果,推理能力叠加低消耗,使得该模型适合快速响应或对数据安全要求高的应用场景。不过,多位业内人士均对华尔街见闻表示,该模型的市场反馈还需要一段时间观望。

当日收盘,阿里港股报 140.800 港元,创近三年新高,当日股价涨幅 8.39%。年初以来,阿里股价涨幅超过 70%,市值达 2.68 万亿港元。美股收盘,阿里股价微跌 0.77%。

这场全球 AI 竞赛正处于关键的攻坚阶段,阿里的硬仗才刚刚开始。

追赶 DeepSeek

DeepSeek 是当前最受青睐的 AI 大模型,如今,阿里准备取而代之。

这次,阿里发布的通义千问 QwQ-32B 属于中等参数模型,它最大的亮点是做到了大参数推理模型才具备的效果,很大程度上证明了,参数规模不再是模型性能的决定性因素。

根据阿里公布的一系列权威基准测试,千问 QwQ-32B 模型表现异常出色,几乎完全超越了 OpenAI-o1-mini,比肩最强开源推理模型 DeepSeek-R1,后者拥有 6710 亿参数。

比如,在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与 DeepSeek-R1 相当,远胜于 o1-mini 及相同尺寸的 R1 蒸馏模型。在 LiveBench、谷歌等提出的 IFEval 评测集、由加州大学伯克利分校等提出的 BFCL 测试中,千问 QwQ-32B 的得分均超越了 DeepSeek-R1。

千问 QwQ-32B 在保持强劲性能的同时,大幅降低了部署使用成本。阿里表示,该模型在消费级显卡上也能实现本地部署。

北京星汉未来创始人、CEO 刘道儒对华尔街见闻表示,DeepSeek-R1 满血版是 671B,对部署配置要求非常高,需要至少 8 张 A100 显卡,QwQ-32B 的话,英伟达 4090 的增强版就能部署,成本是 R1 的 1/10 以内,会更利于推理模型的应用和普及。

千问 QwQ-32B 更高的性价比背后,得益于阿里采取了不同的技术路线。华尔街见闻从内部人士处获悉,该模型采用了密集架构(Dense),而 DeepSeek 是混合专家系统(MoE),Dense 和 MoE 是模型架构的两种形态。

该人士进一步表示,阿里通义团队在冷启动基础上,针对数学和编程任务、通用能力分别进行了两轮大规模强化学习,在 32B 的模型尺寸上获得了令人惊喜的推理能力提升,印证了大规模强化学习可显著提高模型性能。

阿里云内部员工称,推理模型内部做了很久,公司从年初二就开始加班,至今没有在半夜两点之前下过班,现在也是这个状态,公司上周发布了预览版,紧接着这周就发布正式版并开源。

在业内看来,千问 QwQ-32B 进一步降低了模型的应用成本,尤其该模型既能提供极强的推理能力,又能满足更低的资源消耗需求,适合快速响应或对数据安全要求高的应用场景,开发者和企业可以在消费级硬體上将其部署到本地设备中,打造 AI 解决方案。

目前,千问 QwQ-32B 已在魔搭社区、HuggingFace 及 GitHub 等平台基于宽松的 Apache2.0 協定开源,所有人都可免费下载模型进行本地部署。用户也将可通过通义 APP 免费体验最新的千问 QwQ-32B 模型。

对于云端部署需求,用户可通过阿里云 PAI 平台完成快速部署,并进行模型微调、评测和应用搭建;或是选择容器服务 ACK 搭配阿里云 GPU 算力,实现模型容器化部署和高效推理。

三年豪掷 3800 亿

如果说 DeepSeek 带火了中国 AI 产业,那阿里无疑是承接这一波 AI 红利的赢家之一。

2 月 24 日,阿里巴巴集团 CEO 吴泳铭宣布,未来三年,阿里将投入超过 3800 亿元,用于建设云和 AI 硬體基础设施,总额超过去十年总和。这也创下中国民营企业在云和 AI 硬體基础设施建设领網域有史以来最大规模投资纪录。

阿里对 AI 进行了广泛的布局,包括云计算、模型以及自身生态体系的应用,但归根到底,阿里最看重的主线是支撑 AI 应用的云计算市场。

2 月 21 日,在最新季度电话会上,阿里表示,阿里 AI 战略的首要目标是追求实现 AGI,不断突破模型智能能力边界,智能就是 AI 模型背后输出的 token,未来 90% 的 token 将在云计算网络上生成和输出,通过阿里云遍布全球的数据中心,才能以更快的方式输送给全球开发者。

对阿里来说,一个重要策略就是开源。作为国内最早开源自研大模型的大厂,阿里云在业界率先实现 " 全尺寸、全模态、多场景 " 开源。

在 QwQ-32B 之前,阿里今年已经先后开源了 100 万 Tokens 上下文的 Qwen2.5-1M 模型,以及视觉模型 Qwen2.5-VL。去年 11 月,阿里开源了通义千问代码模型全系列,共 6 款 Qwen2.5-Coder 模型。

2023 年至今,阿里通义团队已开源 200 多款模型,包含大语言模型千问 Qwen 及视觉生成模型万相 Wan 等两大基模系列,开源囊括文本生成模型、视觉理解 / 生成模型、语音理解 / 生成模型、文生图及视频模型等全模态,覆盖从 0.5B 到 110B 等参数。

据阿里内部人士介绍,截至目前,海内外 AI 开源社区中千问 Qwen 的衍生模型数量突破 10 万,超越美国 Llama 系列模型,成为全球最大的开源模型族群。

在刘道儒看来,模型开源最有利的还是阿里云等云厂商,模型门槛降低了,但算力的门槛还是很高的,不管推理还是训练都需要用到大规模的 GPU 算力,因此阿里全力推动开源。

阿里云首席技术官周靖人曾对华尔街见闻表示,希望能以开放心态把先进技术开源出来,让大家做并行探索。AI 产品也一样,通过开源的体系跟企业一起探索,不仅仅是模型能力提升,更重要的是基于模型能够做什么,把它的前景和潜力深入地挖掘出来。

不过,阿里 QwQ-32B 开源后的效果还需要时间来进一步观察。有业内人士表示担忧,当前推理模型主要是用来做数学题和写代码,但 DeepSeek 出圈的是文学创作和思想性的内容,从用户视角达到 " 比肩 " 效果并不容易。

可以确定的是,开源已经成为 AI 发展的主流。DeepSeek 通过开源周活动公布了最新技术进展,包括 FlashMLA、DeepEP、DeepGEMM 和 3FS 四个开源项目,以及 DualPipe、EPLB 等代码库,并在最后一天披露了理论上的成本利润率 545% 这一数字。

3 月 6 日,腾讯混元发布图生视频模型并对外开源。目前,混元开源系列模型在 Github 累计获得超 2.3 万开发者关注和 star(星标)。百度近日也宣布,文心大模型 4.5 将于 3 月 16 日发布,并于 6 月 30 日正式开源。

2 月 18 日,阶跃星辰首次开源,将开源视频生成模型 Step-Video-T2V 和开源语音互動大模型 Step-Audio 向全球开发者开源。更早之前,MiniMax 开源了 MiniMax-01 全新系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。

同期,月之暗面也公布了稀疏注意力技术—— MoBA(MixtureofBlockAttention),这是一种受专家混合(MoE)和块稀疏注意力(BlockSparseAttention)启发的注意力架构,能够在全注意力和稀疏注意力模式之间无缝切换,使其成为长上下文任务的有效解决方案。

各家 AI 公司纷纷拿出自己压箱底儿的技术路线背后,AI 行业已经从最初的技术竞赛大步迈向应用落地,后者将是 2025 年 AI 公司最激烈的战场。

打响 AI 应用之战

开源已经成为多数 AI 企业的选择,甚至在很多人眼里,是否开源关系着公司能否在这场 AI 军备赛中拔得头筹。

在上述内部人士看来,行业最早开源是一个无奈之举,因为大家的水平跟 OpenAI 开发的 GPT 差距比较大,需要追赶,如果不开源,差距只会越来越大,现在开源模型和 GPT 的能力已经很小,现在开源更多是抢占行业话语权。

阶跃星辰创始人、CEO 姜大昕表示,开源是希望分享最新技术成果,更重要的是,多模态模型是实现 AGI 的必经之路,目前尚处于早期阶段,需要开发者集思广益,共同拓展模型技术边界,并推动产业落地。

" 不开源就开除。" 一位提供 AI 云基础设施的公司高管对华尔街见闻表示,今年春节前后,DeepSeek 陆续开源了基础模型和推理模型,其他模型公司被逼得没有办法,不开源都活不下去,也融不到钱。

多位业内人士表示,当前行业对开源模式的强烈推崇,本质在于,开源已成为推动技术迭代、生态构建、市场扩张的核心策略,而闭源或 " 伪开源 " 模式则可能因技术壁垒难以维系或生态封闭性逐渐失去竞争力。

不过,开源也带来了商业化上的挑战。对很多 AI 模型厂商来说,此前的主要收费方式是按 Token 给 API 定价,如今将模型权重开源之后,如何实现盈利的可持续增长成为亟需破解的难题。

一位 AI 模型厂商内部人士表示,这可能会倒逼模型公司重新思考商业模式,公司的商业重心会往服务端走。模型落地要考虑的问题非常多,如果应用在生产环节,要考虑产品设备的稳定性和性能,模型需要很多配套的工具链。" 提供企业级服务是未来比较有商业价值的地方。"

刘道儒认为,开源之后模型微调、蒸馏等需求也会剧增,微调、蒸馏还是有门槛的,其他模型公司可以帮助企业在垂直场景落地。此外,像多模态大模型、语音大模型等不同类型的大模型由于通用性不强、算力要求高,也相对适合其他大模型厂商。

目前,AI 大模型厂商已经开始把重点放在垂类应用上,以期打造出差异化竞争力。3 月 3 日,AI 独角兽百川智能启动了一轮裁员,金融行业 ToB 业务团队被裁撤,员工当天就签署了离职協定。

华尔街见闻从百川内部获悉,公司优化金融业务是为了集中资源,聚焦核心优势业务,加速实现 " 造医生、改路径、促医学 " 的愿景。据了解,百川与北京儿童医院共同研发的 AI 儿科医生已在疑难病例的顶级专家会诊中正式 " 上岗 "。

AI Agent 被认为是 2025 年 AI 落地的最重要产品形态。3 月 6 日,全球首款通用 AI Agent Manus 迅速火爆整个社交圈,它在写文章、做 PPT、写分析报告等能力上表现出色,虽然目前仍有不少质疑声,但 Manus 爆火本身说明,市场对 AI Agent 已经有了很大期待。

目前,智谱、MiniMax 和阶跃星辰等都在大力发展 AI Agent。长上下文能力与多模态处理能力的提升,是发展 AI Agent 的必要条件,这也被认为是 AI 创业公司接下来最重要的机遇。

去年 12 月,智谱披露了 Agent 新进展,公司发布的 AutoGLM 可以自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务,AutoGLM 被认为是迈向 AI 智能作業系統的重要尝试。近日,智谱与三星达成合作,未来会将 Agent 体验带到三星最新手机 GalaxyS25 系列上。

此外,千问 QwQ-32B 模型也集成了与智能体 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里通义团队表示,未来将继续探索将智能体与强化学习的集成,以实现长时推理,探索更高智能进而最终实现 AGI 的目标。

在经过两年的 AI 技术竞赛后,AI 市场正在迎来新一轮大洗牌,阿里、腾讯、字节凭借各自庞大的生态优势崭露头角,对于 AI 创业公司来说,未来的机会点仍然是找到差异化能力,并持续打造竞争壁垒。

这会是异常残酷的淘汰赛,枪声已经打响了。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們