大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Qwen3真香!通义App满血接入,一手实测在此

2025-05-01 简体 HK SG TW

今天小编分享的科学经验:Qwen3真香!通义App满血接入,一手实测在此,欢迎阅读。

开源大模型新王者,正在受到空前关注。

Qwen3 预告一出,直接开启不眠夜模式。

△来自编辑部本部

等到深夜正式上线并宣布登顶全球最强开源模型,更是瞬间引爆全网热议。

网友们的反应在 meme 中尽数体现(doge)。

毕竟,单看纸面参数,Qwen3 就是个妥妥的大工程:

8 款混合推理模型全部开源,参数量从0.6B到235B全面覆盖;

32B 模型就有超越 OpenAI o1、DeepSeek R1 的性能表现,在编程基准测评中还超过了风头正盛的 Gemini 2.5 Pro;

支持思考和非思考模式,支持 119 种语言和方言、加强对 MCP 支持……

还有网友认为,这是 " 又一个 DeepSeek 时刻 "。

这一次模型开源,通义 App 和网页版也赶在第一时间满血上线 Qwen3,并且有专属智能体体验。

新王究竟表现如何,我们第一时间深度实测,以见真章。

Qwen3 住进 App,还能这样玩儿

打开通义 App/ 通义网页版首页,目前有两种方式可以体验到 Qwen3 模型:

直接用输入框对话(代码 / 数学 / 翻译类问题默认调用 Qwen3-235B,其它问题不调用 Qwen3)

选用 " 千问大模型 " 智能体(默认使用旗舰版 Qwen3-235B-A22B)

BTW,通义网页版近期上线了新網域名 tongyi.com,不要走错。

OK,接下来进入正题。

官方强调了新模型在 Agent、编码方面的能力提升,还增强了对 MCP 的支持。具体表现如何,我们直接在通义 App里全方位实测。

第一关:代码生成

先来个新模型 " 入门挑战 " ——空间内弹小球。

这个经典测试在考验模型代码能力的同时,还重点关注了它对物理世界的理解,几乎每一个新模型都会被拉出来遛一遛。

提示词如下(p5.js 脚本、25 个粒子、圆柱形容器):

而第一次接受挑战的旗舰版 Qwen3 模型,用时 1 分钟,唰唰唰就生成了一百多行代码:

将上述代码实际运行一下,结果 be like:

虽然一眼看去没有 " 小球直接冲出圆圈 " 这样明显的错误,但也确实缺少 3D 空间感。

作为对比,我们拉出官方测评图中,和满血 Qwen3 代码实力最相近的 Grok 3 模型。

重复相同操作,让 Grok 3 基于同一提示词生成代码,并实际运行:

二者的区别相当明显,后者(Grok 3)的空间感肉眼可见更强。

为了进一步探究两段代码的差别,我们又直接让 Qwen3" 自己找找差距 "(doge)。

结果,它真的很认真地进行了全方位对比,包括渲染模式、容器结构、粒子运动与碰撞测试等等。

最终结论也用表格进行了呈现,一目了然:

甚至,基于它提出的改进意见,我们继续让它出了一个新版本。

实际运行后,这次的结果已经非常符合我们的要求了。

事实上,深扒 Qwen3 的思考过程,我们才发现原来第一版的 2D 效果是它 " 深思熟虑 " 后的选择。

这里主要考虑到了兼容性问题,所以简化成了俯视图来呈现。

从上面这个简单测试,我们已经能够窥见 Qwen3 的程式员素养确实不错。

接下来难度更新,直接让它帮打工人设计一个提醒喝水的电腦端 App。

注意,为了能快速在浏览器端预览生成效果,这里我们采用了 " 极简模式 ",仅保留最基础的功能,不涉及使用任何第三方库。

结果生成的 App 有模有样,还能真实点击互動。

一旦让具备工程能力的童鞋们上手,估计能实现更多复杂效果。

第二关:逻辑推理

接下来我们考查一下 Qwen3 的逻辑推理能力。

老规矩,先上一道经典逻辑陷阱题:

农夫要把一头狼、一只羊和一盆菜带过一条河。河边只有一艘小船,农夫每次只能带一样东西过河。如果农夫不在场时,狼会吃羊,羊会吃菜。如何安排农夫的安全过河方案?

在故意关闭联网模式后,Qwen3 经过一步步推理最终给出了正确答案。

农夫应按照以下顺序操作:

带羊过河,返回。

带狼过河,带回羊。

带白菜过河,返回。

带羊过河。

此方案通过 7 次移动(4 次过河,3 次返回),确保所有物品安全抵达对岸。

而且从 Qwen3 的思考过程能够看到,其思维方式和人类一样,是通过不断推翻各种方案来找出可行路径。

再来一道超高难度专业数学题。

原题来自今年的普特南数学竞赛,该竞赛号称最难本科数学考试,人类要考 6 小时,并且所选取的题目据称前 500 名选手均未能完整作答。

而扔给 Qwen3 后,可以看到整体的思考时间确实明显变长,最终用时5 分 38 秒给出了正确答案。

p.s. 千问智能体无法直接上传图片,最终选择从 App 首页上传图片,提取文字后继续使用千问智能体作答。

更有趣的是,扒一扒其思考过程,还能看到模型在线表演 " 崩溃 ":

当然,虽然 AI 的解读速度和正确率明显胜于人类,但还是要和同类来比。

在国外网友的测试中,同一道题 Grok 3(Think)在约 8 分钟内找到了解决方案。

所以对比下来,这一局算 Qwen3 略胜一筹。

第三关:多语言能力

另外据介绍,Qwen3 的一大亮点是支持 119 种语言和方言,被网友戏称 "AI 届多邻国 "(doge)。

别的不说,直接让它来挑战一把国内专业译者的地位试试。

将莎士比亚《哈姆雷特》的经典选段丢给它,让它按照 " 信达雅 " 翻译成中文。

它还知道参考优秀译本,并且注意避免直接抄袭造成侵权。

最终生成的结果如下(左侧),对比我们熟知的朱生豪经典译本(右侧),你觉得 AI 味儿浓度如何?

第四关:赛博闺蜜、shopping 比价、写歌一网打尽

除了以上更侧重模型基础能力的考查,当 Qwen3 被塞进 App 后,我们还解锁了更多玩法。

做旅游规划这种就不必多说了,关键还能充当 " 赛博闺蜜 ",帮忙选择更适合发朋友圈的游客照。

日常也能用来购物比价,比如分析出当下最值得入手的 3000 元预算内平板。

不仅用表格清晰列出了各品牌的核心参数,还按照不同需求进行了推荐,一整个造福伸手党。

此外,最近火上热搜的 "AI 写歌 ",我们也用 Qwen3 尝试了一把。

五一版 · 大张伟嗨歌这就新鲜出炉,光看歌词确实有内味儿了:

Okk,以上为我们的全部实测。

小结一下,通过在通义 App 使用 Qwen3 专属智能体,我们能明显感受到以下几点:

Qwen3 旗舰模型的生成速度非常快,体验很丝滑;

模型擅长推理,能够解决经典逻辑陷阱和复杂数学题;

代码能力方面,已经能够快速实现一些简单需求;

由于载体是 App,可拓展的玩法很多。

而且,通义 App 自上个月页面改版后,整体设计更简洁,互動也更加完善了。

更多网友实测

与此同时,随着 Qwen3 模型的爆火,更多网友也第一时间进行了试玩。

有和 " 空间内弹小球 " 类似效果的页面设计:

还有用阿拉伯语、法语和印地语解释爱因斯坦相对论的玩法,该博主声称:

简单到连十岁的小孩都能理解。

当然,大家一直尤为钟爱的小游戏开发也安排上了:

开源界的新王者

Qwen3 引发热议背后,可以看到的是,在开源影响力上,以 Qwen 为代表的国产大模型,已经有超越 Llama 之势。

这一点,从 reddit LocalLLaMA 等开发者聚集的板块的最新话题中,亦可见一斑。

不仅是基准评测数据的纸面超越,实测越多,模型实力究竟几何就越能被客观公允地认知。

而如今的开源格局之变,并非一蹴而就。前有 DeepSeek,今有 Qwen3,背后体现的是来自中国的开源力量一以贯之的努力,和一如既往的" 中国速度 "。

以 Qwen 为例:

2024 年 11 月底,开源推理模型 QwQ;

2025 年春节档,连发 Qwen2.5 百万上下文版本、视觉理解模型 Qwen2.5-VL,还有超大规模 MoE 模型 Qwen-2.5 Max;

2025 年 3 月,QwQ-32B 以 1/10 成本比肩 DeepSeek-R1;

多模态方面,还有万相 Wan 的持续开源和迭代……

这还只是短短 5 个月内的进展。

再加上更加开放和商用友好的 Apache 2.0 協定,开发者们的转向,自然在情理之中。

作为普通用户,一方面,可以在通义 App 这样的官方应用上更快感知到满血模型的能力。

另一方面,也可以期待开源,带来更多衍生应用的可能性。

那么,再次打开传送门:

tongyi.com

如果你探索到了什么新鲜玩法,也欢迎在评论区跟大家分享 ~

参考链接:

[ 1 ] https://x.com/YUEXINWANG61157/status/1917059240360919318

[ 2 ] https://x.com/kis/status/1917090589931409750

[ 3 ] https://x.com/godofprompt/status/1917147674438255021

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

点亮星标

科技前沿进展每日见

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們