今天小编分享的科技经验:阿里开源推理模型QwQ!可联网搜索,思维链裸奔,开发者玩疯了,欢迎阅读。
智东西 2 月 25 日报道,今天,阿里通义千问团队推出 QwQ-Max-Preview 深度思考模型,并支持联网搜索,展现出超强的通用能力,不仅现场锐评了最新的《哪吒 2》电影,还能写代码、做数学题,并可以胜任创意写作、游戏开发等开放性任务。这款模型会在不久后开源,目前已在通义千问的新官网上线,仅需点击聊天框左下角的 " 深度思考(QwQ)" 按钮即可体验。
QwQ-Max-Preview 的博客文章有满屏醒目的颜文字,并附上跳转到体验页面和 Discord 的链接,还特别标注出这篇博客是正是由新模型亲自操刀的,模型撰写博客时的思考过程也被一并呈现在文内。
体验链接:https://chat.qwen.ai/
Discord 链接:https://discord.com/invite/yPEP2vHTu4
在 DeepSeek 推出 DeepSeek-R1 深度思考模型后,阿里和腾讯都争相推出了类 R1 的深度推理模型。QwQ-Max-Preview 基于 Qwen2.5-Max 构建,在数学、编程以及通用任务中展现了更强的能力,同时在与 Agent 相关的工作流中也有不错的表现。作为即将发布的 QwQ-Max 的预览版,这个版本还在持续优化中。
通义千问团队计划在不久的将来以 Apache 2.0 许可協定开源发布 QwQ-Max 以及 Qwen2.5-Max。此外,通义千问计划面向全球用户推出 Qwen Chat App,并开源更适合端侧的小尺寸推理模型。
博客内,通义千问团队放出了多个实测案例。
通义千问的深度思考模型能与联网功能结合,根据实时互联网信息进行推理,先来看看通义千问是怎么评价《哪吒 2》的。在打开深度思考和联网搜索功能后,千问快速查询互联网信息,并在思考过程中与答案里都清晰地引用信源。
下方是 QwQ 对《哪吒 2》的评价,截图后由 Qwen2.5-VL-72B-Instruct 翻译:
下一个案例主要展现了模型的代码能力。提示词为 " 创建一个 p5.js 脚本,用于在旋转的球体内创建 100 个弹跳的黄色小球。小球被限制在球体内,并且正确处理了碰撞检测。球体缓慢旋转以产生动态效果。"
长时间思考后,QwQ-Max-Preview 输出了 71 行代码,并附上了对代码主要功能的描述和使用指南,可以说是十分全面了。复制代码并运行后,可以看到动画的效果基本符合提示词要求。
不过,当智东西将同款提示词甩给体验链接中的 QwQ-Max-Preview,它给出的代码运行后可以说是 " 车祸现场 ",黄色小球漫天飞舞,完全忽视了 " 小球被限制在球体内 " 这一要求。这一现象或许是由于预览版本尚不稳定。
接下来的测试任务是游戏开发。QwQ-Max-Preview 收到的需求是:" 在同一个 HTML 檔案中创建一个游戏。发挥你的想象力,将俄罗斯方块和 2048 游戏结合成一个游戏。"
模型开发出的新游戏确实将两款游戏的玩法结合了起来,原版 2048 游戏是通过滑动方块进行相同数字的消除,而新游戏中数字将会从上方掉落,需要玩家进行操作并消除。
这款模型还能胜任更为复杂的游戏开发任务,例如下方提示词这种带调整的:
创建一个棋盘游戏网页,显示一个六边形网格,就像在《卡坦岛》游戏中一样。每个六边形网格都标有从 1 到 N 的数字,其中 N 是六边形格子的总数。使其具有通用性,以便可以使用滑块更改 " 环 " 的数量。例如,在《卡坦岛》中,半径为 3 个六边形。请使用单个 HTML 页面。
案例中模型对提示词的理解还是比较到位的,拖动滑块确实可以修改环的数量。
不过,在我们用同样提示词进行的实测中,完成效果依旧不太理想,从六边形的形状到格子的排列,都与原提示词的要求有些偏差,还出现了超出显示范围的问题。或许在未来正式版发布后,这些问题能得到解决。
通义千问思考模型本次还融入了 Agent 能力,支持工具选择,不过目前的体验版本尚不支持。在博客文章中提供的案例里,可以看到这些工具包括影像生成、物流追踪、二维码生成、港股行情等。
示例中,测试人员选择了二维码生成器和影像生成两款工具,要求模型生成一个穿着白色连衣裙的女孩,然后展示一个指向 taobao.com 的二维码图片。
生成结果是这样的,可以看到模型选择了二次元的画风,画面内容符合要求,二维码实测也可以跳转至淘宝官网。
据通义千问团队介绍,本次他们既会开源满血版思考模型,也将推出轻量级的变体,还会将其融入应用,此举是为了让不同层次用户都能体验到这款模型的能力。他们也邀请全球开发者社群对这些模型进行实验、优化和扩展,探索从教育工具到 agent 等多样化应用场景。
QwQ-Max-Preview 的发布及将要到来的开源,意味着阿里也正式加入了这波推理模型的开源潮。阿里的 Qwen 系列模型作为当今全球影响力最大的开源模型家族之一,衍生模型数量已经超过 9 万个,还霸榜了 Hugging Face 开源榜单的全球前 10 名。在正式版的 QwQ-Max 开源发布后,或许还会给全球开发者带来更多的惊喜。