大模型圈最新现状：一半在用DeepSeek，另一半在玩“颜文字”？

今天小编分享的互联网经验：大模型圈最新现状：一半在用DeepSeek，另一半在玩“颜文字”？，欢迎阅读。

这两天的大模型圈子，可谓是热闹非凡。一边，DeepSeek 凭借其低成本、高性能的亮眼表现，吸引着无数目光，各路技术大牛纷纷点赞。

而另一边，社交媒体和技术论坛上却开始流行起各种奇特的 " 颜文字 "，比如 "QwQ"、"QVQ"，不明所以的人可能一脸懵，但懂行的人都知道，这指的正是阿里通义千问开源的系列模型。

今年 9 月，阿里发布通义千问新一代开源模型 Qwen2.5 系列，一口气推出了从 0.5B 到 72B 参数的不同规模版本，覆盖了各种应用需求，成功跻身全球顶尖开源模型行列，多模态、多语言能力样样不落，成了不少企业和开发者的心头好。不仅如此，Qwen 团队最近也动作频频，接连开源了几款颇具亮点的 AI 模型，持续引发关注。

Qwen 团队的命名风格也是相当 " 抽象 "： QVQ，" 两眼瞪 "；QwQ，像是键盘上不小心蹭了一下。这是什么代码世界的颜文字？似乎技术大牛们在严肃的科研之余，偷偷藏了一点 " 皮 "。也许，Qwen 的命名哲学就是：名字随意，能打才是硬道理？

提起生成式 AI，大家的目光似乎总离不开大洋彼岸的科技巨头：OpenAI、谷歌、Meta。但最近，AI 圈子里却频频闪现一些来自东方的身影，比如 DeepSeek 和阿里的通义千问 Qwen，它们正在各大 AI 模型性能榜单上攻城略地，成为焦点。

要知道，过去我们聊到国产大模型，总感觉带着点 " 追赶者 " 的阴影。但现在这样的中国开源力量，正在用实力证明自己不再是看客，而是足以和 OpenAI、Meta 这些巨头劲旅掰手腕的角色。

Hugging Face 2024 年年度盘点数据就很有意思：Qwen2.5-1.5B-Instruct 的下载量占比高达 26.6%，碾压了 Llama 3 和 Gemma 这些明星开源模型。下载量这东西，虽然不能完全等同于 " 最强实力 "，但绝对是人气的硬指标。

Qwen2.5-1.5B-Instruct 的超高下载量，证明了其在当前时间节点上的广泛应用和高人气，也反映出中国公司开发的开源大模型正在国际舞台上展现出越来越强的影响力，实际上，Hugging Face 平台上 2023 年下载量最高的开源模型，同样来自中国社区，是智源研究院 BGE-base。

对于 Qwen 的亮眼表现，国外网友也是喜闻乐见，甚至已经开始玩梗了：扎克伯格可能正偷偷瞅着你用 Qwen 而不是 Llama。"

圣诞大礼包 QvQ，首个开源多模态推理模型

网友们开始用上的包括 Qwen 团队送上的圣诞礼物： QVQ-72B-Preview。这是一款能够分析影像并进行推理的全新开源模型。虽然还处于实验阶段，但初步测试表明，它在视觉推理任务中表现相当出色。

QVQ 通过逐步思考来解决问题，类似于 OpenAI 的 o1 或 Google 的 Flash Thinking 等能够 " 逐步思考 " 的模型。用户扔给它一张图和一些指令，系统会分析信息，在必要时花时间进行反思，并以每个预测的置信度分数提供答案。

在底层架构上，QVQ-72B-Preview 基于 Qwen 现有的视觉语言模型 Qwen2-VL-72B 构建，并增添了思考与推理的能力，这使它成为首个此类开源模型。

开发者在 Macbook Pro 上运行 QVQ

在基准测试中，开源的 QVQ 全面超越了其前身 Qwen2-VL-72B-Instruct，达到了与闭源模型如 OpenAI 的 o1 和 Claude 3.5 Sonnet 相近的准确水平。

QVQ-72B-Preview 的基准测试结果

在实际测试中，一位网友拍了一张纽约地铁照片考验 QVQ，并提问 " 如果我要去唐人街，我该在这站下车吗？" 用户最终表示模型做出了正确的判断，结合问题进行了有效的推理。

获陶哲轩点赞的开源推理模型 QwQ

时间再往前推，2024 年 11 月 28 日，Qwen 团队还开源了一款专注于推理能力的 AI 模型 QwQ-32B-Preview。

这是 Qwen 团队发布的首个开源推理模型，旨在增强 AI 推理能力。尽管参数量仅为 32B，但在 GPQA、AIME、MATH-500 和 LiveCodeBench 等多个评测中，QwQ 都取得了不俗的成绩，甚至在部分测试中超越了超越了 o1。QwQ 具备深度自省能力，能够质疑自身假设并进行深思熟虑的自我对话，从而解决复杂问题。

虽然 QwQ 目前还处于实验阶段，但它展现出的强大分析能力和独特的推理方式，已经吸引了不少目光，甚至连数学界的大牛陶哲轩都公开点赞，说它的表现超越了以往的所有开源模型。

在 AIMO（AI 数学奥林匹克）挑战赛中，Qwen 系列模型也成为了参赛者们最常用的模型之一，位列前三。

AIMO 使用最多的模型排名前三均为 Qwen

" 开放权重、价格低、基础能力突出，这样的推理模型谁不喜欢呢 "。

Qwen2.5-Coder：开源界的 " 代码扛把子 "？

Qwen2.5 系列的发布，尤其是 Qwen2.5-Coder 的亮相，在 AI 圈内引发了一波讨论。尽管模型体积相对较小，但 Qwen 2.5 Coder32B 在 HumanEval 等编程基准测试中仍能与前沿模型相媲美。

有海外技术博主就吐槽，现在大家好像都盯着 OpenAI、谷歌、Anthropic 这些巨头的动态，却忽略了 Qwen 这个 " 狠角色 "。人家可是第一个能跟 Claude Sonnet 和 GPT-4o 正面硬刚，还能在你电腦上本地运行的开放权重模型。这可不仅仅是跑分好看而已，很多体验过的人都说 " 真香 "。相比之下，DeepSeek 的模型虽然也很牛，但体积太大，本地跑起来有点费劲（彼时 deepseek v3 还未发布）。Qwen2.5-Coder 的出现，对于开源社区来说绝对是个大新闻。更良心的是，阿里还把技术报告完完整整地公开了，没有藏着掖着，与社区共享这份成果。

还有开发者基于 Qwen2.5-Coder 做了 AI 的视频编辑器 Video Composer，用户可以通过拖放素材（如图片、视频和音频），并使用自然语言，让 Qwen2.5-Coder 生成新视频（基于 FFMPEG 技术）。

满足多样化需求，全球化的 Qwen

Qwen 的另一大优势在于它的 " 平易近人 "。Qwen2.5 系列不仅面向技术专家或大型企业，它的设计初衷是让广大用户都能轻松使用。从资源受限设备适用的 0.5 亿参数版本，到企业级应用所需的 720 亿参数版本，提供了丰富的选择，满足不同需求。

在日本，阿里云与东京大学初创企业 Lightblue 合作，旨在提升其日语大型语言模型（LLMs）。Lightblue 借助阿里云的架构及 Qwen LLM 技术，对模型进行了优化，从而提高了东亚语言的准确性。

知名投资人 Coinbase 前 CTOBalaji Srinivasan 也公开认可了 Qwen 的多模态和多语言能力。

现在，全球各地的工程师几乎都可以轻松访问 Qwen 的各类模型。更难得的是，Qwen 在处理多种语言方面表现出色，即使是一些全球 AI 训练数据比较少的 " 小语种 "，比如缅甸语、孟加拉语和乌尔都语，它也能应对。相比之下，Meta 的开源 AI 模型 Llama 主要还是针对英语应用为主。

不少日本开发者在认真研究 Qwen2.5 的技术报告中国 AI 开源势力崛起

Qwen 等中国 AI 模型的崛起，为国内企业提供了更多选择和可能性。在当前国际环境，意义更加凸显。更关键的是，它们不仅仅是一个 " 备胎 " 选项，而是正在证明自己有实力与美国顶尖技术掰手腕。

Qwen 的意义，也不仅仅体现在技术上，其背后代表的开放、协作，这说明中国在 AI 领網域并没有掉队，反而通过开源展现出了强劲的竞争力。事实证明，所谓的 GPU 限制并没有阻碍中国 AI 的发展。如果这个势头保持下去，中国很有可能在 LLM 市场占据更重要的地位。当开源模型比 Meta（发布带有特殊 Llama 研究许可的模型）还要开放，当大家都能用上性能不输甚至更强的开源模型时，谁会不乐于使用呢？

CNBC 近期也发文指出，中国在 LLM 方面取得了显著进展，Qwen、DeepSeek 等模型在某些方面已经超越了美国的竞争对手。中国公司正积极拥抱开源模式，推动 AI 技术的发展和应用，以促进创新并扩大全球影响力。文章认为，中国正在 AI 领網域快速崛起，其 AI 模型已经具备相当的国际竞争力，并且正在努力构建自主可控的 AI 生态。

Hugging Face 的 CEO Clem 在其 2025 年 AI 预测中甚至提到，中国将开始引领人工智能竞赛，这主要得益于其在开源人工智能竞赛中的领先地位。

Sam Altman 最近在 " 感叹 "：复制相对容易，而做全新且有风险的事情极其困难。不过他也表示，成功的个体研究人员理应获得赞誉，因为这 " 是世界上最酷的事 "。评论区里，Vaibhav Srivastav 回应到，公开的共享不应被忽视，并点名 Qwen 和 DeepSeek 团队，他们同样值得喝彩。