大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Qwen2.5登上全球开源王座!72B模型击败LIama3 405B,轻松胜过GPT-4o-mini

2024-09-20 简体 HK SG TW

今天小编分享的科学经验:Qwen2.5登上全球开源王座!72B模型击败LIama3 405B,轻松胜过GPT-4o-mini,欢迎阅读。

击败 LIama3!Qwen2.5 登上全球开源王座。

而后者仅以五分之一的参数规模,就在多任务中超越 LIama3 405B。

各种任务表现也远超同类别的其他模型。

跟上一代相比,几乎实现了全面提升,尤其在一般任务、数学和编码方面的能力表现显著。

值得注意的是,此次 Qwen 可以说是史上最大规模开源,基础模型直接释放了 7 个参数型号,其中还有六七个数学、代码模型。

像 14B、32B 以及轻量级 Turbo 模型胜过 GPT-4o-mini。

除 3B 和 72B 模型外,此次所有开源模型均采用 Apache 2.0 许可。

Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B

Qwen2.5-Coder:1.5B、7B 和 32B(on the way)

Qwen2.5-Math:1.5B、7B 和 72B。

直接一整个眼花缭乱,已经有网友开始用上了。

Qwen2.5 72B 与 LIama3.1 405B 水平相当

相比于 Qwen2 系列,Qwen2.5 系列主要有这么几个方面更新。

首先,全面开源。

他们研究表明,用户对于生产用的 10B-30B 参数范围以及移动端应用的 3B 规模的模型有浓厚兴趣。

因此在原有开源同尺寸(0.5/1.5/7/72B)基础上,还新增了 14B、32B 以及 3B 的模型。

同时,通义还推出了 Qwen-Plus 与 Qwen-Turbo 版本,可以通过阿里云大模型服务平台的 API 服务进行体验。

可以看到,超半数模型都支持 128K 上下文,最多可生成 8K 上下文。

在他们的综合评测中,所有模型跟上一代相比实现了能力的跃迁,比如 Qwen2.5-32B 胜过 Qwen2-72B,Qwen2.5-14B 胜过 Qwen2-57B-A14B。

其次,预训练数据集更大更高质量,从原本 7 万亿个 token 扩展到最多 18 万亿个 token。

然后就是多方面的能力增强,比如获得更多知识、数学编码能力以及更符合人类偏好。

此外,还有在指令跟踪、长文本生成(从 1k 增加到 8K 以上 token)、结构化数据理解(如表格)和结构化输出生成(尤其是 JSON)方面均有显著提升。

来看看实际效果。

表格理解

生成 JSON 输出

此外,Qwen2.5 模型总体上对系统提示的多样性具有更强的适应能力,增强了聊天机器人的角色扮演实现和条件设定能力。

那么就来看看具体模型能力如何。

旗舰模型在前文已经看到,它在各个任务都有明显的进步。

而像 0.5B、1.5B 以及 3B 这样的小模型,性能大概是这样的:

值得注意的是,Qwen2.5-0.5B 型号在各种数学和编码任务上的表现优于 Gemma2-2.6B。

除此之外,Qwen2.5 还展现了指令调优之后的模型性能,72B-Instruct 在几项关键任务中超越了更大的 Llama-3.1-405B,尤其在数学(MATH:83.1)、编码(LiveCodeBench:55.5)和聊天(Arena-Hard:81.2)方面表现出色。

还有像 32B-Instruct、14B-Instruct 以及 Qwen2.5-Turbo,展现了与 GPT-4o-mini 相当的能力。

Qwen 史上最大规模开源

除了基础模型,此次 Qwen 还放出了代码和数学专业模型。

Qwen2.5-Coder 提供了三种模型大小:1.5B、7B 和 32B 版本(即将推出)。

主要有两点改进:代码训练数据规模的扩大以及编码能力的增强。

Qwen2.5-Coder 在更大规模的代码数据上进行训练,包括源代码、文本代码基础数据和合成数据,总计 5.5 万亿个 token。

它支持 128K 上下文,覆盖 92 种编程语言。开源的 7B 版本甚至超越了 DeepSeek-Coder-V2-Lite 和 Codestral 等更大型的模型,成为目前最强大的基础代码模型之一。

而数学模型这边,Qwen2.5-Math 主要支持通过 CoT 和 TIR 解决英文和中文数学问题。

目前不建议将此系列模型用于其他任务。

Qwen2.5-Math 这一系列开源了包括基础模型 Qwen2.5-Math-1.5B/7B/72B、指令调优模型 Qwen2.5-Math-1.5B/7B/72B-Instruct,以及数学奖励模型 Qwen2.5-Math-RM-72B。

与 Qwen2-Math 系列仅支持使用思维链(CoT)解决英文数学问题不同,Qwen2.5-Math 系列扩展支持使用思维链和工具集成推理(TIR)解决中英文数学问题。

跟上一版本相比,他们主要干了这三件事来实现基础模型更新。

利用 Qwen2-Math-72B-Instruct 模型来合成额外的高质量数学预训练数据。

从网络资源、书籍和代码中收集更多高质量的数学数据,尤其是中文数据,跨越多个时间周期。

利用 Qwen2.5 系列基础模型进行参数初始化,展现出更强大的语言理解、代码生成和文本推理能力。

最终实现了能力的提升,比如 1.5B/7B/72B 在高考数学问答中分别提升了 3.4、12.2、19.8 分。

好了,以上是 Qwen2.5 系列一整套堪称「史上最大规模」的开源。

不叫草莓叫猕猴桃

阿里通义开源负责人林俊旸也分享了背后的一些细节。

他首先表示,在开源 Qwen2 的那一刻就开始了 Qwen2.5 项目。

在这过程中,他们认识到了很多问题和错误。

比如在预训练方面,他们们只是专注于提高预训练数据的质量和数量,使用了很多大家熟悉的方法。

比如文本分类器用于召回高质量数据,LLM 评分器用于对数据进行评分,这样就能在质量和数量之间取得平衡。

还有在创建专家模型的同时,团队还利用它们生成合成数据。

在后期训练时候,用户的反馈来帮助他们逐一解决问题,同时他们也在探索 RLHF 方法,尤其是在线学习方法。

对于之后的更新和更新,他表示受 o1 启发,认为应该深入研究推理能力。

值得一提的是,在 Qwen2.5 预热之时,他们团队就透露不叫草莓,叫猕猴桃。

好了,现在猕猴桃可以快快用起来了。

参考链接:

[ 1 ] https://x.com/JustinLin610/status/1836461575965938104

[ 2 ] https://x.com/Alibaba_Qwen/status/1836449414220779584

[ 3 ] https://qwenlm.github.io/blog/qwen2.5/  

[ 4 ] https://qwenlm.github.io/blog/qwen2.5-llm/  

[ 5 ] https://qwenlm.github.io/blog/qwen2.5-coder/  

[ 6 ] https://qwenlm.github.io/blog/qwen2.5-math/

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們