大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o

2024-11-12 简体 HK SG TW

今天小编分享的科学经验:最强开源CodeLLM模型深夜来袭!320亿参数,Qwen2.5-Coder新模型超越GPT-4o,欢迎阅读。

一夜之间,AI 编程模型的开源王座易主了!

Qwen2.5-Coder-32B 正式发布,霸气拿下多个主流基准测试 SOTA,彻底登上全球最强开源编程模型宝座。

更重要的是,在代码能力的 12 个主流基准上,Qwen2.5-Coder-32B 与 GPT-4o 对决,斩获 9 胜,一举掀翻闭源编程模型的绝对统治。

不用一行代码,只要输入最直接、够详细的自然语言 prompt,它就能给你整全套:

比如,做个简单的模拟三体运动的 HTML 网页吧!

生成个 game of life 的小游戏,也是手拿把掐:

哪怕是完全不懂编程的小白,也能轻松上手。比如我们体验了一把用一句大白话生成计算器:

很快就搞定了,计算器可以直接使用。

还有更多好玩又实用的应用,比如不到 20 秒生成一个音乐播放器。

做简历也易如反掌:

怪不得开发者们都说,太恐怖了,超越了 4o,与 Sonnet、o1 都能掰手腕!

更让人惊喜的是,这次 Qwen2.5-Coder 上新,共开源 0.5B/1.5B/3B/7B/14B/32B 共 6 个尺寸的全系列模型,每种尺寸都取得同规模下SOTA。

而且大部分版本都是采用非常宽松的Apache 2.0 许可。

△蓝色为此次新发布版本

要知道,自从 CodeQwen1.5 推出以来,该系列模型就成为开发者社区最关注的开源编程模型之一。

9 月发布的 Qwen2.5-Coder-7B 版本,更是一骑绝尘,不少人表示它足以替代 GPT-4 和 Sonnet 3.5 成为日常主力工具。

当时还预告了 32B 的发布,从此,网友一直催更。

这次,32B 和更多尺寸的全系列 Qwen2.5-Coder 如约而至,这个看起来能用 code 生万物的最强开源代码模型,到底厉害在哪儿呢?

超越 GPT-4o,人人都能用

首先,我们为什么关注编程模型?因为代码能力对大模型的推理很重要,大模型对代码的理解通常被认为是其逻辑能力的基础来源之一。

代码思维链 ( program-of-thought )   将复杂问题分解为可执行的代码片段,并且利用代码执行器逐步解决子问题,可以较大程度提升基于大型语言模型的推理能力。

DeepMind 斯坦福 UC 伯克利联手发表的一项研究中提到,使用代码链(Chain of Code),不仅可以提升模型基于代码的推理能力,也给模型自然语言任务、数学计算方面带来积极影响。

△https://arxiv.org/abs/2312.04474

Qwen2.5-Coder 也采用了类似原理。它基于 Qwen2.5 基础大模型进行初始化,使用源代码、文本代码混合数据、合成数据等 5.5T tokens 的数据持续训练,实现了代码生成、代码推理、代码修复等核心任务性能的显著提升。

最新发布中,Qwen2.5-Coder 全系列共开源 6 个尺寸模型,每个规模包含 base 和 Instruct 两个版本。

Base 模型为开发者可以自行微调的基座模型,Instruct 模型是可以直接聊天的官方对齐模型。

团队评估了不同尺寸 Qwen2.5-Coder 在所有数据集上的表现,不但均取得同等规模下最佳性能(无论开闭源),并且还验证了 Scaling Law 依旧奏效。

其中,Qwen2.5-Coder-32B-Instruct 是本次开源的旗舰模型。

在编程大模型主要关注的 5 个方面上,它都实现了对 GPT-4o 的超越:

代码生成

代码修复

代码推理

多编程语言

人类偏好对齐

首先来看编程模型最核心的能力——代码生成。

Qwen2.5-Coder-32B-Instruct 在多个流行的代码生成基准上都取得了开源 SOTA。

而且在 HumanEval、McEval、Spider、EvalPlus、BigCodeBench 等基准上,都超越了闭源的 GPT-4o 和 Claude 3.5 Sonnet。

其次,代码修复方面,在主流基准 Aider 上,Qwen2.5-Coder-32B-Instruct 略胜 GPT-4o。

第三,代码推理方面,在 CRUXEval 基准上,32B 版本较 7B 版本有了明显提升,甚至达到了和 GPT-4o、Claude 3 Opus 相当的水平。

第四,在对多编程语言的掌握上,Qwen2.5-Coder 支持92 种编程语言。Qwen2.5-Coder-32B-Instruct 在其中 40 多种语言上表现出色。

在 Haskell、Racket 等语言上表现格外突出,打败 4o 等闭源模型同时取得了超高分数。

通过在预训练阶段进行独特数据清洗和配比,它在 McEval 上取得 65.9 分,

在多编程语言的代码修复基准 MdEval 上,同样表现突出,取得 75.2 分,位列所有开源模型第一。

最后,为了检验 Qwen2.5-Coder-32B-Instruct 在人类偏好上的对齐表现。通义千问团队还构建了一个来自内部标注的代码偏好评估基准 Code Arena,可以理解为编程大模型竞技场。

这一部分,Qwen2.5-Coder-32B-Instruct 和闭源模型正面 PK,通过让两个模型在同样问题下 PK,计算最终胜负比,以此来评判模型表现。

实验结果显示,Claude 3.5 Sonnet 战绩最好,Qwen2.5-Coder-32B-Instruct 和 GPT-4o 水平相当,胜率为 68.9%。

总的来看,Qwen2.5-Coder-32B-Instruct 毫无疑问是开源最佳,并且真正拉平甚至部分超出了有最强代码能力的闭源模型。

在实际应用上,通义千问团队演示了基于 Qwen2.5-Coder 打造的智能代码助手,并上线了一个Artifacts 应用。

目前智能代码助手领網域主要以闭源模型为主,Qwen2.5-Coder 为开发者提供了开源选择。

它在几个可以评估模型辅助编程的基准上(CrossCodeEval、CrossCodeEval、CrossCodeLongEval、RepoEval、SAFIM)都取得了 SOTA。

新的 Qwen2.5-Coder,对编程小白也很友好,一句话就能开发小应用 / 游戏。

比如现场自动做一个 2048 小游戏,几十秒搞定,立刻就能玩。

或者是生成一个图文并茂的英语单词卡页面,速度都非常快。

被全球开发者追捧的中国开源模型

Qwen2.5-Coder-32B 的快速推出可以说是众望所归。

就在前段时间,Reddit 还有帖子提问,怎么 32B 版本还不来?

毕竟,不少人都基于 9 月开源的 Qwen2.5-Coder-1.5B 和 7B 版本,打造出了热度颇高的应用。

比如Qwen Code Interpreter。这是一个类似于 ChatGPT 的代码解释器,可完全在本地 / 浏览器上运行,基于 Qwen2.5-Coder-1.5B 打造。

只用小模型还实现了非常好的效果,这立刻引发不少网友的关注,一个随手推荐帖就有近千人点赞。

还有人基于 Qwen2.5-Coder 打造了专门用于 rust 语言的编程助手。

说 Qwen2.5-Coder 是最受欢迎的开源编程大模型绝不为过,事实上,每一代 Qwen 编程模型,都代表了开源的最高水平,PK 的永远是当时最厉害的闭源模型。

今年 4 月,CodeQwen1.5-7B 发布,在基础代码生成能力上,它表现出超过更大尺寸模型的潜力,拉近了开源模型和 GPT-4 之间的编程能力差距。

之后在云栖大会上,Qwen2.5-Coder-1.5B/7B 发布。作为 Qwen2.5 家族的一员,Qwen2.5-Coder-7B 打败了当时比它尺寸更大的 DeepSeek-Coder-V2-Lite 和 Codestral-20B,成为最强基础编程模型之一。

在此基础上,Qwen2.5-Coder-32B 的推出,将规模提升一个数量级达到百亿参数,能力也进一步涌现,水平超越 GPT-4o,逐渐逼近闭源模型王者 Claude 3.5 Sonnet。

闭源模型山头几个月一换,而开源的 Qwen 却从来没有停下攀登的脚步,也进一步验证,开源模型和闭源模型之间的差距正在缩短,开源模型完全有机会、有能力取代闭源模型,为全球广大开发者用户提供更加低门槛、开放的 AI 能力。

随着 AI 应用趋势不断演进,越来越多领網域和行业加入,对 AI 模型的性能、开发成本以及上手门槛都会提出更高要求。反之,易用的开源模型将成为推动这股趋势的重要动力。

Qwen 系列的爆火就是这种正向循环最好的证明之一。截至 9 月底,全球基于 Qwen 系列二次开发的衍生模型数量 9 月底突破 7.43 万,超越 Llama 系列衍生模型的 7.28 万。

通义千问 Qwen 已成为全球最大的生成式语言模型族群。

而背靠阿里——全球云计算和 AI 的第一梯队玩家,一方面,深厚技术和资源支持为 Qwen 系列的持续开源、不断更新提供更可靠保障,另一方面,阿里自身业务及发展上的需要也构成了 Qwen 继续攀登高峰的内在闭环。

不过开源模型最大价值还是要回归开发者。

AI 的到来,让天下没有难开发的应用。

Qwen 作为中国开源大模型领军者,为全球开发者提供更丰富的选择,也代表中国创新力量在全球大模型竞技中登台亮相,并且正在得到更多人的认可。

嗯…比如前段时间 Mistral 发布的端侧模型没有和 Qwen2.5 做对比,还被小小吐槽了下(doge)。

值得一提的是,据透露Qwen3已经在路上,预计在几个月内和大家见面。可以期待一下 ~

关于 Qwen2.5-Coder 的更多信息,可直接通过下方链接了解。

GitHub 地址:

https://github.com/QwenLM/Qwen2.5-Coder

技术报告:

https://arxiv.org/abs/2409.12186

号外:为了探索 Qwen 在不同场景下的应用,通义千问 Qwen 联合魔搭社区、阿里云开发者社区发起征文活动,围绕 Agent 应用、微调 / 部署、行业应用、Qwen-coder 应用创作技术实践文章,就有机会参与瓜分 10 万元奖金!

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們