大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

最強開源CodeLLM模型深夜來襲!320億參數,Qwen2.5-Coder新模型超越GPT-4o

2024-11-12 简体 HK SG TW

今天小編分享的科學經驗:最強開源CodeLLM模型深夜來襲!320億參數,Qwen2.5-Coder新模型超越GPT-4o,歡迎閱讀。

一夜之間,AI 編程模型的開源王座易主了!

Qwen2.5-Coder-32B 正式發布,霸氣拿下多個主流基準測試 SOTA,徹底登上全球最強開源編程模型寶座。

更重要的是,在代碼能力的 12 個主流基準上,Qwen2.5-Coder-32B 與 GPT-4o 對決,斬獲 9 勝,一舉掀翻閉源編程模型的絕對統治。

不用一行代碼,只要輸入最直接、夠詳細的自然語言 prompt,它就能給你整全套:

比如,做個簡單的模拟三體運動的 HTML 網頁吧!

生成個 game of life 的小遊戲,也是手拿把掐:

哪怕是完全不懂編程的小白,也能輕松上手。比如我們體驗了一把用一句大白話生成計算器:

很快就搞定了,計算器可以直接使用。

還有更多好玩又實用的應用,比如不到 20 秒生成一個音樂播放器。

做簡歷也易如反掌:

怪不得開發者們都說,太恐怖了,超越了 4o,與 Sonnet、o1 都能掰手腕!

更讓人驚喜的是,這次 Qwen2.5-Coder 上新,共開源 0.5B/1.5B/3B/7B/14B/32B 共 6 個尺寸的全系列模型,每種尺寸都取得同規模下SOTA。

而且大部分版本都是采用非常寬松的Apache 2.0 許可。

△藍色為此次新發布版本

要知道,自從 CodeQwen1.5 推出以來,該系列模型就成為開發者社區最關注的開源編程模型之一。

9 月發布的 Qwen2.5-Coder-7B 版本,更是一騎絕塵,不少人表示它足以替代 GPT-4 和 Sonnet 3.5 成為日常主力工具。

當時還預告了 32B 的發布,從此,網友一直催更。

這次,32B 和更多尺寸的全系列 Qwen2.5-Coder 如約而至,這個看起來能用 code 生萬物的最強開源代碼模型,到底厲害在哪兒呢?

超越 GPT-4o,人人都能用

首先,我們為什麼關注編程模型?因為代碼能力對大模型的推理很重要,大模型對代碼的理解通常被認為是其邏輯能力的基礎來源之一。

代碼思維鏈 ( program-of-thought )   将復雜問題分解為可執行的代碼片段,并且利用代碼執行器逐步解決子問題,可以較大程度提升基于大型語言模型的推理能力。

DeepMind 斯坦福 UC 伯克利聯手發表的一項研究中提到,使用代碼鏈(Chain of Code),不僅可以提升模型基于代碼的推理能力,也給模型自然語言任務、數學計算方面帶來積極影響。

△https://arxiv.org/abs/2312.04474

Qwen2.5-Coder 也采用了類似原理。它基于 Qwen2.5 基礎大模型進行初始化,使用源代碼、文本代碼混合數據、合成數據等 5.5T tokens 的數據持續訓練,實現了代碼生成、代碼推理、代碼修復等核心任務性能的顯著提升。

最新發布中,Qwen2.5-Coder 全系列共開源 6 個尺寸模型,每個規模包含 base 和 Instruct 兩個版本。

Base 模型為開發者可以自行微調的基座模型,Instruct 模型是可以直接聊天的官方對齊模型。

團隊評估了不同尺寸 Qwen2.5-Coder 在所有數據集上的表現,不但均取得同等規模下最佳性能(無論開閉源),并且還驗證了 Scaling Law 依舊奏效。

其中,Qwen2.5-Coder-32B-Instruct 是本次開源的旗艦模型。

在編程大模型主要關注的 5 個方面上,它都實現了對 GPT-4o 的超越:

代碼生成

代碼修復

代碼推理

多編程語言

人類偏好對齊

首先來看編程模型最核心的能力——代碼生成。

Qwen2.5-Coder-32B-Instruct 在多個流行的代碼生成基準上都取得了開源 SOTA。

而且在 HumanEval、McEval、Spider、EvalPlus、BigCodeBench 等基準上,都超越了閉源的 GPT-4o 和 Claude 3.5 Sonnet。

其次,代碼修復方面,在主流基準 Aider 上,Qwen2.5-Coder-32B-Instruct 略勝 GPT-4o。

第三,代碼推理方面,在 CRUXEval 基準上,32B 版本較 7B 版本有了明顯提升,甚至達到了和 GPT-4o、Claude 3 Opus 相當的水平。

第四,在對多編程語言的掌握上,Qwen2.5-Coder 支持92 種編程語言。Qwen2.5-Coder-32B-Instruct 在其中 40 多種語言上表現出色。

在 Haskell、Racket 等語言上表現格外突出,打敗 4o 等閉源模型同時取得了超高分數。

通過在預訓練階段進行獨特數據清洗和配比,它在 McEval 上取得 65.9 分,

在多編程語言的代碼修復基準 MdEval 上,同樣表現突出,取得 75.2 分,位列所有開源模型第一。

最後,為了檢驗 Qwen2.5-Coder-32B-Instruct 在人類偏好上的對齊表現。通義千問團隊還構建了一個來自内部标注的代碼偏好評估基準 Code Arena,可以理解為編程大模型競技場。

這一部分,Qwen2.5-Coder-32B-Instruct 和閉源模型正面 PK,通過讓兩個模型在同樣問題下 PK,計算最終勝負比,以此來評判模型表現。

實驗結果顯示,Claude 3.5 Sonnet 戰績最好,Qwen2.5-Coder-32B-Instruct 和 GPT-4o 水平相當,勝率為 68.9%。

總的來看,Qwen2.5-Coder-32B-Instruct 毫無疑問是開源最佳,并且真正拉平甚至部分超出了有最強代碼能力的閉源模型。

在實際應用上,通義千問團隊演示了基于 Qwen2.5-Coder 打造的智能代碼助手,并上線了一個Artifacts 應用。

目前智能代碼助手領網域主要以閉源模型為主,Qwen2.5-Coder 為開發者提供了開源選擇。

它在幾個可以評估模型輔助編程的基準上(CrossCodeEval、CrossCodeEval、CrossCodeLongEval、RepoEval、SAFIM)都取得了 SOTA。

新的 Qwen2.5-Coder,對編程小白也很友好,一句話就能開發小應用 / 遊戲。

比如現場自動做一個 2048 小遊戲,幾十秒搞定,立刻就能玩。

或者是生成一個圖文并茂的英語單詞卡頁面,速度都非常快。

被全球開發者追捧的中國開源模型

Qwen2.5-Coder-32B 的快速推出可以說是眾望所歸。

就在前段時間,Reddit 還有帖子提問,怎麼 32B 版本還不來?

畢竟,不少人都基于 9 月開源的 Qwen2.5-Coder-1.5B 和 7B 版本,打造出了熱度頗高的應用。

比如Qwen Code Interpreter。這是一個類似于 ChatGPT 的代碼解釋器,可完全在本地 / 浏覽器上運行,基于 Qwen2.5-Coder-1.5B 打造。

只用小模型還實現了非常好的效果,這立刻引發不少網友的關注,一個随手推薦帖就有近千人點贊。

還有人基于 Qwen2.5-Coder 打造了專門用于 rust 語言的編程助手。

說 Qwen2.5-Coder 是最受歡迎的開源編程大模型絕不為過,事實上,每一代 Qwen 編程模型,都代表了開源的最高水平,PK 的永遠是當時最厲害的閉源模型。

今年 4 月,CodeQwen1.5-7B 發布,在基礎代碼生成能力上,它表現出超過更大尺寸模型的潛力,拉近了開源模型和 GPT-4 之間的編程能力差距。

之後在雲栖大會上,Qwen2.5-Coder-1.5B/7B 發布。作為 Qwen2.5 家族的一員,Qwen2.5-Coder-7B 打敗了當時比它尺寸更大的 DeepSeek-Coder-V2-Lite 和 Codestral-20B,成為最強基礎編程模型之一。

在此基礎上,Qwen2.5-Coder-32B 的推出,将規模提升一個數量級達到百億參數,能力也進一步湧現,水平超越 GPT-4o,逐漸逼近閉源模型王者 Claude 3.5 Sonnet。

閉源模型山頭幾個月一換,而開源的 Qwen 卻從來沒有停下攀登的腳步,也進一步驗證,開源模型和閉源模型之間的差距正在縮短,開源模型完全有機會、有能力取代閉源模型,為全球廣大開發者用戶提供更加低門檻、開放的 AI 能力。

随着 AI 應用趨勢不斷演進,越來越多領網域和行業加入,對 AI 模型的性能、開發成本以及上手門檻都會提出更高要求。反之,易用的開源模型将成為推動這股趨勢的重要動力。

Qwen 系列的爆火就是這種正向循環最好的證明之一。截至 9 月底,全球基于 Qwen 系列二次開發的衍生模型數量 9 月底突破 7.43 萬,超越 Llama 系列衍生模型的 7.28 萬。

通義千問 Qwen 已成為全球最大的生成式語言模型族群。

而背靠阿裡——全球雲計算和 AI 的第一梯隊玩家,一方面,深厚技術和資源支持為 Qwen 系列的持續開源、不斷更新提供更可靠保障,另一方面,阿裡自身業務及發展上的需要也構成了 Qwen 繼續攀登高峰的内在閉環。

不過開源模型最大價值還是要回歸開發者。

AI 的到來,讓天下沒有難開發的應用。

Qwen 作為中國開源大模型領軍者,為全球開發者提供更豐富的選擇,也代表中國創新力量在全球大模型競技中登台亮相,并且正在得到更多人的認可。

嗯…比如前段時間 Mistral 發布的端側模型沒有和 Qwen2.5 做對比,還被小小吐槽了下(doge)。

值得一提的是,據透露Qwen3已經在路上,預計在幾個月内和大家見面。可以期待一下 ~

關于 Qwen2.5-Coder 的更多信息,可直接通過下方鏈接了解。

GitHub 地址:

https://github.com/QwenLM/Qwen2.5-Coder

技術報告:

https://arxiv.org/abs/2409.12186

号外:為了探索 Qwen 在不同場景下的應用,通義千問 Qwen 聯合魔搭社區、阿裡雲開發者社區發起征文活動,圍繞 Agent 應用、微調 / 部署、行業應用、Qwen-coder 應用創作技術實踐文章,就有機會參與瓜分 10 萬元獎金!

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們