大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Qwen2.5登上全球開源王座!72B模型擊敗LIama3 405B,輕松勝過GPT-4o-mini

2024-09-20 简体 HK SG TW

今天小編分享的科學經驗:Qwen2.5登上全球開源王座!72B模型擊敗LIama3 405B,輕松勝過GPT-4o-mini,歡迎閱讀。

擊敗 LIama3!Qwen2.5 登上全球開源王座。

而後者僅以五分之一的參數規模,就在多任務中超越 LIama3 405B。

各種任務表現也遠超同類别的其他模型。

跟上一代相比,幾乎實現了全面提升,尤其在一般任務、數學和編碼方面的能力表現顯著。

值得注意的是,此次 Qwen 可以說是史上最大規模開源,基礎模型直接釋放了 7 個參數型号,其中還有六七個數學、代碼模型。

像 14B、32B 以及輕量級 Turbo 模型勝過 GPT-4o-mini。

除 3B 和 72B 模型外,此次所有開源模型均采用 Apache 2.0 許可。

Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B

Qwen2.5-Coder:1.5B、7B 和 32B(on the way)

Qwen2.5-Math:1.5B、7B 和 72B。

直接一整個眼花缭亂,已經有網友開始用上了。

Qwen2.5 72B 與 LIama3.1 405B 水平相當

相比于 Qwen2 系列,Qwen2.5 系列主要有這麼幾個方面更新。

首先,全面開源。

他們研究表明,用戶對于生產用的 10B-30B 參數範圍以及移動端應用的 3B 規模的模型有濃厚興趣。

因此在原有開源同尺寸(0.5/1.5/7/72B)基礎上,還新增了 14B、32B 以及 3B 的模型。

同時,通義還推出了 Qwen-Plus 與 Qwen-Turbo 版本,可以通過阿裡雲大模型服務平台的 API 服務進行體驗。

可以看到,超半數模型都支持 128K 上下文,最多可生成 8K 上下文。

在他們的綜合評測中,所有模型跟上一代相比實現了能力的躍遷,比如 Qwen2.5-32B 勝過 Qwen2-72B,Qwen2.5-14B 勝過 Qwen2-57B-A14B。

其次,預訓練數據集更大更高質量,從原本 7 萬億個 token 擴展到最多 18 萬億個 token。

然後就是多方面的能力增強,比如獲得更多知識、數學編碼能力以及更符合人類偏好。

此外,還有在指令跟蹤、長文本生成(從 1k 增加到 8K 以上 token)、結構化數據理解(如表格)和結構化輸出生成(尤其是 JSON)方面均有顯著提升。

來看看實際效果。

表格理解

生成 JSON 輸出

此外,Qwen2.5 模型總體上對系統提示的多樣性具有更強的适應能力,增強了聊天機器人的角色扮演實現和條件設定能力。

那麼就來看看具體模型能力如何。

旗艦模型在前文已經看到,它在各個任務都有明顯的進步。

而像 0.5B、1.5B 以及 3B 這樣的小模型,性能大概是這樣的:

值得注意的是,Qwen2.5-0.5B 型号在各種數學和編碼任務上的表現優于 Gemma2-2.6B。

除此之外,Qwen2.5 還展現了指令調優之後的模型性能,72B-Instruct 在幾項關鍵任務中超越了更大的 Llama-3.1-405B,尤其在數學(MATH:83.1)、編碼(LiveCodeBench:55.5)和聊天(Arena-Hard:81.2)方面表現出色。

還有像 32B-Instruct、14B-Instruct 以及 Qwen2.5-Turbo,展現了與 GPT-4o-mini 相當的能力。

Qwen 史上最大規模開源

除了基礎模型,此次 Qwen 還放出了代碼和數學專業模型。

Qwen2.5-Coder 提供了三種模型大小:1.5B、7B 和 32B 版本(即将推出)。

主要有兩點改進:代碼訓練數據規模的擴大以及編碼能力的增強。

Qwen2.5-Coder 在更大規模的代碼數據上進行訓練,包括源代碼、文本代碼基礎數據和合成數據,總計 5.5 萬億個 token。

它支持 128K 上下文,覆蓋 92 種編程語言。開源的 7B 版本甚至超越了 DeepSeek-Coder-V2-Lite 和 Codestral 等更大型的模型,成為目前最強大的基礎代碼模型之一。

而數學模型這邊,Qwen2.5-Math 主要支持通過 CoT 和 TIR 解決英文和中文數學問題。

目前不建議将此系列模型用于其他任務。

Qwen2.5-Math 這一系列開源了包括基礎模型 Qwen2.5-Math-1.5B/7B/72B、指令調優模型 Qwen2.5-Math-1.5B/7B/72B-Instruct,以及數學獎勵模型 Qwen2.5-Math-RM-72B。

與 Qwen2-Math 系列僅支持使用思維鏈(CoT)解決英文數學問題不同,Qwen2.5-Math 系列擴展支持使用思維鏈和工具集成推理(TIR)解決中英文數學問題。

跟上一版本相比,他們主要幹了這三件事來實現基礎模型更新。

利用 Qwen2-Math-72B-Instruct 模型來合成額外的高質量數學預訓練數據。

從網絡資源、書籍和代碼中收集更多高質量的數學數據,尤其是中文數據,跨越多個時間周期。

利用 Qwen2.5 系列基礎模型進行參數初始化,展現出更強大的語言理解、代碼生成和文本推理能力。

最終實現了能力的提升,比如 1.5B/7B/72B 在高考數學問答中分别提升了 3.4、12.2、19.8 分。

好了,以上是 Qwen2.5 系列一整套堪稱「史上最大規模」的開源。

不叫草莓叫猕猴桃

阿裡通義開源負責人林俊旸也分享了背後的一些細節。

他首先表示,在開源 Qwen2 的那一刻就開始了 Qwen2.5 項目。

在這過程中,他們認識到了很多問題和錯誤。

比如在預訓練方面,他們們只是專注于提高預訓練數據的質量和數量,使用了很多大家熟悉的方法。

比如文本分類器用于召回高質量數據,LLM 評分器用于對數據進行評分,這樣就能在質量和數量之間取得平衡。

還有在創建專家模型的同時,團隊還利用它們生成合成數據。

在後期訓練時候,用戶的反饋來幫助他們逐一解決問題,同時他們也在探索 RLHF 方法,尤其是在線學習方法。

對于之後的更新和更新,他表示受 o1 啟發,認為應該深入研究推理能力。

值得一提的是,在 Qwen2.5 預熱之時,他們團隊就透露不叫草莓,叫猕猴桃。

好了,現在猕猴桃可以快快用起來了。

參考鏈接:

[ 1 ] https://x.com/JustinLin610/status/1836461575965938104

[ 2 ] https://x.com/Alibaba_Qwen/status/1836449414220779584

[ 3 ] https://qwenlm.github.io/blog/qwen2.5/  

[ 4 ] https://qwenlm.github.io/blog/qwen2.5-llm/  

[ 5 ] https://qwenlm.github.io/blog/qwen2.5-coder/  

[ 6 ] https://qwenlm.github.io/blog/qwen2.5-math/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們