大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

豆包代碼大模型曝光!在字節最新開源基準裡,多種編程語言性能僅次于OpenAI/Claude

2024-12-05 简体 HK SG TW

今天小編分享的科學經驗:豆包代碼大模型曝光!在字節最新開源基準裡,多種編程語言性能僅次于OpenAI/Claude,歡迎閱讀。

豆包代碼大模型,不小心給曝光了!

在字節開源的代碼大模型評估基準 FullStack Bench 裡面,出現了此前字節未披露過的 Doubao-Coder。

不過目前還只是 Preview 版,還并沒有上線。

它在多種編程語言上的性能表現如下,可以看到在閉源模型中排名第五。

今年 6 月,字節還發布了 AI 編程助手豆包MarsCode。據傳即由 Doubao-Coder 模型支撐。

目前,豆包 MarsCode 每月為用戶貢獻百萬量級代碼。

而回到這個評估基準,據介紹 FullStack Bench 是目前最全面的代碼評估數據集。

團隊還同步開源了可随時測評代碼大模型的沙盒執行環境 SandBox Fusion,單伺服器即可部署,也可直接在線體驗。

全新代碼大模型評估基準 FullStack Bench

既然如此,那就先來了解一下這個最新評估基準。

有一說一,現在代碼大模型越來越卷,評估 AI 編程水平的 " 考卷 " 也被迫更新 ~

代碼評估基準可以幫助代碼大模型不斷優化。不過,當前的主流基準越來越難以反映代碼大模型的真實水平了。

主要體現在題目類型相對單調,覆蓋的應用領網域和編程語言少,模型即便在考試中拿了高分,現實中可能還是難以應對復雜的編程問題。

為了更真實地評估 AI 編程水平,字節豆包大模型團隊聯合 M-A-P 社區,開源了全新代碼大模型評估基準 FullStack Bench。

這是一個專注于全棧編程和多語言編程的代碼評估數據集,它首次囊括了編程全棧技術中超過 11 類真實場景,覆蓋 16 種編程語言,包含 3374 個問題。

FullStack Bench 的應用領網域抽取自全球最大的程式員技術問答社區 Stack Overflow,相比 HumanEval 等基準覆蓋的編程領網域擴大了一倍以上。

此前業界基準難以反映真實世界代碼開發的多樣性和復雜性。

例如,HumanEval 和 MBPP 中近 80% 數據只聚焦于基礎編程和高級編程問題;DS-1000 中超過 95% 數據集中于數據分析和機器學習,且僅對 Python 語言進行評測;xCodeEval 雖覆蓋多項任務,但基本局限于高級編程和數學領網域;McEval 和 MDEval 擴展了支持的編程語言,但應用領網域仍局限于基礎編程和高級編程,未涉及更廣泛的場景。

為模拟全棧開發的實際應用場景,字節豆包大模型和 M-A-P 研究團隊分析了全球最大的程式員技術問答社區 Stack Overflow 上的問題分布,從中提煉出常見的真實編程應用領網域。

團隊從 Stack Overflow 上随機抽取了 50 萬個問題,并使用大模型為每個問題标注應用領網域類型。

研究團隊篩選出占總問題數前 88.1% 的主要應用領網域,其餘領網域歸類為 " 其他 "。再通過對領網域分布做适當調整來保證魯棒性,最終形成了 FullStack Bench 關注的超過 11 種應用場景及分布比例。

FullStack Bench 包含 3374 個問題(中文及英文問題各占一半),每個問題均包括題目描述、參考解決方案、單元測試用例及标籤,總計 15168 個單元測試。

為保證評估準确性,每個問題内容均由相關領網域的編程專家設計,并經 AI 和人工驗證進行質量復核。例如,數據分析相關問題,由數據工程專家提出并把關配套内容。

在初始數據集構建後,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

FullStack Bench 數據構成情況如下圖所示。

為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具—— SandboxFusion,用于評估來自不同語言的不同編程任務。

除了 FullStack Bench,SandboxFusion 還兼容超過 10 種廣泛使用的代碼評估數據集,支持 23 種編程語言。開發者在單伺服器上即可輕松部署 SandboxFusion,也可直接在 GitHub 上進行體驗。

評測結果:解決難題,閉源模型仍優于開源模型

發布評測基準及沙盒的同時,研究團隊也基于 FullStack Bench 測評了全球 20 餘款代碼大模型及語言大模型的編程表現。

模型包括 Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama 等開源模型,以及 GPT-4o、OpenAI-o1、Doubao-Coder-Preview 等閉源模型。對于開源模型,根據模型大小,分為五個組别:1B+、6B+、13B+、20B+ 和 70B+。

跨領網域表現:數學編程領網域差異最大

得益于強大的推理能力,OpenAI o1-preview 不出所料地領先。

不過,一些開源模型也有不錯的表現。如 DeepSeekCoderv2-Instruct,在 AP ( 高級編程)、OS ( 作業系統)和其他類别中得到高分,拉開了與其他開源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct 在其各自開源組别中拔得頭籌,并超越了一些更高參數級别的模型。

為了全面評估現有大語言模型在不同場景下的表現,研究團隊可視化了模型在 FullStack Bench 各領網域的表現。

在 BP(基礎編程)、AP(高級編程)、MA(數學編程)、ML(機器學習)和 MM(多媒體)等領網域中,模型表現差異顯著,其中以 MA 領網域的差距最大。

MA 最佳表現者為 OpenAI o1-preview(得分 80.42),而最差的是 CodeLlama-34B-Instruct(得分 14.34)。數學編程要求模型同時具備數學和編程能力,那些在高度專業化代碼語料庫上訓練的模型,在 MA 領網域往往表現較差。

這一結果進一步證明,FullStack Bench 能夠更全面地評估模型的綜合編程能力。

跨語言表現:C++、C 和 Ruby 上存較大差異

研究團隊對不同模型在多種編程語言上的性能表現進行了分析。

大多數模型在 Bash 編程任務中表現良好。然而,在 C++、C 和 Ruby 的表現上存在較大差異,這表明模型設計者可能在訓練語料庫中對這些語言進行了選擇性采樣。部分 1B+ 的小型模型在 D、R 和 Scala 語言上的表現較差,其通過率低于 10%,這表明它們的多語言處理能力都較弱。

由于 SandboxFusion 提供了來自編譯器的反饋,研究人員評估了模型在部分編程語言上的編譯通過率。實驗結果表明,編譯通過率與測試通過率之間存在正相關關系,但編譯通過并不意味着測試一定通過。同時,研究還探讨了中英文表達對模型性能的影響。

解決難題,閉源模型普遍優于開源模型

不同模型在不同難度問題上的表現存在明顯差異。總體而言,1B+ 模型和 CodeLlama 系列在所有難度級别上的表現均不盡如人意。其餘模型在解決簡單問題時表現相似,但在中等難度問題上存在一定差距。對于難度較大的問題,閉源模型普遍優于開源模型。

使用 SandboxFusion,可提升模型表現

研究人員對比了 " 反思策略(Reflection)" 和 "N 次推斷策略(BoN)" 兩種策略。在 Reflection 策略中,通過利用 SandboxFusion 的反饋上下文對答案進行 N 次精煉,復現了自我精煉策略 [ Madaan et al., 2024 ] 。而在 BoN 策略中,僅進行 N 次推斷以獲得結果。

結果如圖所示,"Reflection" 策略明顯優于 "BoN",這表明 SandboxFusion 提供的反饋上下文具有較高的有效性。

了解這篇研究的詳情,可見文内 Arxiv 鏈接,或關注「豆包大模型團隊」公眾号,查閱更詳細解讀。

參考鏈接:

[ 1 ] 論文鏈接:https://arxiv.org/pdf/2412.00535v2

[ 2 ] 數據集開源地址:https://huggingface.co/datasets/ByteDance/FullStackBench

[ 3 ] 沙盒開源地址:https://github.com/bytedance/SandboxFusion

[ 4 ] 沙盒體驗入口:https://bytedance.github.io/SandboxFusion/playground/datasets

* 本文系量子位獲授權刊載,觀點僅為作者所有。

—  完  —

量子位  QbitAI

վ ' ᴗ ' ի 追蹤 AI 技術和產品新動态

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們