大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

GPT-4單項僅得7.1分,揭露大模型代碼能力三大短板,最新基準測試來了

2024-03-30 简体 HK SG TW

今天小編分享的科學經驗:GPT-4單項僅得7.1分,揭露大模型代碼能力三大短板,最新基準測試來了,歡迎閲讀。

首個 AI 軟體工程師Devin正式亮相,立即引爆了整個技術界。

Devin 不僅能夠輕松解決編碼任務,更可以自主完成軟體開發的整個周期——從項目規劃到部署,涵蓋但不限于構建網站、自主尋找并修復 BUG、訓練以及微調 AI 模型等。

這種 " 強到逆天 " 的軟體開發能力,讓一眾碼農紛紛絕望,直呼:" 程式員的末日真來了?"

在一眾測試成績中,Devin 在SWE-Bench基準測試中的表現尤為引人注目。

SWE-Bench 是一個評估 AI 軟體工程能力的測試,重點考察大模型解決實際 GitHub 問題的能力。

Devin 以獨立解決 13.86% 的問題率高居榜首," 秒殺 " 了 GPT-4 僅有的 1.74% 得分,将一眾 AI 大模型遠遠甩在後面。

這強大的性能讓人不禁浮想聯翩:" 未來的軟體開發中,AI 将扮演怎樣的角色?"

上海人工智能實驗室聯合字節跳動 SE Lab 的研究人員以及 SWE-Bench 團隊,提出了一個新測試基準DevBench,首次揭秘大模型在多大程度上可以從 PRD 出發,完成一個完整項目的設計、開發、測試。

具體地説,DevBench 首次對大模型進行了從產品需求文檔(PRD)到完整項目開發各階段表現的評測,包括軟體設計、依賴環境搭建、代碼庫級别代碼生成、集成測試和單元測試。

實驗證明,DevBench 可以揭露 GPT、CodeLlama、DeepSeek-Coder 等大語言模型在軟體研發不同階段的能力短板,如面向對象編程能力不足、無法編寫較為復雜的構建腳本(build script),以及函數調用參數不匹配等問題。

大語言模型距離可以獨立完成一個中小規模的軟體項目開發還有一段路要走。

目前,DevBench 的論文已經發布在預印平台 arXiv,相關代碼和數據開源在 GitHub 上。(鏈接見文末)DevBench 有哪些任務?

△  圖為 DevBench 框架概覽

傳統的編程基準測試往往關注代碼生成的某個單一方面,無法全面反映現實世界編程任務的復雜性。

DevBench 的出現,打破了這一局限,它通過一系列精心設計的任務,模拟軟體開發的各個階段,從而提供了一個全面評估 LLM 能力的平台。

DevBench 圍繞五個關鍵任務構建,每個任務都關注軟體開發生命周期的一個關鍵階段,模塊化的設計允許對每個任務進行獨立的測試和評估。

軟體設計:利用產品需求文檔 PRD 創建 UML 圖和架構設計,展示類、屬性、關系,以及軟體的結構布局。該任務參考 MT-Bench,采用 LLM-as-a-Judge 的評測方式。評測主要依據兩個主要指标:軟體設計一般原則(如高内聚低耦合等)和忠實度(faithfulness)。

環境設定:根據提供的需求文檔,生成初始化開發環境所需的依賴檔案。在評測過程中,該依賴檔案将在給定的基礎隔離環境(docker container)内通過基準指令進行依賴環境搭建。随後在這個模型搭建的依賴環境中,該任務通過執行代碼倉的基準示例使用代碼(example usage),評估執行基準代碼的成功率。

代碼實現:依據需求文檔和架構設計,模型需要完成整個代碼庫的代碼檔案生成。DevBench 開發了一個自動化測試框架,并針對所使用的具體編程語言進行了定制,集成了 Python 的 PyTest、C++ 的 GTest、Java 的 JUnit 和 JavaScript 的 Jest。該任務評估模型生成代碼庫在基準環境中執行基準集成測試和單元測試的通過率。

集成測試:模型根據需求,生成集成測試代碼,驗證代碼庫的對外接口功能。該任務在基準實現代碼上運行生成的集成測試,并報告測試的通過率。

單元測試:模型根據需求,生成單元測試代碼。同樣,該任務在基準實現代碼上運行生成的單元測試。除了通過率指标外,該任務還引入了語句覆蓋率評價指标,對測試全面性的進行定量評估。

DevBench 包含哪些數據?

DevBench 數據準備過程包括三個階段:倉庫準備、代碼清理和文檔準備。

在準備階段,研究人員從 GitHub 中選擇高質量的倉庫,确保它們的復雜性可管理。

在代碼清理階段,标注人員驗證代碼的功能性,對其進行精煉,并補充和運行測試以确保質量。

文檔準備階段涉及為倉庫創建需求文檔、 UML 圖和架構設計。

最終,DevBench 的數據集包含 4 個編程語言,多個領網域,共 22 個代碼庫。這些代碼倉庫的復雜性和所使用編程範式的多樣性為語言模型設定了巨大的挑戰。

幾個有趣的例子:

TextCNN

大模型能完整地寫一個 TextCNN 做文本二分類的模型嗎?能夠自己把數據集從 HF 拉下來,把訓練跑起來是基本要求。還需模型按照文檔的需求定制超參數、記錄 log、存儲 checkpoint、同時保證實驗可復現性。

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/TextCNN)

Registration & Login

前端項目往往依賴較多的組件庫和前端框架,模型是否能夠在可能出現版本衝突的前端項目中應對自如?

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/javascript/login-registration)

People Management

模型對 SQLite 數據庫的創建和管理掌握的怎麼樣?除了基本的增删改查操作,模型能否将校園人員信息和關系數據庫的管理和操作封裝成易用的命令行工具?

(https://github.com/open-compass/DevBench/tree/main/benchmark_data/cpp/people_management)

Actor Relationship Game

" 六度分隔理論 " 在影視圈的猜想驗證?模型需要從 TMDB API 獲取數據,并構建流行演員們之間通過合作電影進行連接的人際連系網。

( https://github.com/open-compass/DevBench/tree/main/benchmark_data/java/Actor_relationship_game )

ArXiv digest

ArXiv 論文檢索小工具也被輕松拿捏了?ArXiv 的 API 并不支持 " 篩選最近 N 天的論文 " 的功能,但卻可以 " 按發表時間排序 ",模型能夠以此開發一個好用的論文查找工具嗎?

( https://github.com/open-compass/DevBench/tree/main/benchmark_data/python/ArXiv_digest )

實驗發現

研究團隊利用 DevBench 對當前流行的 LLMs,包括 GPT-4-Turbo 進行了全面測試。結果顯示,盡管這些模型在簡單的編程任務中表現出色,但在面對復雜的、真實世界的軟體開發挑戰時,它們仍然遇到了重大困難。特别是在處理復雜的代碼結構和邏輯時,模型的性能還有待提高。

DevBench 不僅揭示了現有 LLMs 在軟體開發中的局限性,也為未來模型的改進提供了寶貴的洞見。通過這一基準測試,研究人員可以更好地理解 LLMs 的強項和弱點,從而有針對性地優化它們,推動 AI 在軟體工程領網域的進一步發展。

此外,DevBench 框架的開放性和可擴展性意味着它可以持續适配不同的編程語言和開發場景。DevBench 還在發展過程中,非常歡迎社區的朋友參與共建。

Devin 在 SWE-Bench 上一路領先,它的優異表現可以擴展到其他評測場景嗎?随着 AI 軟體開發能力的持續發展,這場碼農和 AI 的較量讓人倍感期待。

還有 OpenCompass 大模型評測體系

DevBench 現已加入 OpenCompass 司南大模型能力評測體系,OpenCompass 是上海人工智能實驗室研發推出的面向大語言模型、多模态大模型等各類模型的一站式評測平台。

OpenCompass 具有可復現、全面的能力維度、豐富的模型支持、分布式高效評測、多樣化評測範式以及靈活化拓展等特點。基于高質量、多層次的能力體系和工具鏈,OpenCompass 創新了多項能力評測方法,支持各類高質量的中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面,能夠實現對大模型真實能力的全面診斷。DevBench 更是拓寬了 OpenCompass 在智能體領網域的評測能力。

DevBench 論文:https://arxiv.org/abs/2403.08604

GitHub:https://github.com/open-compass/devBench/

OpenCompass   https://github.com/open-compass/opencompass

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們