今天小編分享的科技經驗:大模型“自動修bug”能力将提升,豆包開源多語言代碼修復基準,歡迎閲讀。
IT 之家 4 月 10 日消息,豆包大模型團隊今日通過官方公眾号宣布,首個多語言類 SWE 數據集 Multi-SWE-bench 現已正式開源,可用于評估和提升大模型 " 自動修 Bug" 能力。
在 SWE-bench 基礎上,Multi-SWE-bench 首次覆蓋 Python 之外的 7 種主流編程語言,是真正面向 " 全棧工程 " 的評測基準。其數據均來自 GitHub issue,歷時近一年構建,以盡可能準确測評和提高大模型高階編程智能水平。
Multi-SWE-bench 旨在推動自動編程技術從僅能解決單一語言(如 Python)和低復雜度的任務,朝着支持多語言、具備真實問題解決能力的通用型智能體邁進。
SWE-bench 是當前最具代表性的代碼修復評測基準,強調任務真實、難度高。它基于 GitHub issue,要求模型自動定位并修復 Bug,兼具跨檔案修改、復雜語義推理與上下文理解等挑戰。
Multi-SWE-bench 旨在補全現有同類基準語言覆蓋方面的不足,系統性評估大模型在復雜開發環境下的 " 多語言泛化能力 ",推動多語言軟體開發 Agent 的評估與研究,其主要特性如下:
首次覆蓋 7 種主流編程語言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),構建多語言開發環境下的代碼修復任務,系統評估模型的跨語言适應與泛化能力;
引入任務難度分級機制,将問題劃分為簡單(Easy)、中等(Medium)和困難(Hard)三類,涵蓋從一行修改到多檔案、多步驟、多語義依賴的開發挑戰;
1,632 個實例全部來源于真實開源倉庫,并經過統一的測試标準和專業開發者的審核篩選,确保每個樣本具備清晰的問題描述、正确的修復補丁以及可復現的運行測試環境。