GPT-4加Agent輕松追平Devin！普林斯頓造，開源首日斬獲1.6k星

今天小編分享的科學經驗：GPT-4加Agent輕松追平Devin！普林斯頓造，開源首日斬獲1.6k星，歡迎閱讀。

用 GPT-4 打造的 AI 程式員，結果輕松追平 Devin！

普林斯頓打造的開源 SWE-agent，直接開箱即用——修復 GitHub 存儲庫中真實 bug。

在 25% 的 SWE-bench 測試集上，它實現了與 Devin 相似的準确度—— 解決了 12.29% 的問題。

GitHub 上線首日即斬獲 1.6K 星。不少網友感嘆，只需對 GPT-4 命令行工具進行簡單設計，就可以讓 GPT-4 部分能力大幅提升。

這恰好也印證了前幾天吳恩達在演講中的觀點：

我認為 AI Agent 将在今年推動人工智能巨大進步，甚至可能超過下一代基礎模型。

因為在吳恩達的研究中，GPT-3.5 的 Agent 比 GPT-4 的表現還要好。

如今開源版 Devin 現世，已經有人開始 RIP Devin 了。

這就來看看這個開源版 Devin 長什麼樣。

開源版 Devin 來了

簡單來說，SWE-agent 是将語言模型（比如 GPT-4）轉變為軟體工程 agent，來 Debug GitHub 存儲庫中的一些問題。

他們設計了以 LM 為中心的命令和反饋格式來實現這些結果，使語言模型更容易浏覽存儲庫、查看、編輯和執行代碼檔案。

用他們的說法，這叫做代理計算機接口（ACI），并構建 SWE-agent 存儲庫，以便輕松迭代 ACI 設計。

在 SWE-agent 上，團隊主要設計了這些功能。

創建檔案查看和編輯器，可以打開、滾動和編輯檔案。

結果發現每輪只顯示 100 行時效果最佳。

通過自動語法檢查編輯特定行。

如果代碼語法不正确，就不讓編輯命令通過。當命令輸出為空時會返回一條信息：" 您的命令運行成功，但未產生任何輸出 "。

編寫和執行測試。

目前使用 SWE-agent 主要有兩個步驟。

首先，推理。SWE-agent 接收一個輸入的 GitHub 問題，并返回一個試圖修復該問題的拉取請求。

第二步是評估拉取請求，以驗證它是否确實修復了問題。*（目前僅适用于 SWE-bench 基準中的問題）。

英偉達科學家 Jim Fan 為其工作點贊：Great Work！揭開了炒作背後的簡單本質。

只需對 GPT-4 命令行工具進行更好的手動設計，就能在 SWEBenche 上獲得 12.3 的成績。沒有什麼神奇之處，沒有什麼模型突破，也沒有什麼理由要極力炒作。

當 GPT-5 到來時，這些 " 提示工程 2.0 " 都将不再重要。

這不免讓人想到前段時間 Devin 橫空出世，如今也很少見人讨論它了。

不過也有人問為什麼不用 Claude 3 來做 Agent，主創團隊表示：嘗試了，但結果不太好。

在 SWE-bench Lite（測試集的 10% 子集）上，它的成績比 GPT-4 少了近 6%。而且它也慢得多。（GPT-4 的響應時間是 93 秒）

除此之外，他還表示團隊在 logo 設計上費了很大心思——

花了幾個小時用 DALL-3 來設計。（Doge）

普林斯頓造

這是來自普林斯頓 NLP 小組打造的軟體工程 Agent。

據了解，John Yang 和 Carlos E. Jimenez 是共同一作。

除此之外還有姚順雨，目前是普林斯頓在讀博士生，2015 年畢業清華姚班。

他們的共同導師是 Karthik Narasimhan，目前是普林斯頓 NLP 聯合主任，跟陳丹琦是同事。

團隊表示，他們将在 4 月 10 号發布論文。

雖然但是，最後還有一個靈魂拷問：

呃但 GPT-4 不是開源的……

好了，你覺得這個開源的 AI 程式員怎麼樣呢？

參考鏈接：

[ 1 ] https://swe-agent.com/

[ 2 ] https://twitter.com/DrJimFan/status/1775173542470111475

— 完 —

【火熱報名中】中國 AIGC 產業峰會

定檔 4 月 17 日

峰會已經邀請到數位代表技術、產品、投資、用戶等領網域嘉賓，共論生成式 AI 產業最新變革趨勢。

最新确認嘉賓包括：商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等，。

峰會将全程線上下同步直播，歡迎預約直播 ⬇️

點這裡關注我，記得标星噢

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~