GPT-4加Agent轻松追平Devin！普林斯顿造，开源首日斩获1.6k星 - 大酷樂

今天小编分享的科学经验：GPT-4加Agent轻松追平Devin！普林斯顿造，开源首日斩获1.6k星，欢迎阅读。

用 GPT-4 打造的 AI 程式员，结果轻松追平 Devin！

普林斯顿打造的开源 SWE-agent，直接开箱即用——修复 GitHub 存储库中真实 bug。

在 25% 的 SWE-bench 测试集上，它实现了与 Devin 相似的准确度—— 解决了 12.29% 的问题。

GitHub 上线首日即斩获 1.6K 星。不少网友感叹，只需对 GPT-4 命令行工具进行简单设计，就可以让 GPT-4 部分能力大幅提升。

这恰好也印证了前几天吴恩达在演讲中的观点：

我认为 AI Agent 将在今年推动人工智能巨大进步，甚至可能超过下一代基础模型。

因为在吴恩达的研究中，GPT-3.5 的 Agent 比 GPT-4 的表现还要好。

如今开源版 Devin 现世，已经有人开始 RIP Devin 了。

这就来看看这个开源版 Devin 长什么样。

开源版 Devin 来了

简单来说，SWE-agent 是将语言模型（比如 GPT-4）转变为軟體工程 agent，来 Debug GitHub 存储库中的一些问题。

他们设计了以 LM 为中心的命令和反馈格式来实现这些结果，使语言模型更容易浏览存储库、查看、编辑和执行代码檔案。

用他们的说法，这叫做代理计算机接口（ACI），并构建 SWE-agent 存储库，以便轻松迭代 ACI 设计。

在 SWE-agent 上，团队主要设计了这些功能。

创建檔案查看和编辑器，可以打开、滚动和编辑檔案。

结果发现每轮只显示 100 行时效果最佳。

通过自动语法检查编辑特定行。

如果代码语法不正确，就不让编辑命令通过。当命令输出为空时会返回一条信息：" 您的命令运行成功，但未产生任何输出 "。

编写和执行测试。

目前使用 SWE-agent 主要有两个步骤。

首先，推理。SWE-agent 接收一个输入的 GitHub 问题，并返回一个试图修复该问题的拉取请求。

第二步是评估拉取请求，以验证它是否确实修复了问题。*（目前仅适用于 SWE-bench 基准中的问题）。

英伟达科学家 Jim Fan 为其工作点赞：Great Work！揭开了炒作背后的简单本质。

只需对 GPT-4 命令行工具进行更好的手动设计，就能在 SWEBenche 上获得 12.3 的成绩。没有什么神奇之处，没有什么模型突破，也没有什么理由要极力炒作。

当 GPT-5 到来时，这些 " 提示工程 2.0 " 都将不再重要。

这不免让人想到前段时间 Devin 横空出世，如今也很少见人讨论它了。

不过也有人问为什么不用 Claude 3 来做 Agent，主创团队表示：尝试了，但结果不太好。

在 SWE-bench Lite（测试集的 10% 子集）上，它的成绩比 GPT-4 少了近 6%。而且它也慢得多。（GPT-4 的响应时间是 93 秒）

除此之外，他还表示团队在 logo 设计上费了很大心思——

花了几个小时用 DALL-3 来设计。（Doge）

普林斯顿造

这是来自普林斯顿 NLP 小组打造的軟體工程 Agent。

据了解，John Yang 和 Carlos E. Jimenez 是共同一作。

除此之外还有姚顺雨，目前是普林斯顿在读博士生，2015 年毕业清华姚班。

他们的共同导师是 Karthik Narasimhan，目前是普林斯顿 NLP 联合主任，跟陈丹琦是同事。

团队表示，他们将在 4 月 10 号发布论文。

虽然但是，最后还有一个灵魂拷问：

呃但 GPT-4 不是开源的……

好了，你觉得这个开源的 AI 程式员怎么样呢？

参考链接：

[ 1 ] https://swe-agent.com/

[ 2 ] https://twitter.com/DrJimFan/status/1775173542470111475

— 完 —

【火热报名中】中国 AIGC 产业峰会

定档 4 月 17 日

峰会已经邀请到数位代表技术、产品、投资、用户等领網域嘉宾，共论生成式 AI 产业最新变革趋势。

最新确认嘉宾包括：商汤科技杨帆、轻松集团高玉石、印象笔记唐毅、蚂蚁集团李建国等，。

峰会将全程线上下同步直播，欢迎预约直播 ⬇️

点这里关注我，记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>

熱門排行

恢复时间不足？恩比德去年2月术后休养不到两寸飛蘭 | 2025-02-24
人均GDP十强市出炉：长三角占一半，这三个城市嬴覓晴 | 2025-02-24
红魔10 Pro手机“魔姬粉”款启动预约：16+512 寸飛蘭 | 2025-02-24
大衣哥回应网暴女子：她拉7个群攻击我，现在道甄正浩 | 2025-02-24
作为二胎父亲带队累还是带孩子累？谢晖：我觉得繁綺文 | 2025-02-24
卖“丸子”年入140亿，海底捞、大润发背后的幸聽楓 | 2025-02-24
大圆柱电池这张饼，宝马为何抢先揭锅？佼昌翰 | 2025-02-24
退役中将被召回担任美国最高上将军职，因为他甄正浩 | 2025-02-24
骚扰你的影院按摩椅，9个月赚了1个亿郜萌運 | 2025-02-24
刘涛酒局照流出，微醺后成话痨，搂着宋佳热聊，和嬴覓晴 | 2025-02-24
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
五一档没一个能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02