今天小编分享的科学经验:GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星,欢迎阅读。
用 GPT-4 打造的 AI 程式员,结果轻松追平 Devin!
普林斯顿打造的开源 SWE-agent,直接开箱即用——修复 GitHub 存储库中真实 bug。
在 25% 的 SWE-bench 测试集上,它实现了与 Devin 相似的准确度—— 解决了 12.29% 的问题。
GitHub 上线首日即斩获 1.6K 星。不少网友感叹,只需对 GPT-4 命令行工具进行简单设计,就可以让 GPT-4 部分能力大幅提升。
这恰好也印证了前几天吴恩达在演讲中的观点:
我认为 AI Agent 将在今年推动人工智能巨大进步,甚至可能超过下一代基础模型。
因为在吴恩达的研究中,GPT-3.5 的 Agent 比 GPT-4 的表现还要好。
如今开源版 Devin 现世,已经有人开始 RIP Devin 了。
这就来看看这个开源版 Devin 长什么样。
开源版 Devin 来了
简单来说,SWE-agent 是将语言模型(比如 GPT-4)转变为軟體工程 agent,来 Debug GitHub 存储库中的一些问题。
他们设计了以 LM 为中心的命令和反馈格式来实现这些结果,使语言模型更容易浏览存储库、查看、编辑和执行代码檔案。
用他们的说法,这叫做代理计算机接口(ACI),并构建 SWE-agent 存储库,以便轻松迭代 ACI 设计。
在 SWE-agent 上,团队主要设计了这些功能。
创建檔案查看和编辑器,可以打开、滚动和编辑檔案。
结果发现每轮只显示 100 行时效果最佳。
通过自动语法检查编辑特定行。
如果代码语法不正确,就不让编辑命令通过。当命令输出为空时会返回一条信息:" 您的命令运行成功,但未产生任何输出 "。
编写和执行测试。
目前使用 SWE-agent 主要有两个步骤。
首先,推理。SWE-agent 接收一个输入的 GitHub 问题,并返回一个试图修复该问题的拉取请求。
第二步是评估拉取请求,以验证它是否确实修复了问题。*(目前仅适用于 SWE-bench 基准中的问题)。
英伟达科学家 Jim Fan 为其工作点赞:Great Work!揭开了炒作背后的简单本质。
只需对 GPT-4 命令行工具进行更好的手动设计,就能在 SWEBenche 上获得 12.3 的成绩。没有什么神奇之处,没有什么模型突破,也没有什么理由要极力炒作。
当 GPT-5 到来时,这些 " 提示工程 2.0 " 都将不再重要。
这不免让人想到前段时间 Devin 横空出世,如今也很少见人讨论它了。
不过也有人问为什么不用 Claude 3 来做 Agent,主创团队表示:尝试了,但结果不太好。
在 SWE-bench Lite(测试集的 10% 子集)上,它的成绩比 GPT-4 少了近 6%。而且它也慢得多。(GPT-4 的响应时间是 93 秒)
除此之外,他还表示团队在 logo 设计上费了很大心思——
花了几个小时用 DALL-3 来设计。(Doge)
普林斯顿造
这是来自普林斯顿 NLP 小组打造的軟體工程 Agent。
据了解,John Yang 和 Carlos E. Jimenez 是共同一作。
除此之外还有姚顺雨,目前是普林斯顿在读博士生,2015 年毕业清华姚班。
他们的共同导师是 Karthik Narasimhan,目前是普林斯顿 NLP 联合主任,跟陈丹琦是同事。
团队表示,他们将在 4 月 10 号发布论文。
虽然但是,最后还有一个灵魂拷问:
呃但 GPT-4 不是开源的……
好了,你觉得这个开源的 AI 程式员怎么样呢?
参考链接:
[ 1 ] https://swe-agent.com/
[ 2 ] https://twitter.com/DrJimFan/status/1775173542470111475
— 完 —
【 火热报名中】中国 AIGC 产业峰会
定档 4 月 17 日
峰会已经邀请到数位代表技术、产品、投资、用户等领網域嘉宾,共论生成式 AI 产业最新变革趋势。
最新确认嘉宾包括:商汤科技杨帆、轻松集团高玉石、印象笔记唐毅、蚂蚁集团李建国等,。
峰会将全程线上下同步直播,欢迎预约直播 ⬇️
点这里关注我,记得标星噢
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>