首個AI軟體工程師震撼矽谷！手握10塊IOI金牌，他們鐵了心砸掉程式員飯碗 - 大酷樂

今天小編分享的科學經驗：首個AI軟體工程師震撼矽谷！手握10塊IOI金牌，他們鐵了心砸掉程式員飯碗，歡迎閱讀。

一覺醒來，程式員怕是真要失業了。

首個 AI 軟體工程師一亮相，直接引爆整個科技圈。只需一句指令，它可端到端地處理整個開發項目。

在 SWE-bench 基準測試中，它無需人類幫助，可解決13.86%的問題。

相比之下，GPT-4 只能處理 1.74% 的問題，且都需要人類提示告知處理哪些檔案。

可以說，它遠遠超過了此前所有 AI 大模型。

從零構建網站、自主查找并修復 Bug、甚至是訓練和微調自己的 AI 模型通通都不在話下 ~ 也可為一些成熟的代碼庫做貢獻。

就是一些不熟悉的技術，給它看一篇博客文章。它也能立馬搞定。

比如用 ControlNet，生成帶有隐藏文字的影像，Devin 就是一點就通 ~

據介紹，它已經成功通過一家 AI 公司面試，并且在 Upwork 上完成了實際工作。

而這背後的公司Cognition，雖然是初創公司，但小而精悍。

在招人信息中明晃晃寫着：我們有10 個 IOI 金牌得主。

讓同行們直呼：哦莫，瘋了吧 ~

目前 Devin 尚未公測，不過已經有少部分人拿到了資格，開始實測了一波……

首個 AI 軟體工程師亮相

Devin 被介紹為世界首個完全自主的 AI 軟體工程師。

它在長程推理和規劃上面下了很大功夫，可以規劃和執行需要數千個決策才能完成的復雜軟體工程任務。

在這之中，進行到任何一步它都可以回調所有相關的上下文信息，保證整體邏輯性，并方便随時校正錯誤。

既然是一個端到端 AI，軟體開發人員常用的工具，比如 shell、代碼編輯器和浏覽器等等，Devin 也都配備（沙盒計算環境中），主打一個全方位服務。

最終的 Devin，讓人類只需要發号施令，其他什麼也不用做。

具體來看，其主要能力有以下六個：

1、端到端構建和部署程式

Devin 可以幫我們解決的不只有是代碼，還包括與之相關的整個工作流。

比如，當我們需要設計一個網頁遊戲時，Devin 不僅能生成網頁，還能直接完成衣務端的部署，然後直接發布上線，省去了中間的人工操作。

只需要告訴 Devin，我們想做一個個人網站，裡面運行一個 Devin 定制版的生命遊戲。

然後 Devin 表示自己會先搭建網站的基本架構，并詢問了有沒有更具體的需求。

在明确要求之後，Devin 給出了這樣一份任務清單：

創建 React 應用，安裝 UI 模塊等依賴

用 React 和 UI 模組搭建前端環境

部署伺服器并确保其在私有 IP 下運行

通過 CDN 向首頁添加 p5.js 庫

在 React 中部署并驗證遊戲的功能和資源是否正确配置

接着，Devin 就會按照自己設計的這個清單開始編寫代碼，然後部署服務……

△Devin 部署後端伺服器的過程

最終完成全部工作之後，一個即點即玩的遊戲鏈接就呈現在了我們面前。

2、自主查找并修復 bug

不僅能一氣呵成完成開發部署，Devin 的 debug 能力也是一流。

開發者給 Devin 一個 GitHub 鏈接，讓它先熟悉項目情況，然後一會兒要準備數據進行測試。

接着，Devin 就會按部就班地編寫測試用的程式并準備好有關數據，然後運行。

結果，在開發者已經發布的完整項目之中，Devin 還真的找到了連開發者自己都沒有發現的漏洞。

發現漏洞之後，Devin 會回溯報錯出現的位置及對應的數據，然後分析原因并給出解決方案。

最終經過調試，程式的 bug 被成功修復，完美通過了測試。

3、訓練和微調自己的 AI 模型

除了這些一般的程式或項目，作為一個全能型 AI 助手，Devin 還有能力幫助人類訓練和微調其他 AI。

對于一些常見的模型（比如示例中的 Llama），用戶只需要在 promot 中提及模型的名稱，Devin 就直接知道要訓練哪個模型。

而在這個示例中，微調的具體方法（QLoRA）是以 GitHub 鏈接的形式輸入給 Devin 的。

這些準備都完成之後，微調工作就會有條不紊地進行，而且其中的狀态可以實時監控。

4、修復開源庫

Devin 的能力不僅在于開發者自己本身的項目，開源社區裡的，它也能 hold 住。

比如我們只需要把 GitHub 項目的 issue 鏈接丢給 Devin，它就能立即完成所需的所有配置，并自動收集上下文信息，然後開始解決問題。

當然，開源項目的功能請求（feature request）也沒問題，和修問題的流程一樣，自己搞好配置，收集上下文，然後就開始編碼。

5、成熟的生產庫也能做貢獻

還沒完，業已成熟的生產庫，Devin 也能給咱秀一把。

官方介紹，sympy Python 代數系統中有一個對數計算的錯誤，就被 Devin 順利解決：

配置環境、重現 bug，自行編碼并修復、測試，再次一氣呵成。

△就是這個庫 6、不熟的技術，現學現賣

最後，遇到自己不會的技能，Devin 可以直接現學，并迅速付諸應用。

把你新刷到的技術文章鏈接直接丢給 Devin：

Hi Devin！我在這個博客文章中（附網址）發現，可以生成帶有隐藏文本的影像。文中提到了一個腳本，你能配置好它，然後為我真的生成一些圖片嗎？

Ps. 就是利用 ControlNet 來做這件事。

Devin 接到請求後，首先詢問了更為詳細的需求，然後開始閱讀博客文章，并像平常一樣規劃出了行動方案。

有了詳細的行動方案後，它立刻就在數分鍾内進行代碼編寫和調試。

同樣的，在這裡遇到 bug 也不用驚慌，Devin 同樣有能力直接進行修復。

完成工具的搭建後，Devin 也沒有勞煩人類自行配置使用，而是一氣呵成，最終生成了咱們要的帶隐藏文字的影像：

可以說表現相當令人驚豔。

而在具體測試中，Devin 取得的成績同樣亮眼。

在評估 Devin 的表現時，團隊沒有使用常見的 HumanEval，而是用了更具挑戰性的 SWE-bench。

這個數據集是由 GitHub 中的實際問題組成的，Devin 不借助任何輔助，就取得了 13.86% 的最高解決率。

而同樣在無輔助的條件下，GPT-4 的問題解決率為零，此前的最佳水平是 1.96%，加入輔助也才 4.8%。

公司人均一塊 IOI 金牌

如此炸天的新成果，背後卻是一家名不見經傳的初創公司。

但這種 " 名不見經傳 " 背後，實際是一個 10 人員工的編程天才團隊，IOI 金牌就有 10 塊…人均一塊。

Devin 背後公司名為Cognition AI，總部設在紐約和舊金山，定位是一家專注于推理的應用 AI 實驗室。

此前這家公司一直秘密工作，于兩個月前正式注冊成立。

目前該團隊規模僅有 10 人，但共攬獲了 10 枚 IOI 金牌，創始成員均曾在 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro 等從事 AI 前沿工作。

據悉，Cognition AI 由 Scott Wu、Steven Hao、WaldenYan 創立。

聯合創始人兼 CEO Scott Wu，根據我們目前搜到的資料，Scott Wu 曾就讀于哈佛大學，曾是 Lunchclub 的聯合創始人兼 CTO。

曾連續三年攬獲 IOI 金牌：

聯合創始人兼 CTO Steven Hao，畢業于 MIT 計算機專業，之前曾在 Scale AI、Jane Street、DE Shaw、Quora 工作。

也曾是 IOI 金牌得主：

聯合創始人兼 CPO Walden，曾于哈佛大學攻讀計算機科學和經濟學相關專業，還曾從事 MIT PRIMES 密碼學和機器學習方向的計算機科學研究，還是沃頓商學院高中投資大賽北美地區決賽入圍者。

2020 年第 32 屆 IOI 金牌得主：

據 X 推文的轉發順藤摸瓜，還有一位創始成員被扒了出來。

Neal Wu，同樣有哈佛大學教育經歷，曾在 tryramp、GoogleBrain 工作過。

整個團隊長期目标，意在通過解決推理問題，在廣泛的學科領網域解鎖新的可能性，而 " 代碼僅僅是開始 "。

不過對于 Devin，目前他們尚未透露是如何實現這一壯舉的，包括到底是使用自己的專有模型還是第三方模型。

此外，Cognition AI 目前已獲得矽谷投資大佬彼得 · 蒂爾的 Founders Fund 基金領投的2100 萬美元 A 輪融資。

眾所周知，彼得蒂爾以挖掘這種極具突破性的創新項目著稱，而且哈佛背景的創業者更是和他淵源緊密。

上一個他早期投資中類似背景，最知名的是扎克伯格和 Facebook。

" 自動化軟體工程與自動駕駛類似 "

Devin 一亮相，讓不少工程師大驚失色：軟體工程師…要失業了？？？

不過也有人依然樂觀：終于有 AI 讓我們從繁重的編程任務中解脫出來。

前特斯拉 AI 總監卡帕西倒是給了一顆定心丸。

自動化軟體工程，目前看起來與自動化駕駛類似。

具體體現在發展進程上：首先人類手動編寫代碼，然後 GitHub Copilot 自動完成幾行，再之後 ChatGPT 編寫代碼塊，現在就是 Devin 的出現。

接下來，他認為自動化軟體工程會演變成為協調開發人員需要串聯的許多工具一起編寫代碼：終端、浏覽器、代碼編輯器等。以及人類負責監督，逐漸轉向更高級别工作。

結合卡帕西的經歷和對自動駕駛的理解，他表達的更多是一種漸進式推進，即會有一段時間的人機共駕，然後在數據和迭代反饋後，才能實現完全無人駕駛。

自動化軟體也類似，先低代碼，然後零代碼，最後完全不需要人寫代碼。

Perplexity AI CEO 給出了個高度的肯定：這應該是任何 Agent 的第一個演示。

它似乎跨越了人類水平的門檻并且可靠地工作。它還告訴我們通過結合 LLM 和樹搜索算法可以實現什麼

德撲 AI 之父、前 FAIR（Meta）研究科學家、現已加入 OpenAI 的 Noam Brown 轉發開麥：

2024 年是 AI 激動人心的一年。

所以，程式員們做好被解放的準備了嗎？（Doge）

參考鏈接：

[ 1 ] https://twitter.com/cognition_labs/status/1767548763134964000/quotes

[ 2 ] https://waldenyan.com/

[ 3 ] https://twitter.com/itsandrewgao/status/1767628564432670904

[ 4 ] https://twitter.com/Lauramaywendel/status/1767588416730894756

[ 5 ] https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant