大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

AI程式員Devin卧底工作群修bug!和CTO聊技術,網友:頂級碼農水平

2024-03-18 简体 HK SG TW

今天小編分享的科學經驗:AI程式員Devin卧底工作群修bug!和CTO聊技術,網友:頂級碼農水平,歡迎閱讀。

首個 AI 程式員Devin,現身明星創業公司内部群。

為解決一個技術問題,Devin 借用了其創造者的賬号,與客戶公司的 CTO 交流,并根據回復調整了代碼方案。

對話之專業,圍觀者看了直呼這個世界太瘋狂。

事情發生在辦公軟體 Slack,截圖中的 akshat 是 AI 基礎設施創業公司Modal Labs的CTO Akshat Bubna。

Modal Labs 也是 Devin 開發商 Cognition 的首批客戶之一。

此時 Devin 正披着他的創造者之一、IOI 金牌得主Steven Hao的馬甲。

對話的開始,AI 程式員 Devin 正在詢問有關 Modal Lab 平台的密鑰的生命周期問題,特别是密鑰更新後傳播到正在運行的應用程式所需的時間。

Devin 表示自己已經查閱了文檔,包括密鑰和環境變量指南、CLI 命令參考、API 參考以及容器生命周期鉤子和參數,但依舊沒有找到關于密鑰傳播時間的明确信息。

Devin 詢問了更新的密鑰通常需要多長時間才能被運行中的應用程式使用,因為這對于他們的運營至關重要,了解這一點将有助于管理他們的部署流程。

人類 CTO 解釋說,當密鑰更新時,他們不會使已經運行的 Modal 容器失效,但是新啟動的容器将會讀取更新後的值。

Devin 對此表示感謝,并決定暫時采用手動方法來管理 Modal 中的密鑰,即在需要時調用 modal deploy 命令來觸發相關應用程式容器的重啟。

看完整個過程後,同樣是 AI 創業者的 Raunak Chowdhuri 評價到:

發現問題、創建工單、調整代碼,最好的人類開發者就是這麼工作的。

Devin 更多實測結果

拿到 Devin 早期測試資格的人和公司并不多,不過還是陸陸續續有人曬出實測結果。

熱衷 AI 的沃頓商學院教授Ethan Molick試過後,認為其新穎的實時互動方式是最值得關注的。

您可以随時與它 " 交談 ",就像與人交談一樣,它會在後台不斷地執行和調試您的想法。

在測試中,Ethan Mollick 要求 Devin 開發一個解釋 " 創業公司融資中的股權稀釋 " 的網站。

不過他透露,AI 還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。

要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人着迷的開始。

另一位曬出測試過程的創業者Mckay Wrigley更激動一些。

在他曬出的 27 分鍾測試中,只發了一個 GitHub 連接,讓 Devin 部署來自開源項目的代碼。

Devin自主把任務拆解成一系列子步驟,并一步步開始執行。

執行過程中,Devin 在安裝 Supabase 數據庫時遇到了障礙,自己打開了對應的 Github 倉庫開始查閱文檔……

從後續終端反饋中可以看出,Devin 查到了運行 Supabase 所需的各種端口和密匙都應該填什麼。

(裝過的都知道,雀食挺麻煩……)

與此同時,Devin 還在根據實際情況不斷修改自己的後續計劃。

一段時間過後,一個本地的聊天機器人程式就跑起來了。

測試一段時間後 Mckay Wrigley 認為,Devin 已經可以算 Agent 的 ChatGPT 時刻。

復現 Devin 計劃 ing

Devin 這邊大夥還在接連測試,另一邊開源 " 復現 " 方案也在進行中……

這不,GitHub 三萬 Star 項目MetaGPT就上新了。

名為數據解釋器(Data Interpreter):

同 Devin 一樣,Data Interpreter 也能實現自主編程,能迭代式觀察數據,預測分析病情進展、機器運行狀态;還能構建機器學習模型、進行數學推理、自動回復電子郵件、仿寫網站……

比如從英偉達股價數據中分析收盤價格趨勢:

分析數據預測葡萄酒質量:

除此以外,阿裡 Qwen 成員 Binyan Hui 等人開啟了OpenDevin項目,剛剛起步已獲得 1.2k Star。

Binyan Hui 發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間内就完成了前端原型。

同時項目團隊也在招新成員:

另外,還一個名為 Maisa AI 的團隊推出了Maisa KPU(Knowledge Processing Unit),被網友認為與 Devin 有一些競争。

目前 Maisa KPU 處于測試階段,它可以解決復雜問題和推理,團隊發布的基準測試結果如下:

根據 demo 展示,KPU 可以成為 " 智能客服 ",在客戶沒有正确寫好訂單号的情況下,幫助客戶解決訂單未送達的問題:

Devin 基準測試技術報告發布

最近,Devin 創始團隊 Cognition 還發布關于 SWE-bench 測試的技術報告。

除了之前已公布的測試結果之外,團隊還透露了一些新消息。

比如,Cognition 的目标之一是讓 Devin 這個專門從事軟體開發的 AI 智能體能夠成功地為大型、復雜的代碼庫貢獻代碼。

選擇在 SWE-bench 上端到端運行智能體,也是考慮了它更接近現實世界的軟體開發。

此外,研發團隊還透露,為了防止 Devin 在測試中作弊,比如查找外部的 pull requests 信息,測試已做相關設定,确保 Devin 無法訪問相關信息,并且在此過程中也已人工手動檢查了 Devin 運行情況。

最後團隊強調 Devin 仍處于起步階段,還有很大改進空間:

更多細節感興趣的家人們可查看報告詳情。

Devin 發布不到一周,網友們的讨論已十分熱烈。

比如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。

以後 Stack Overflow 上都是各種 Devin 在提問,人,就只能被擠出去(Stack Overflow 危!!!):

有網友回應(手動狗頭):

它們可以互相回答問題。

還有網友發現 Devin 背後團隊 Cognition 正在招全職軟體工程師,于是緩緩打出一個問号:

Devin 不是應該填補這些職位空缺來為他們省錢嗎?

最後,若 Devin 公開你會想用它幹點啥?

參考鏈接:

[ 1 ] https://www.cognition-labs.com/post/swe-bench-technical-report

[ 2 ] https://x.com/raunakdoesdev/status/1769066769786757375

[ 3 ] https://twitter.com/emollick/status/1768742585122558063

[ 4 ] https://x.com/mckaywrigley/status/1767985840448516343

[ 5 ] https://x.com/maisaAI_/status/1768657114669429103?s=20

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們