大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

首個AI程式員造假被抓,Devin再次“震撼”矽谷!扒皮視頻文字詳解附上

2024-04-14 简体 HK SG TW

今天小編分享的科學經驗:首個AI程式員造假被抓,Devin再次“震撼”矽谷!扒皮視頻文字詳解附上,歡迎閱讀。

首個 AI 程式員,演示視頻大幅度造假???

不久之前震撼矽谷的 Devin,再度震撼矽谷——但這次是被打假。

事情是這樣的:油管程式員博主 Internet of Bugs(以下簡稱光頭哥)對 Devin 的視頻進行了逐幀分析,逐一舉證說明了 Devin 并不如演示中那般神奇。

甚至有 " 自己現寫 bug 然後當場修復 " 的騷操作。

其它 " 罪證 ",包括但不限于:

号稱能解決任何 Upwork 任務,但演示中解決的問題并不是 prompt 要解決的那一個,做無用功;

看起來在修復 bug,實際上修復的 bug 人類程式員根本就不會犯;

沒有意識到簡單兩步就能解決問題,花裡胡哨一頓操作,其實是自己把任務搞復雜了;

修改代碼的水平一言難盡。

此外,光頭哥花了半個多小時,把 Devin 演示視頻中的 upwork 任務完成了一遍——而 Devin 完成任務可能用時 6 個多小時。

啊這這這,真是好、大、一、口、瓜!

要知道,其背後公司 Cognition AI 手握 10 塊 IOI 金牌的活招牌,還在推出 Devin 當月宣布成功融資 2100 萬美金。

推特和 YC 上已經吵翻天了,讓這件事的讨論度高居不下。

我請問呢?真的很讨厭演示造假,讓 demo 看起來輕松達到意料之外的技術進步。

還有人表示自己很受傷,再也不會相信各種冒出來的創業公司的東西了。

emmmm ……我還是把期待值全部留給 OpenAI、Anthropic、DeepMind、FAIR 這些公司和機構吧。

完整詳情,一起接着往下看。

35 年從業者逐幀驗證

此次出來聲張正義的光頭哥,從事軟體行業已經 35 年。他首先聲明自己的立場:我并不反對高科技,但我确實反對過度炒作。

他自己也經常使用 GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事實上,在 Devin 剛推出時候,他就反對過 " 世界上第一個 AI 軟體工程師 " 這一說法。

此次則主要針對的是一些更為具體的說法。

比如之前 Devin 号稱能夠靠處理 upwork 任務來賺錢的。但在真正的演示中 Devin 并沒有做到這一點。

不信?沒關系,光頭哥帶着逐幀的證據來了。

總結如下:

Devin 所處理的任務并非随機,而是精心挑選;

與客戶實際需求有很大的出入;

實際操作過程,數次自己創造 bug 然後再修復;

很多毫無意義的操作,相當于幾十年前在 C 語言中才用的方法;

???

首先,來到了演示視頻的 2.936 秒處,在螢幕左上角有顯示他們搜索過這個内容。因此,這不是所謂 " 随機 " 選擇的任務。

再來看客戶給到的具體需求。真正需求為 " 我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想讨論完成這項工作預計需要的時間。"

但給到 Devin 的需求卻是:我希望利用這個模型在這個庫中進行推理。請自己弄明白。

最後視頻末尾出現的 Devin 生成報告中,也沒有提及客戶實際需要的内容。

那麼,這份工作的最終交付成果應該包括什麼呢?

但 Devin 實際做了什麼?

Devin 第一次真正的嘗試,是它修改了一個名為 requirements.txt 檔案 , 其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼,但實際上更像是修改配置檔案。

然後根據需求,需要 Devin 能建立自己的推理能力,并僅需使用樣例數據即可。但實際項目要比這個復雜得多。

結果很快,Devin 就遇到了第一個命令行錯誤——打開影像失敗、檔案未找到、無此檔案或目錄等。但在光頭哥實際復現時并沒有出現,結果研究發現,代碼倉庫壓根就不存在這個檔案。

這相當于Devin 自己創建了個 bug,然後再修復 bug。在接下來的操作中,Devin 經歷了很多次這樣的 " 自建自修 "。

不能說十分有用,只能說完全沒有必要。

接下來,再來看看代碼庫中這樣一個 readme 檔案。正如視頻所展示的那樣,readme 檔案清晰地說明了該檔案的功能和用法。在頁面右側 , 甚至還有一個小按鈕,點擊它就可以復制整條命令,然後粘貼到命令行視窗中,按下回車即可運行。

但 Devin 完全沒能理解,而又是自創了個項目。而寫的那段從緩衝區讀取數據的代碼十分糟糕。

于是光頭哥發出了靈魂拷問:

這不就是幾十年前在 C 語言等中才用的方法嗎???

這種做法顯然已經過時,正常人用 Python 誰還會再寫這個代碼。這種代碼很難調試,它邏輯復雜,難以理解,很容易出現細微的錯誤。

此外,代碼庫中還存在一個真正的錯誤,但 Devin 既沒有發現也沒有修復。

然後光頭哥用谷歌搜索,按照 GitHub 上一條相關評論修改了代碼,只花了 1 分 07 秒,問題就解決了。

最終光頭哥總共花了 35 分 55 秒復現了 Devin 的工作,而 Devin 實際花了多長時間呢?

如果細看視頻 Demo,就會發現 Devin 處理工作前後有6 個小時 20 分鍾的間隔。

視頻的前部分顯示的是 3 月 9 日下午 3:25 的時間戳,但後半部分卻顯示的是當天晚上 9:41。

而逐幀細看就有會發現一些奇怪且毫無意義的操作。

比如 head -N 5 results.json | tail -N 5 這個命令,它表示取這個 JSON 檔案的前五行,然後再取這些行的最後五行。

正确的做法應該是 "head-5 results.json"。那個 -N 是多餘的。只要說 -5 就可以,不需要那些多餘的東西。

最後光頭哥銳評,AI 現在生成的内容有很多都十分愚蠢,反倒會讓事情變得更為復雜。

當看到它的任務列表時,會覺得:哇,Devin 做了很多事情。但實際上可能并非如此。

網友:至少掌握了看起來很忙的技巧

對于此次 Devin 造假翻車,不少網友對現階段 AI 產品炒作嗤之以鼻。

我真的很讨厭現在演示造假變得如此正常化

甚至還列出了三大炒作典範:Devin、rabbit、Humane。

也有網友調侃:Devin 至少掌握了看起來很忙的技巧。

嗯?打工人有被内涵到。

不過也有一些支持的網友,比如這位沃頓商學院的教授 Ethan Mollick。

他聲稱自己有早期訪問權,在體驗中發現真的很有趣。

他認為現在将 Agent 視作 " 炒作 " 為時尚早,未來幾個月 Agent 的能力将十分強大。

号稱 " 世界首個完全自主的 AI 軟體工程師 "

有意思的是,演示造假事件爆出來的時間,距離 Cognition AI 推出 Devin 僅過去了一個月。

咱們一起來回顧一下。

一個月前的 3 月 13 日,Cognition AI 在推特上介紹了自家推出的 Devin,并稱其為 " 世界上首個 AI 軟體工程師 "。

只需一句指令,它可端到端地處理整個開發項目。

主創介紹,Devin 在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的復雜軟體工程任務。

具體來說有 6 大功能:

端到端構建和部署程式,可以解決的不只是代碼問題,還包括與之相關的整個工作流;

自主查找并修復 bug;

訓練和微調自己的 AI 模型;

修復開源庫;

為成熟的生產庫做貢獻;

超強學習能力,實時補足知識和能力短板。

Devin 完整技術報告中顯示,在 SWE-bench 基準測試中,無需人類輔助,Devin 可解決13.86%的問題

——這個數據看起來不高,但其實已經超過了此前所有 AI 大模型的成績。

目前數一數二的 GPT-4,在同個測試中的成績只有 1.74%,且必須配備一個人類,提示它要處理哪些檔案。

當時的 Devin 團隊一副沒在怕的樣子。

雖然沒開放公測,但陸陸續續給出了一些内測名額。

在互聯網上搜索一番,發現上手體驗過的人給的買家秀反饋是這樣的:

熱衷 AI 的沃頓商學院教授Ethan Molick試過後,認為其新穎的實時互動方式是最值得關注的。

他要求 Devin 開發一個解釋 " 創業公司融資中的股權稀釋 " 的網站,随後透露,AI 還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。。

但也有人直接表示,體驗過後确實是有被震撼到。

巧的是,截圖中的這個首批内測體驗者 Bubna 哥,是 AI 基礎設施創業公司 Modal Labs 的 CTO。

後來他和 Devin 還聯手搞了個新聞。Devin 用自家老板的賬号,潛入 Modal Labs 的工作群,和 Bubna 哥一番交流過後,根據回復調整了代碼方案,解決了一個技術問題。

△圖中的發言人背後其實是 Devin

當然,除了看上去哄哄的技術,Devin 還鍍了一層光環,那就是背後公司 Cognition,雖然是個小初創,但在招人信息中明晃晃寫着:

我們團隊手裡握着 10 塊 IOI 金牌呢~

技術演示和團隊背景都吸睛 Max,直接給 Devin 的傳播力度添磚加瓦。

也正是因為對 Devin 的關注,代碼生成領網域在過去一段時間裡進展是突飛猛進。

暫時無法在飛書文檔外展示此内容

比如,GitHub 三萬 Star 項目 MetaGPT 就上新了 " 開源版 Devin",名為數據解釋器(Data Interpreter):

阿裡 Qwen 成員 Binyan Hui 等人開啟了OpenDevin項目,一個月過去已經在 GitHub 攬星 21.5k;

普林斯頓那邊動作更快,用 GPT-4 打造了開源SWE-agent,開箱即用,可修復 GitHub 存儲庫中真實 bug。

在 25% 的 SWE-bench 測試集上,它實現了與 Devin 演示視頻中相似的準确度—— 解決了 12.29% 的問題。

還有各個大廠也開始入駐自己的 AI 程式員……

One More Thing

結果現在發生這件事兒,怎麼說呢……

往好了想,真是救大命了,所有的程式員們都要松口氣了,還好還好,AI 暫時還無法端到端端走我的飯碗。

往壞了想,真是要了命了,這麼一個備受關注的明星項目居然是個只能活在視頻裡的 demo。

難道世界真的是個巨大的草台班子???

參考鏈接:

[ 1 ] https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ

[ 2 ] https://twitter.com/0interestrates/status/1779268441226256500

[ 3 ] https://news.ycombinator.com/item?id=40008109

[ 4 ] https://www.youtube.com/watch?v=tNmgmwEtoWE

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們