今天小編分享的科技經驗:失業?程式員暫時安全,歡迎閲讀。
出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|DALL-E 3
在 ChatGPT 出現之前,"AI 替代人類 " 的想法一直被認為是 AI 公司們的 " 科幻 " 噱頭。然而,看到了大語言模型湧現出的超強能力後,人們真的開始有點擔心自己的 " 飯碗 " 了,尤其是程式員。
2024 年 3 月,初創公司 Cognition 展示了該公司的一款 AI 編程工具 Devin。Cognition 将 Devin 描繪為 " 世上首位完全自主的 AI 軟體工程師 "。
Cognition 的演示視頻中,Devin 在只接受自然語言指令的情況下,就能從零開始構建應用程式。Devin 還在眾包平台 Upwork 上完成了一個實際的任務訂單,不僅完成了計算機視覺模型的代碼編寫和調試工作,還在任務結束時編制報告。
Cognition 甚至在社交媒體平台發文稱:Devin 已通過一家領先 AI 公司的工程師面試。
至此," 開發 AI 的人,最先被 AI 取代 " 的言論在網絡快速升温。
然而,就在幾天前,一位自稱有 35 年開發經驗的美國工程師 Carl 在自己的 YouTube 賬号 Internet of Bugs 上發布視頻,稱 Devin 的演示可能存在造假。
自稱有 35 年開發經驗的美國工程師 Carl 在 YouTube 發布視頻,稱 Devin 的演示可能存在造假
Devin 可能只是在 " 演 " 程式員?
目前,Devin 還沒有開放使用,只能通過郵箱提交申請,所以外界對 Devin 的認知,基本都來自官方給出的演示視頻,以及少數第三方開發和產品人員的評價。
第三方評價中,熱度較高的就包括彭 * 博社在 3 月 12 日發布的一篇對 Cognition AI 公司,及其中幾位華人創始人的報道。這篇報道中提到,記者使用 Devin 在 5-10 分鍾内從頭開始構建了一個網站。報道還引用了一名試用過 Devin 的計算機科學家 Silas Alberti 對 Devin 的較高評價。
雖然質疑 Devin 造價的博主 Carl 并未對 Devin 進行實際測試。但他通過對 Cognition AI 發布的 Devin 實操視頻進行分析,提出了演示中的多處疑似造假内容,包括:
1. 演示視頻中,Devin 的很多操作其實并未實際上理解或正确完成任務。Devin 生成的報告沒有包含客户實際所需的信息。
2. 在修復錯誤代碼的時候,Devin 還出現了" 沒有可能制造困難也要上 "的問題。Carl 指出,Devin 修復的一些代碼,是 " 人類永遠不會犯 " 的錯誤。因此這些錯誤很可能并非來自客户的代碼庫,而是 Devin 自己造成的。
3. 在技術上,Devin 的表現也不是很好。有時會采用過時的方法處理檔案,在 Python 環境中執行不适當的操作,甚至編寫自己的低級檔案讀取循環而不是正确使用标準庫。
4. 視頻看起來 Devin 很快就完成了任務,視頻創建者能夠在大約 30 分鍾内完成所請求的任務,但聊天中的時間戳顯示,該任務持續了多個小時,甚至持續到第二天。
雖然 Carl 認為 Cognition 在 Devin 的演示和實際操作中存在誇大的情況,但他也表示 Devin 在某些技術操作上表現出了令人印象深刻的能力。例如:Devin 能夠自動更新和配置檔案,以匹配所需的庫版本。他認為随着技術的進步,AI 工具像 Devin 這樣的 AI 工具一點能做到完全理解和執行更復雜編程任務。
人類仍是 AI 編程的關鍵?
目前 Devin 還未上線,其能力是否真如 Demo 一樣強,其實真假難辨。
不過可以肯定的是,雖然 AI 的确能幫助人類編程,但主流觀點仍不認為 AI 可以替代人類。
"AI 遠沒有外界傳聞的那麼聰明,要理解業務邏輯都需要大量反復地溝通,别説幹活了。" 一位關注 AI 編程的開發者告訴虎嗅,目前很多程式員都在使用 Copilot 類的工具,但擔心被快速替代的人并不多。
事實上,目前大型語言模型在工作中仍存在兩個比較難解決的問題,一方面輸入的信息不一定可以正确理解底層邏輯,可能需要與 AI 進行反復溝通。另一方面,AI 輸出的内容都很難避免錯誤和幻覺,在需要更嚴謹認真的工作中,沒有人類的檢查和監督,則會面臨很大的風險。
"人類程式員寫程式的時候,結果基本是一定的,要麼好,要麼差。但大模型來了以後,就不好説了。" 支付寶 CTO 陳亮表示,AI 寫程式的結果存在很大不确定性," 他可以寫得比你好,也可能比你差。" 這就需要人類程式員想辦法去控制它或者去影響它。
陳亮認為,雖然不能像以前寫程式一樣确定輸出結果,但可以通過翻譯、語料、數據等去影響他,讓 AI 有更大概率提供好的結果。
在 Cognition 剛剛發布 Devin 演示視頻時,前特斯拉 AI 技術總監、OpenAI 聯創 Andrej Karpathy,曾在 X 上發文評價表示:
" 在我看來,自動化軟體工程看起來與自動駕駛類似。自動駕駛的發展是:
1. 首先人類手動執行所有駕駛動作
2. 然後 AI 幫助保持車道
3. 看到前車能減速
4. 它也會變道
5. 它也會在标志 / 紅綠燈處停下并輪流通過
6. 最終你會得到一個功能完整的解決方案,并不斷提高質量,直到實現完全自動駕駛。
在軟體工程中,進展的情況類似。都是人工智能做得更多,人類做得更少,但仍然需要監督:
1. 首先人類手動編寫代碼
2. 然後 GitHub Copilot 自動完成幾行
3. ChatGPT 寫入代碼塊
4. 轉向越來越大的代碼差異(例如 Cursor copilot++ 風格)
5....
Andrej Karpathy 認為,Devin 是一個令人印象深刻的演示,可能會推動編碼工具的進步,包括終端、浏覽器、代碼編輯器等,以及人類監督。
程式員的 AI 危機是什麼?
雖然 Devin 可能代替不了人類,但很多人類崗位确實已經在被 AI 威脅了。
"AI 不一定取代人,但會用 AI 的人一定取代不會用 AI 的人。"
2023 年以來,AI 工具對工作的重要性上升到了新高度。
陳亮介紹説,目前 60% 的螞蟻程式員在寫代碼時都用上了 Codefuse 全站使用 Codefuse 的螞蟻程式員寫的代碼中,約 12% 的代碼是由 Codefuse 生成的。
宜創科技的創始人宜博則講述了一個更生動的例子。
"2023 年初,我要求公司所有程式員必須會用 ChatGPT 寫代碼,一個月時間學習并考核,考核後平均效率提升了 3-5 倍。我們最強的一個架構師的編程效率基本上是原來的 5 到 10 倍。"
宜博説,使用 Copilot 類工具以前,架構師要先把客户需求拿過來梳理清楚,然後再安排 5 到 10 個人幫他幹活,他要告訴這些人:前端這個框架你來做。後端這個接口你來寫。
" 現在不需要這樣了,架構師現在想清楚之後,文檔裏寫清楚,直接可以用 ChatGPT 把它弄出來。" 一個 10 個人的團隊把一件事情講清楚,再做好,檢查清楚,可能要一個禮拜。現在這個時間可能不到一天,甚至就幾個小時就完成了。
Devin 無辜,罪在炒作
Devin 将他的創作者 Cognition 推到了風口浪尖。這家成立于 2023 年底的公司,目前已經收到了來自知名機構 Founders Fund 等約 2100 萬美元的投資。該公司種子輪估值約 3.5 億美元,如今估值已達 20 億美元。
如今,随着 Devin 的 " 世界首個 AI 軟體工程師 " 稱号被 Carl 質疑是不實宣傳,Cognition 恐怕要面臨一場公關危機了。
對于 " 虛假宣傳 ",Carl 批評 AI 產品的宣傳往往缺乏透明度,不如實展示產品的實際能力和限制,從而誤導了公眾和專業人士。
在過去一年中,爆火 AI 的 " 虛假宣傳 " 案例确實數見不鮮。
其中最有名的就是 "Google 發布 Gemini 的演示視頻 "。 Google 在其最新 AI 大模型 Gemini 發布的演示視頻中,展示了經驗的多模态能力。但後來該公司承認視頻實際上是經過剪輯的,使用了靜态影像和文字提示,而非實時動态處理。視頻中減少了延遲,簡化了 Gemini 的輸出。
就在不久前,亞馬遜推出的一項 " 無需結賬 " 技術(Just Walk Out),亦被指出是人工 " 偽裝 " 的人工智能。有報道指出這項技術并非完全依賴先進的 AI 和計算機視覺,而是由超過 1000 名印度工作人員在手動審核顧客的購物行為,确保結賬的準确性。不過,目前亞馬遜已否認了這種説法,并聲稱這些工作人員主要是在訓練模型,幫助改進技術。
更早的案例中,也曾有國内某知名 AI 公司,被指在某大會現場把人類同傳翻譯的内容偽裝成 AI 翻譯内容,打上公司產品 Logo 展示。
在指證 Devin 造假的視頻中,Carl 呼籲制造商、媒體和使用者都應對 AI 技術持有懷疑态度,并進行必要的核實。Carl 認為,這種誇大其詞的做法不僅誤導了公眾,還為 AI 技術設定了不切實際的期望。
一些網友也對 Carl 的觀點表示支持。
rayhere7925 認為:許多這樣的科技初創企業只有一個目标:賺錢。他們如何獲得資金?通過投資者和 / 或炒作。我敢肯定,這種誇張的演示以及随之而來的所有文章和影響者視頻,一定説服了某些地方的投資者向這家公司注資——這正是這家公司的目标。如果這意味着可以賺更多的錢,公司會撒謊(如果他們能僥幸成功的話)。這家公司為了炒作和吸引投資者而撒謊也就不足為奇了。
Apexphp 則認為:現代新聞業的問題在于,過去撰寫技術文章的人通常對該領網域有一定的了解,他們知道專業術語的含義,能夠閲讀自己寫作領網域的科學論文,并理解其中的大部分内容。但現在,我們只有一群按篇酬付費的人,他們在互聯網上找到有趣的标題,然後簡單寫幾句話,因為他們所在的公司支付的費用與他們為一篇撰寫精良、經過深入研究的文章支付的費用相同,所以他們也就沒必要多費心了。