大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

對話螞蟻李建國:當前AI寫代碼相當于L2.5,實現L3後替代50%人類編程

2024-04-24 简体 HK SG TW

今天小編分享的科學經驗:對話螞蟻李建國:當前AI寫代碼相當于L2.5,實現L3後替代50%人類編程,歡迎閱讀。

超 70% 代碼問題,單純靠基座大模型是解決不了的;

未來 3-5 年,人類 50% 編程工作可以被替代,有些環節甚至完全自動化。

螞蟻集團代碼大模型 CodeFuse 負責人李建國說道。

當下,AI 代碼生成領網域正在野蠻式生長,巨頭湧入,AI 員工頻頻上線企業;首個 AI 程式員 Devin 被曝造假…… 面對風起雲湧的代碼生成變革,李建國給出了這樣一個明确論斷。

李建國是誰?

清華大學博士,機器學習、深度學習深耕十餘年,論文被引萬餘次。在他的帶領下,螞蟻内部正全面推行 AI 編程。每周已有超五成程式員使用 CodeFuse,目前CodeFuse 生成代碼整體采納率為 30%,已經屬于整個 AI 編程工具中能力第一梯隊,最強 Copilot 代碼整體采納率差不多在 35%。

因此不管是學術的權威性,還是產業落地的代表性,李建國博士極具話語權。于是在代碼生成模型和產品爆發式發展的當下,量子位同李建國博士展開了進一步交流。

核心觀點如下:

編寫代碼在整個企業研發過程中所占的比重可能連 1/5,甚至 1/10 都不到;

要實現項目級的需求實現,從原子級需求端到端漸進發展的模式是切實可行的;

AI 程式員成為企業運營中的新常态已經是勢不可擋的趨勢;

目前自然語言編程處于 L2.5 階段,按照萬物摩爾定律的發展趨勢,未來 3-4 年達到 L3,甚至接近 L4 的水平是有可能的。

相較于前、後端的軟體工程師,AI 全棧工程師需求更大。

當前代碼生成變革所面對的挑戰包括:端到端代碼生成能力、Agent 推理能力、復雜需求拆解、跨模态橫向互動、安全可信可靠。

編寫代碼只占整個研發生命周期 1/5 不到

首先,程式員這個行業歷史并不算長,從 20 世紀 50 年代至今,大約有七八十年的歷史。随着技術的進步,編程工具不斷更新迭代(打孔 - VI 編輯器 - 集成開發環境 - 輔助編程工具),程式員的工作效率得到了顯著提升。

來到大模型時代,相關模型和產品演化迭代十分迅速,可以說十分的 " 卷 "。

對個人開發者而言,AI 編程工具只需完成從需求到代碼實現的閉環過程就夠了,就像 Copilot 這樣的工具。他們更傾向于關注如何高效地實現需求。

但從企業維度則更關注整個研發流程的效率提升,除了關注代碼生成的安全可靠可信,測試構建、發布運維以及數據洞察等方面也是至關重要的。

我們期望能夠有一個研發智能體,甚至是一個智能總線(bus),它能夠與各個 Agent 進行互動,并将任務分發下去——從架構設計到前端實現,再到後端開發,以及安全測試和功能測試,最後是效能方面的持續集成 / 持續部署(CICD)和運維自動化。

△測試 - 自然語言生成終端用例

整個系統上線後,還能夠自動進行運維布控,并分析產品的用戶訪問量(UV)、頁面浏覽量(PV)等數據。

△運維 - 監控解讀

編寫代碼在整個過程中所占的比重可能連五分之一或十分之一都不到。但如果這樣的 Agent 能将所有環節高效連接起來,從而真正提升整個流程的效率。

再加上當前程式員實際所面臨的痛點在于,市面上一些產品大多是原子級能力的實現——通過單體大模型只能解決 30% 的代碼補全,無法解決更多的代碼問題,比如跨庫的函數調用。

基于這樣的行業思考,去年 9 月份開始,我們開源了CodeFuse,并明确提出要構建全生命周期的代碼大模型。

下一步,我們計劃進行項目級的需求實現,這相當于去實現一個全新的系統。這對基礎模型提出更高的要求——

自然語言理解的能力至少達到 GPT-4 或 GPT-4.5 的水平。但從目前的情況來看,我們更傾向于采取一種漸進的模式。

我們首個 MileStone 是解決倉庫内及跨倉庫的需求實現問題,包括 API 調用、服務調用,以及涉及到的外部中間件版本更新問題。

如果我們能夠妥善處理這些問題,就能解決剛才提到的 70% 問題中很大一部分(比如 20% 的問題),這将顯著提高代碼采納率,并讓用戶感到滿意。

最終要實現項目級别的需求任重而道遠。我認為,代碼基礎模型和 Agent 技術需要同步快速發展,才能達到我們的目标。

我們的思路相對保守,因為就基礎模型的要求而言,我認為短期内國内要達到 GPT 水平還存在一定差距。

大模型對軟體開發的範式改變

AI 程式員成為企業運營中的新常态已經成為勢不可擋的趨勢。不管是像 Devin 這種 AI 程式員,還是我們提到的全生命周期研發智能體,大模型對整個軟體研發範式都是非常大的提效。

過去遇到不懂的問題,人們可能首先會去 Google 或百度上搜索,而現在,他們可以直接在代碼中提問,随即獲得一個相對精确的結果,采納後即可使用。

我認為這是一個巨大的效率提升,它代表着進步。人們可以将更多的精力釋放出來,投入到更具創造性的工作中去。

前段時間,CodeFuse 發布了圖生代碼的功能,它可以通過在界面上簡單畫一個框,就能自動生成相應的代碼。

以往可能需要編寫數百行代碼的工作,現在只需一次點擊和畫框操作就能實現。

而要從產品設計的角度來看,我認為實現無縫接入和無感體驗是至關重要的。

這意味着產品應能平滑地融入現有的工作模式中,用戶在使用過程中幾乎不會意識到它的存在,從而極大地提升用戶體驗,并推動整個研發流程的創新和進步。

例如,我們内部每周有超過一萬人的智能代碼生成活躍用戶,很多人都沒意識到自己在使用 CodeFuse,在日常使用 IDE 插件、浏覽器的過程中,用戶已經不知不覺地使用了我們的產品。

我們的目标是服務于整個研發的全生命周期。如果能夠實現這一點,那将是一個革命性的成功。

現在 AI 寫代碼相當于 L2.5

目前整個代碼生成領網域,可能處于一個類似于自動駕駛技術中的 L2.5 級别,許多公司都處于這一水平。

比如自動駕駛 L2.5 級别的功能,如車道線輔助、前方碰撞檢測等,這些都是作為整體存在的一部分。在大模型領網域,也看到了類似的補充功能,包括解釋、注釋、簡化優化和單元測試等。

我們接下來的目标是在某些特定場景下實現 L3 級别的完全自動化,這是有可能實現的。例如,在效能領網域中的持續集成(CICD)場景,就有可能通過大模型的驅動來自動完成,包括觸發檢查、提交,甚至創建拉取請求(PR)等操作。

然而,要實現全場景、全鏈路的自動化,前端可能還需要一段時間才能發展起來,復雜的項目級的需求拆解特别是特定領網域的拆解,也面臨較大挑戰。我認為可能還需要 3-5 年的時間,在萬物摩爾定律的推動下,整個社區,包括我們自己的不斷努力和發展。

到那時候,我們可以期待從當前的狀态發展到一個新的階段——

例如,從 Copilot 到 co-worker,現在可能有 20% 到 30% 的編程工作可以被替代,未來這個比例可能會提高到 50%,甚至有些環節可以完全被自動化取代,釋放人去做更有創意的工作。

甚至成為一個 full agent。雖然可能無法完全替代人類,但在未來 3-5 年内,達到 L3 甚至接近 L4 的水平是有可能的。

正如自動駕駛技術一樣,雖然已經提出很多年,許多人聲稱已經達到 L4 級别,但實際上許多場景仍然處于 L2.5 到 L3 級别。要實現全場景的自動化,人類仍然需要在其中扮演一個重要的角色。

這樣一來,軟體工程人員的定位其實也在發生變化。以前大家可能專注于前端或後端的開發工作。而現在,AI 全棧工程師的需求更大。

過去所謂的全棧工程師意味着前端、後端和數據都懂,但現在可能還需要理解算法。随着大模型發展,前端和後端的工作可能會逐漸由大模型輔助,即作為協作者(Co-worker)來分擔部分功能,從而釋放出開發者的時間。這樣開發者就可以将更多時間投入到提升新的技能上,比如對產品的深入理解,對用戶體驗的關注,對算法創新等。

基于對整個領網域進行了深入的探索,我發現要進一步去實現還有不少挑戰,主要有五個方面:

端到端代碼生成能力

基礎模型層面,目前主要是實現代碼補全的功能,但在實際應用中只有大約 30% 問題可以通過這種方式解決,剩餘的 70% 則需要端到端代碼生成能力,需要跨檔案、跨代碼庫,甚至跨代碼庫和文檔庫的理解和互動。

所謂的端到端,對于一個代碼庫而言,一個典型的例子,我們需要能夠直接調用庫中的 API,修復問題(issue),甚至能夠復用跨庫的中間件能力。

然而,僅憑基礎模型是無法實現這些的,我們還需要探索更多的能力。

Agent 推理能力

盡管最近 Devin 被曝出演示視頻存在造假,備受關注,但我認為它還是代表了一種趨勢、一種技術流派——

如何将定制工具調用與大型模型相結合,實現整個工作流程的自動化。這個問題,尤其是擴展到全生命周期,實際上相當困難,尤其是面向雲後端的研發環境,工具種類繁多。

比如面向前端應用可能只有天氣預報、查詢火車票、預定酒店等十幾個工具,但在雲後端,則可能會有數百個甚至上千個工具,每個工具都包含數十個參數。

除此之外,還有需求拆解、跨模态橫向互動、安全可信可靠的挑戰。

尤其代碼的安全可信可靠,像螞蟻這樣的企業級用戶,需要應對面向金融級别的高可用性和安全性的要求,也充滿了挑戰。

不過也正因為在金融級垂直場景的深耕,包括資源配置和歷史經驗積累,螞蟻也構成了屬于自己的場景優勢。

首先,我們擁有涵蓋整個生命周期各個環節全方位的團隊,尤其在雙十一等大型促銷活動期間的高可用性方面經驗豐富,這有助于推進全生命周期的代碼大模型,這是我們與外部的主要區别之一。

其次,我們在特定領網域,如金融領網域,以及前端領網域,都有一定經驗積累,尤其是在支付系統等對安全性要求極高的場景中。這些積累使我們在安全性、可靠性和可信度方面具有差異化優勢。

雖然挑戰不少、道阻且長,但我認為,螞蟻将攜手開源社區一起努力,在萬物摩爾定律的牽引下,未來兩三年可以一定程度解決好這個問題。

One More Thing

最後,面對當下大模型發展,李建國博士忍不住感嘆:

我以前做深度學習,那時候非常卷,可能 2019 年之前,我發現這個領網域已經卷不動了,跳出來做 NLP,發現這個領網域也還是更加的卷。

但不得不承認,大模型再次點燃了 NLP、視覺處理、代碼生成等各個領網域的熱度,煥發新的活力。

對于接下來的發展,李建國點名最看好具身智能的發展,這将是未來 5 到 10 年的研究熱點。

它将成為數字世界與物理世界之間的橋梁,能夠感知并執行操作。這可能會帶來類似 Matrix(黑客帝國)這樣的場景的巨大進步,甚至可能像電影《終結者》中展示的那樣,成為真正的巨大飛躍。

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們