大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

2024-04-24 简体 HK SG TW

今天小编分享的科学经验:对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程,欢迎阅读。

超 70% 代码问题,单纯靠基座大模型是解决不了的;

未来 3-5 年,人类 50% 编程工作可以被替代,有些环节甚至完全自动化。

蚂蚁集团代码大模型 CodeFuse 负责人李建国说道。

当下,AI 代码生成领網域正在野蛮式生长,巨头涌入,AI 员工频频上线企业;首个 AI 程式员 Devin 被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。

李建国是谁?

清华大学博士,机器学习、深度学习深耕十余年,论文被引万余次。在他的带领下,蚂蚁内部正全面推行 AI 编程。每周已有超五成程式员使用 CodeFuse,目前CodeFuse 生成代码整体采纳率为 30%,已经属于整个 AI 编程工具中能力第一梯队,最强 Copilot 代码整体采纳率差不多在 35%。

因此不管是学术的权威性,还是产业落地的代表性,李建国博士极具话语权。于是在代码生成模型和产品爆发式发展的当下,量子位同李建国博士展开了进一步交流。

核心观点如下:

编写代码在整个企业研发过程中所占的比重可能连 1/5,甚至 1/10 都不到;

要实现项目级的需求实现,从原子级需求端到端渐进发展的模式是切实可行的;

AI 程式员成为企业运营中的新常态已经是势不可挡的趋势;

目前自然语言编程处于 L2.5 阶段,按照万物摩尔定律的发展趋势,未来 3-4 年达到 L3,甚至接近 L4 的水平是有可能的。

相较于前、后端的軟體工程师,AI 全栈工程师需求更大。

当前代码生成变革所面对的挑战包括:端到端代码生成能力、Agent 推理能力、复杂需求拆解、跨模态横向互動、安全可信可靠。

编写代码只占整个研发生命周期 1/5 不到

首先,程式员这个行业历史并不算长,从 20 世纪 50 年代至今,大约有七八十年的历史。随着技术的进步,编程工具不断更新迭代(打孔 - VI 编辑器 - 集成开发环境 - 辅助编程工具),程式员的工作效率得到了显著提升。

来到大模型时代,相关模型和产品演化迭代十分迅速,可以说十分的 " 卷 "。

对个人开发者而言,AI 编程工具只需完成从需求到代码实现的闭环过程就够了,就像 Copilot 这样的工具。他们更倾向于关注如何高效地实现需求。

但从企业维度则更关注整个研发流程的效率提升,除了关注代码生成的安全可靠可信,测试构建、发布运维以及数据洞察等方面也是至关重要的。

我们期望能够有一个研发智能体,甚至是一个智能总线(bus),它能够与各个 Agent 进行互動,并将任务分发下去——从架构设计到前端实现,再到后端开发,以及安全测试和功能测试,最后是效能方面的持续集成 / 持续部署(CICD)和运维自动化。

△测试 - 自然语言生成终端用例

整个系统上线后,还能够自动进行运维布控,并分析产品的用户访问量(UV)、页面浏览量(PV)等数据。

△运维 - 监控解读

编写代码在整个过程中所占的比重可能连五分之一或十分之一都不到。但如果这样的 Agent 能将所有环节高效连接起来,从而真正提升整个流程的效率。

再加上当前程式员实际所面临的痛点在于,市面上一些产品大多是原子级能力的实现——通过单体大模型只能解决 30% 的代码补全,无法解决更多的代码问题,比如跨库的函数调用。

基于这样的行业思考,去年 9 月份开始,我们开源了CodeFuse,并明确提出要构建全生命周期的代码大模型。

下一步,我们计划进行项目级的需求实现,这相当于去实现一个全新的系统。这对基础模型提出更高的要求——

自然语言理解的能力至少达到 GPT-4 或 GPT-4.5 的水平。但从目前的情况来看,我们更倾向于采取一种渐进的模式。

我们首个 MileStone 是解决仓库内及跨仓库的需求实现问题,包括 API 调用、服务调用,以及涉及到的外部中间件版本更新问题。

如果我们能够妥善处理这些问题,就能解决刚才提到的 70% 问题中很大一部分(比如 20% 的问题),这将显著提高代码采纳率,并让用户感到满意。

最终要实现项目级别的需求任重而道远。我认为,代码基础模型和 Agent 技术需要同步快速发展,才能达到我们的目标。

我们的思路相对保守,因为就基础模型的要求而言,我认为短期内国内要达到 GPT 水平还存在一定差距。

大模型对軟體开发的范式改变

AI 程式员成为企业运营中的新常态已经成为势不可挡的趋势。不管是像 Devin 这种 AI 程式员,还是我们提到的全生命周期研发智能体,大模型对整个軟體研发范式都是非常大的提效。

过去遇到不懂的问题,人们可能首先会去 Google 或百度上搜索,而现在,他们可以直接在代码中提问,随即获得一个相对精确的结果,采纳后即可使用。

我认为这是一个巨大的效率提升,它代表着进步。人们可以将更多的精力释放出来,投入到更具创造性的工作中去。

前段时间,CodeFuse 发布了图生代码的功能,它可以通过在界面上简单画一个框,就能自动生成相应的代码。

以往可能需要编写数百行代码的工作,现在只需一次点击和画框操作就能实现。

而要从产品设计的角度来看,我认为实现无缝接入和无感体验是至关重要的。

这意味着产品应能平滑地融入现有的工作模式中,用户在使用过程中几乎不会意识到它的存在,从而极大地提升用户体验,并推动整个研发流程的创新和进步。

例如,我们内部每周有超过一万人的智能代码生成活跃用户,很多人都没意识到自己在使用 CodeFuse,在日常使用 IDE 插件、浏览器的过程中,用户已经不知不觉地使用了我们的产品。

我们的目标是服务于整个研发的全生命周期。如果能够实现这一点,那将是一个革命性的成功。

现在 AI 写代码相当于 L2.5

目前整个代码生成领網域,可能处于一个类似于自动驾驶技术中的 L2.5 级别,许多公司都处于这一水平。

比如自动驾驶 L2.5 级别的功能,如车道线辅助、前方碰撞检测等,这些都是作为整体存在的一部分。在大模型领網域,也看到了类似的补充功能,包括解释、注释、简化优化和单元测试等。

我们接下来的目标是在某些特定场景下实现 L3 级别的完全自动化,这是有可能实现的。例如,在效能领網域中的持续集成(CICD)场景,就有可能通过大模型的驱动来自动完成,包括触发检查、提交,甚至创建拉取请求(PR)等操作。

然而,要实现全场景、全链路的自动化,前端可能还需要一段时间才能发展起来,复杂的项目级的需求拆解特别是特定领網域的拆解,也面临较大挑战。我认为可能还需要 3-5 年的时间,在万物摩尔定律的推动下,整个社区,包括我们自己的不断努力和发展。

到那时候,我们可以期待从当前的状态发展到一个新的阶段——

例如,从 Copilot 到 co-worker,现在可能有 20% 到 30% 的编程工作可以被替代,未来这个比例可能会提高到 50%,甚至有些环节可以完全被自动化取代,释放人去做更有创意的工作。

甚至成为一个 full agent。虽然可能无法完全替代人类,但在未来 3-5 年内,达到 L3 甚至接近 L4 的水平是有可能的。

正如自动驾驶技术一样,虽然已经提出很多年,许多人声称已经达到 L4 级别,但实际上许多场景仍然处于 L2.5 到 L3 级别。要实现全场景的自动化,人类仍然需要在其中扮演一个重要的角色。

这样一来,軟體工程人员的定位其实也在发生变化。以前大家可能专注于前端或后端的开发工作。而现在,AI 全栈工程师的需求更大。

过去所谓的全栈工程师意味着前端、后端和数据都懂,但现在可能还需要理解算法。随着大模型发展,前端和后端的工作可能会逐渐由大模型辅助,即作为协作者(Co-worker)来分担部分功能,从而释放出开发者的时间。这样开发者就可以将更多时间投入到提升新的技能上,比如对产品的深入理解,对用户体验的关注,对算法创新等。

基于对整个领網域进行了深入的探索,我发现要进一步去实现还有不少挑战,主要有五个方面:

端到端代码生成能力

基础模型层面,目前主要是实现代码补全的功能,但在实际应用中只有大约 30% 问题可以通过这种方式解决,剩余的 70% 则需要端到端代码生成能力,需要跨檔案、跨代码库,甚至跨代码库和文档库的理解和互動。

所谓的端到端,对于一个代码库而言,一个典型的例子,我们需要能够直接调用库中的 API,修复问题(issue),甚至能够复用跨库的中间件能力。

然而,仅凭基础模型是无法实现这些的,我们还需要探索更多的能力。

Agent 推理能力

尽管最近 Devin 被曝出演示视频存在造假,备受关注,但我认为它还是代表了一种趋势、一种技术流派——

如何将定制工具调用与大型模型相结合,实现整个工作流程的自动化。这个问题,尤其是扩展到全生命周期,实际上相当困难,尤其是面向云后端的研发环境,工具种类繁多。

比如面向前端应用可能只有天气预报、查询火车票、预定酒店等十几个工具,但在云后端,则可能会有数百个甚至上千个工具,每个工具都包含数十个参数。

除此之外,还有需求拆解、跨模态横向互動、安全可信可靠的挑战。

尤其代码的安全可信可靠,像蚂蚁这样的企业级用户,需要应对面向金融级别的高可用性和安全性的要求,也充满了挑战。

不过也正因为在金融级垂直场景的深耕,包括资源配置和历史经验积累,蚂蚁也构成了属于自己的场景优势。

首先,我们拥有涵盖整个生命周期各个环节全方位的团队,尤其在双十一等大型促销活动期间的高可用性方面经验丰富,这有助于推进全生命周期的代码大模型,这是我们与外部的主要区别之一。

其次,我们在特定领網域,如金融领網域,以及前端领網域,都有一定经验积累,尤其是在支付系统等对安全性要求极高的场景中。这些积累使我们在安全性、可靠性和可信度方面具有差异化优势。

虽然挑战不少、道阻且长,但我认为,蚂蚁将携手开源社区一起努力,在万物摩尔定律的牵引下,未来两三年可以一定程度解决好这个问题。

One More Thing

最后,面对当下大模型发展,李建国博士忍不住感叹:

我以前做深度学习,那时候非常卷,可能 2019 年之前,我发现这个领網域已经卷不动了,跳出来做 NLP,发现这个领網域也还是更加的卷。

但不得不承认,大模型再次点燃了 NLP、视觉处理、代码生成等各个领網域的热度,焕发新的活力。

对于接下来的发展,李建国点名最看好具身智能的发展,这将是未来 5 到 10 年的研究热点。

它将成为数字世界与物理世界之间的桥梁,能够感知并执行操作。这可能会带来类似 Matrix(黑客帝国)这样的场景的巨大进步,甚至可能像电影《终结者》中展示的那样,成为真正的巨大飞跃。

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們