今天小编分享的科技经验:失業?程式员暂时安全,欢迎阅读。
出品|虎嗅科技组
作者|齐健
编辑|王一鹏
头图|DALL-E 3
在 ChatGPT 出现之前,"AI 替代人类 " 的想法一直被认为是 AI 公司们的 " 科幻 " 噱头。然而,看到了大语言模型涌现出的超强能力后,人们真的开始有点担心自己的 " 饭碗 " 了,尤其是程式员。
2024 年 3 月,初创公司 Cognition 展示了该公司的一款 AI 编程工具 Devin。Cognition 将 Devin 描绘为 " 世上首位完全自主的 AI 軟體工程师 "。
Cognition 的演示视频中,Devin 在只接受自然语言指令的情况下,就能从零开始构建应用程式。Devin 还在众包平台 Upwork 上完成了一个实际的任务订单,不仅完成了计算机视觉模型的代码编写和调试工作,还在任务结束时编制报告。
Cognition 甚至在社交媒体平台发文称:Devin 已通过一家领先 AI 公司的工程师面试。
至此," 开发 AI 的人,最先被 AI 取代 " 的言论在网络快速升温。
然而,就在几天前,一位自称有 35 年开发经验的美国工程师 Carl 在自己的 YouTube 账号 Internet of Bugs 上发布视频,称 Devin 的演示可能存在造假。
自称有 35 年开发经验的美国工程师 Carl 在 YouTube 发布视频,称 Devin 的演示可能存在造假
Devin 可能只是在 " 演 " 程式员?
目前,Devin 还没有开放使用,只能通过邮箱提交申请,所以外界对 Devin 的认知,基本都来自官方给出的演示视频,以及少数第三方开发和产品人员的评价。
第三方评价中,热度较高的就包括彭 * 博社在 3 月 12 日发布的一篇对 Cognition AI 公司,及其中几位华人创始人的报道。这篇报道中提到,记者使用 Devin 在 5-10 分钟内从头开始构建了一个网站。报道还引用了一名试用过 Devin 的计算机科学家 Silas Alberti 对 Devin 的较高评价。
虽然质疑 Devin 造价的博主 Carl 并未对 Devin 进行实际测试。但他通过对 Cognition AI 发布的 Devin 实操视频进行分析,提出了演示中的多处疑似造假内容,包括:
1. 演示视频中,Devin 的很多操作其实并未实际上理解或正确完成任务。Devin 生成的报告没有包含客户实际所需的信息。
2. 在修复错误代码的时候,Devin 还出现了" 没有可能制造困难也要上 "的问题。Carl 指出,Devin 修复的一些代码,是 " 人类永远不会犯 " 的错误。因此这些错误很可能并非来自客户的代码库,而是 Devin 自己造成的。
3. 在技术上,Devin 的表现也不是很好。有时会采用过时的方法处理檔案,在 Python 环境中执行不适当的操作,甚至编写自己的低级檔案读取循环而不是正确使用标准库。
4. 视频看起来 Devin 很快就完成了任务,视频创建者能够在大约 30 分钟内完成所请求的任务,但聊天中的时间戳显示,该任务持续了多个小时,甚至持续到第二天。
虽然 Carl 认为 Cognition 在 Devin 的演示和实际操作中存在夸大的情况,但他也表示 Devin 在某些技术操作上表现出了令人印象深刻的能力。例如:Devin 能够自动更新和配置檔案,以匹配所需的库版本。他认为随着技术的进步,AI 工具像 Devin 这样的 AI 工具一点能做到完全理解和执行更复杂编程任务。
人类仍是 AI 编程的关键?
目前 Devin 还未上线,其能力是否真如 Demo 一样强,其实真假难辨。
不过可以肯定的是,虽然 AI 的确能帮助人类编程,但主流观点仍不认为 AI 可以替代人类。
"AI 远没有外界传闻的那么聪明,要理解业务逻辑都需要大量反复地沟通,别说干活了。" 一位关注 AI 编程的开发者告诉虎嗅,目前很多程式员都在使用 Copilot 类的工具,但担心被快速替代的人并不多。
事实上,目前大型语言模型在工作中仍存在两个比较难解决的问题,一方面输入的信息不一定可以正确理解底层逻辑,可能需要与 AI 进行反复沟通。另一方面,AI 输出的内容都很难避免错误和幻觉,在需要更严谨认真的工作中,没有人类的检查和监督,则会面临很大的风险。
"人类程式员写程式的时候,结果基本是一定的,要么好,要么差。但大模型来了以后,就不好说了。" 支付宝 CTO 陈亮表示,AI 写程式的结果存在很大不确定性," 他可以写得比你好,也可能比你差。" 这就需要人类程式员想办法去控制它或者去影响它。
陈亮认为,虽然不能像以前写程式一样确定输出结果,但可以通过翻译、语料、数据等去影响他,让 AI 有更大概率提供好的结果。
在 Cognition 刚刚发布 Devin 演示视频时,前特斯拉 AI 技术总监、OpenAI 联创 Andrej Karpathy,曾在 X 上发文评价表示:
" 在我看来,自动化軟體工程看起来与自动驾驶类似。自动驾驶的发展是:
1. 首先人类手动执行所有驾驶动作
2. 然后 AI 帮助保持车道
3. 看到前车能减速
4. 它也会变道
5. 它也会在标志 / 红绿灯处停下并轮流通过
6. 最终你会得到一个功能完整的解决方案,并不断提高质量,直到实现完全自动驾驶。
在軟體工程中,进展的情况类似。都是人工智能做得更多,人类做得更少,但仍然需要监督:
1. 首先人类手动编写代码
2. 然后 GitHub Copilot 自动完成几行
3. ChatGPT 写入代码块
4. 转向越来越大的代码差异(例如 Cursor copilot++ 风格)
5....
Andrej Karpathy 认为,Devin 是一个令人印象深刻的演示,可能会推动编码工具的进步,包括终端、浏览器、代码编辑器等,以及人类监督。
程式员的 AI 危机是什么?
虽然 Devin 可能代替不了人类,但很多人类岗位确实已经在被 AI 威胁了。
"AI 不一定取代人,但会用 AI 的人一定取代不会用 AI 的人。"
2023 年以来,AI 工具对工作的重要性上升到了新高度。
陈亮介绍说,目前 60% 的蚂蚁程式员在写代码时都用上了 Codefuse 全站使用 Codefuse 的蚂蚁程式员写的代码中,约 12% 的代码是由 Codefuse 生成的。
宜创科技的创始人宜博则讲述了一个更生动的例子。
"2023 年初,我要求公司所有程式员必须会用 ChatGPT 写代码,一个月时间学习并考核,考核后平均效率提升了 3-5 倍。我们最强的一个架构师的编程效率基本上是原来的 5 到 10 倍。"
宜博说,使用 Copilot 类工具以前,架构师要先把客户需求拿过来梳理清楚,然后再安排 5 到 10 个人帮他干活,他要告诉这些人:前端这个框架你来做。后端这个接口你来写。
" 现在不需要这样了,架构师现在想清楚之后,文档里写清楚,直接可以用 ChatGPT 把它弄出来。" 一个 10 个人的团队把一件事情讲清楚,再做好,检查清楚,可能要一个礼拜。现在这个时间可能不到一天,甚至就几个小时就完成了。
Devin 无辜,罪在炒作
Devin 将他的创作者 Cognition 推到了风口浪尖。这家成立于 2023 年底的公司,目前已经收到了来自知名机构 Founders Fund 等约 2100 万美元的投资。该公司种子轮估值约 3.5 亿美元,如今估值已达 20 亿美元。
如今,随着 Devin 的 " 世界首个 AI 軟體工程师 " 称号被 Carl 质疑是不实宣传,Cognition 恐怕要面临一场公关危机了。
对于 " 虚假宣传 ",Carl 批评 AI 产品的宣传往往缺乏透明度,不如实展示产品的实际能力和限制,从而误导了公众和专业人士。
在过去一年中,爆火 AI 的 " 虚假宣传 " 案例确实数见不鲜。
其中最有名的就是 "Google 发布 Gemini 的演示视频 "。 Google 在其最新 AI 大模型 Gemini 发布的演示视频中,展示了经验的多模态能力。但后来该公司承认视频实际上是经过剪辑的,使用了静态影像和文字提示,而非实时动态处理。视频中减少了延迟,简化了 Gemini 的输出。
就在不久前,亚马逊推出的一项 " 无需结账 " 技术(Just Walk Out),亦被指出是人工 " 伪装 " 的人工智能。有报道指出这项技术并非完全依赖先进的 AI 和计算机视觉,而是由超过 1000 名印度工作人员在手动审核顾客的购物行为,确保结账的准确性。不过,目前亚马逊已否认了这种说法,并声称这些工作人员主要是在训练模型,帮助改进技术。
更早的案例中,也曾有国内某知名 AI 公司,被指在某大会现场把人类同传翻译的内容伪装成 AI 翻译内容,打上公司产品 Logo 展示。
在指证 Devin 造假的视频中,Carl 呼吁制造商、媒体和使用者都应对 AI 技术持有怀疑态度,并进行必要的核实。Carl 认为,这种夸大其词的做法不仅误导了公众,还为 AI 技术設定了不切实际的期望。
一些网友也对 Carl 的观点表示支持。
rayhere7925 认为:许多这样的科技初创企业只有一个目标:赚钱。他们如何获得资金?通过投资者和 / 或炒作。我敢肯定,这种夸张的演示以及随之而来的所有文章和影响者视频,一定说服了某些地方的投资者向这家公司注资——这正是这家公司的目标。如果这意味着可以赚更多的钱,公司会撒谎(如果他们能侥幸成功的话)。这家公司为了炒作和吸引投资者而撒谎也就不足为奇了。
Apexphp 则认为:现代新闻业的问题在于,过去撰写技术文章的人通常对该领網域有一定的了解,他们知道专业术语的含义,能够阅读自己写作领網域的科学论文,并理解其中的大部分内容。但现在,我们只有一群按篇酬付费的人,他们在互联网上找到有趣的标题,然后简单写几句话,因为他们所在的公司支付的费用与他们为一篇撰写精良、经过深入研究的文章支付的费用相同,所以他们也就没必要多费心了。