今天小编分享的教育经验:Meta首席AI科学家杨立昆演讲:当前处于AI什么阶段,以及我们距离实现真正通用AI还有多远?,欢迎阅读。
The following article is from AI 深度研究员 Author AI 深度研究员
第二期华夏基石数智时代领导力特训营热招中!
报名即送十月管理论坛名额一个!价值 12800 元!
来源 | AI 深度研究员,管理智慧
咨询合作 | 13699120588
文章仅代表作者本人观点,图片来源于 pixabay
人工智能 ( AI ) 正在飞速发展 , 但我们距离实现真正的人类水平 AI 还有多远 ? 为了深入探讨这个问题 , 最近 "AI 未来论坛 " 上我们有幸聆听到了 AI 领網域的顶尖专家杨立昆 ( Yann LeCun ) 教授的一些个人独家观点。
杨立昆是 Meta 公司的首席 AI 科学家和 Facebook AI 研究院 ( FAIR ) 的领军人物 , 同时也是纽约大学教授。他在 AI 领網域贡献卓著 , 曾获 2018 年图灵奖等多项殊荣 , 并当选为美国国家工程院院士。
近年来 ,AI 技术取得了显著进展 , 尤其是自监督学习技术的崛起让我们看到了希望。自监督学习的核心在于训练系统有效表示输入数据 , 而非针对特定任务。然而 , 现有的语言模型在推理能力和处理连续数据等方面仍存在局限。要实现真正的人类水平智能 , 我们仍需突破一些关键技术瓶颈。杨立昆认为 , 这一目标的实现可能需要几年到几十年的时间 , 其难度可能超出我们的想象。尽管如此 , 他相信机器终将超越人类智能。
在本次演讲中 , 他将深入探讨 AI 发展的现状、挑战及未来展望。
今天我要讲的是人类水平的人工智能,或者说我们如何实现它,以及为什么我们现在还达不到这个目标。首先,我们确实需要具备人类水平的 AI,因为未来大多数人可能都会戴着智能眼镜或其他设备与之交流,这些设备会有助理系统,也许不止一个,而是一整套虚拟助手。这意味着每个人都会有一群智能的虚拟助手为其服务,尽管这些助手不是实际的真人。
智能的虚拟助手
我们需要打造这些系统,以扩展人类的智能,提升人们的创造力和生产力。为此,我们需要能够理解世界的机器,它们要能够记住事情,拥有直觉和常识,能够像人类一样推理和规划。然而,尽管有人可能声称现有的 AI 系统已经能够做到这些,但实际上,当前的 AI 系统根本无法实现这些功能。
我们需要的系统是那些能够学习并建立世界模型的系统,它们需要有关于世界如何运作的 " 心理模型 "。实际上,所有动物都有这种模型,比如你家的猫,它的世界模型比任何现有的 AI 系统都要复杂得多。
当前的 AI 系统还缺乏持续的记忆能力,无法像人类一样规划复杂的行动序列,也无法做到完全可控和安全。因此,我提出了一种叫做 " 目标驱动的通用 AI"(Objective-driven AI)的架构,我两年前写了一篇关于这个构想的文章,并在 FAIR 内部得到了很多人的响应。现在,FAIR 更加注重于长期的、下一代 AI 系统的研究,而不再专注于当前的语言模型。
近年来,AI 技术的成功,尤其是自监督学习技术的崛起,让我们看到了一些希望。自监督学习的核心思想是让系统不是为了某个特定任务进行训练,而是为了能够以某种有效的方式表示输入数据。比如,你可以通过让系统从损坏的数据中重建完整的输入来实现这一点。但现有的语言模型在很多方面仍存在局限,特别是在推理能力和处理连续数据上的不足。要想真正实现人类水平的智能,我们仍然缺少一些关键的技术。
我这里并不是在谈论人类水平的智能,但即便是你的猫或狗,它们也能完成一些令人惊叹的壮举,而这些事情目前的 AI 系统仍然无法做到。比如,任何一个 10 岁的孩子只需要一次就能学会收拾餐桌并装满洗碗机,根本不需要反复练习。而一个 17 岁的青少年通常只需大约 20 小时的练习就能学会开车,但我们仍然没有能够实现完全自动驾驶的 5 级自动驾驶汽车,也没有能够帮忙清理餐桌、装洗碗机的家用机器人。这说明我们确实缺少了一些关键的东西,否则我们应该早就能用 AI 系统完成这些任务了。我们经常碰到一个叫做 Moravec 悖论的现象,即那些看似对我们来说微不足道、不需要智能的任务,对机器来说却非常困难,而那些高层次的、复杂的抽象思维,比如语言处理,反而对机器来说很容易,比如下棋或围棋等。
大型语言模型
也许这背后的原因之一是这样的:一个大型语言模型(LLM)通常在 20 万亿个词元(tokens)上进行训练。一个词元大约是四分之三个单词,而 20 万亿个词元大约是 1.5 乘以 10 的 13 次方的单词。这相当于大约 6 乘以 10 的 13 次方字节的数据,而普通人一生都不可能读完这些数据,这基本上就是互联网上所有公开的文本。
然而,一个 4 岁的小孩在其生命中清醒的时间大约是 16,000 小时,这相当于大约 30 分钟的 YouTube 视频上传量。而我们每个人的视神经大约有 200 万个神经纤维,每根纤维大约每秒传输一个字节,或者大约每秒半个字节。这些数据量大致在 10 的 14 次方字节左右,和大型语言模型的训练数据量处于同一个数量级。所以,这表明,仅靠文本训练是不可能达到人类智能水平的。我们还需要训练 AI 系统去理解常识和物理直觉,可能通过看视频或在现实世界中学习。
系统通过找到与输入最匹配的输出值来计算输出。你可以想象这个目标是某种能量函数,然后你通过对输出进行优化来最小化这个能量。可能会有多个解,系统可以通过某种方式在这些解中进行选择。人类的感知系统也会有类似的处理方式,当你对某个感知有多种解释时,大腦会自动在这些解释之间循环切换。这方面确实有一些证据表明此类现象存在。接下来,我回到架构的讨论。根据通过优化进行推理的原则,人们的思维方式可以假设为这样:你对世界进行观察,感知系统给你提供当前世界状态的一个想法,但它只能给你当前能够感知到的部分状态。你可能会根据记忆对世界的其他状态有所了解,这些记忆会与当前感知结合,被输入到一个世界模型中。
什么是世界模型呢?世界模型就是你对世界如何运作的心理模型。你可以想象自己采取的某些行动序列,并通过世界模型预测这些行动对世界的影响。你把假设的行动序列输入到世界模型中,它会预测世界的最终状态,或者整个世界状态的变化轨迹。然后,系统会将这些预测结果输入到一系列目标函数中,其中一个目标函数是衡量任务的完成度,其他目标则是一些 " 安全护栏 ",用于衡量这些行动是否对机器人或周围的人类是安全的。
推理能力
推理过程是这样的:不是通过学习,而是通过找到最优的行动序列来最小化这些目标。你可以通过搜索离散的选项来实现这一点,但这种方式效率不高。更好的方法是让所有的模块都是可微分的,然后通过梯度下降法更新行动序列。
这个想法其实并不新,已经有超过 60 年的历史了,特别是在最优控制理论中,这种方法被称为模型预测控制。你有一个系统模型,比如火箭、飞机或机器人,你可以利用世界模型计算一系列控制命令的效果,然后优化这些命令,使运动达到你想要的目标。传统的机器人运动规划就是这样完成的。新颖之处在于,我们现在要学习世界模型,并学习感知系统,以提取适当的抽象表示。在这个过程中,你可以构建一个包含所有这些组件的 AI 系统:世界模型、目标函数、演员模块(用来找到最优的行动序列)以及记忆和感知系统等。
如果你的行动不是单个的,而是一系列行动,世界模型可以告诉你,在时间 T 的世界状态下,采取某个行动后,时间 T+1 的世界状态会如何变化。你可以多次运行世界模型来预测多个行动的效果,最终通过梯度优化找到能最小化成本的行动序列。潜变量(latent variables)基本上是可以在一组值中切换或从分布中抽取的变量,它们使得世界模型能够在多个与观察结果兼容的预测之间切换。因为世界并不是完全可预测的,所以在做出预测时,你可能需要处理这种类型的不确定性。
更有趣的是,人类和许多动物能够进行层次规划。例如,如果你计划从纽约到巴黎的旅行,你可以使用你自己的世界模型,规划从现在的位置到巴黎的整个过程。但你不会详细到每一步都涉及低级的肌肉控制,对吧?你不会每 10 毫秒就计划一下要控制哪些肌肉来移动,而是进行更高层次的规划。举个例子,你计划去巴黎时,首先会想到要去机场乘飞机。为了去机场,你可能会考虑如何打车,这就是较高层次的计划。然后,你再细化到如何从椅子上站起来,走到门口,按电梯按钮等等。这种分层规划在 AI 系统中如何实现,目前完全没有解决方案。
我们需要如何去学习拥有多层次抽象能力的世界模型呢?这是一个大挑战。人类和动物在非常小的时候就开始学习关于世界的基本概念,比如直觉物理。心理学家和认知科学家研究发现,婴儿在学习语言之前,就已经开始理解一些基本的物理现象。比如,婴儿很早就能分辨出动物和非动物的运动方式。物体的恒常性,即当一个物体被另一个物体遮挡时,它仍然存在,这也是婴儿早期学会的概念。再比如,关于重力、惯性和动量的概念,婴儿通常要到九个月大左右才能理解。
如果你给六个月大的婴儿展示一个场景,比如一个小车从平台上推下去但却漂浮在空中,六个月大的婴儿可能不会注意到。但如果是十个月大的婴儿,她会惊讶地看着这个场景,因为她已经理解了物体应该掉下来。如果事情的结果出乎意料,这意味着她的世界模型有问题,因此她会更加注意,因为这可能会影响她的安全。
神经网络训练
我们需要的学习方式非常类似于我们之前提到的自监督学习。比如,给系统输入一个视频,破坏其中的部分内容,然后训练神经网络去预测缺失的部分。如果我们能训练系统像预测文本一样预测视频中的内容,或许它们就能学会常识。
坏消息是,我们已经尝试了十年,但目前完全没有成功。我们从未成功开发出能真正通过预测视频像素来学习一般性世界知识的系统。虽然有一些生成漂亮视频的系统,但它们并没有学到真正的常识。但实际上,这些生成模型并不能很好地模拟物理世界,它们无法用来解决这个问题。我们曾经尝试通过生成模型预测视频中的下一帧,并期望系统能 " 神奇地 " 理解世界的结构,然而,这完全失败了。我们尝试了很多方法,历时十年,但都未能成功。
失败的原因是,未来有很多种可能性,而在离散空间(如文本中),虽然我们无法确切预测下一个词是什么,但可以生成所有可能词的概率分布。然而,对于视频帧,我们没有一种有效的方式来表示视频帧的概率分布。实际上,这个任务几乎是不可能的。比如,我拿着攝影機拍下这个房间的一部分,然后停下视频,接着让系统预测接下来会发生什么。系统可能会预测房间的剩余部分,有墙,有坐着的人,密度可能和左边的区網域相似,但它绝不可能在像素级准确预测你们每个人的长相、墙的纹理以及房间的具体大小等细节。这些都无法准确预测。
为了解决这个问题,我提出了一种称为 " 联合嵌入预测架构 "(Joint Embedding Predictive Architecture, JEPA)的方法。这个想法就是放弃像素预测,而是学习一个抽象表示,然后在这个表示空间中进行预测。具体来说,这个架构通过编码器对输入的被损坏版本进行处理,得到一个表示;然后对目标也进行编码,得到另一个表示,接着让系统根据输入表示来预测目标表示。而这个过程的关键是防止系统 " 崩溃 ",即学到一个恒定的表示,因为这会使预测变得过于简单但没有信息量。
实际上,我们已经有大量的实验证据表明,在影像表示学习方面,最好的方法就是使用这种联合嵌入架构。所有试图通过重建来学习影像表示的方法效果都不好。曾经有很多大型项目宣称这些方法有效,但它们实际上并不奏效。最好的表现总是来自于使用联合嵌入架构的模型。如果你思考一下,实际上这就是智能的本质——找到一个好的表示,使我们能够进行预测。这也是科学的精髓。比如,如果你想预测行星的轨迹,尽管行星是一个非常复杂的对象,有气象、温度、密度等许多复杂的因素,但要预测它的轨迹,你只需要知道六个数字:三个位置和三个速度,这就足够了。
因此,预测的本质在于找到一个良好的表示。为了防止系统 " 崩溃 ",我们需要一个成本函数来衡量从编码器输出的表示的 " 信息量 ",同时最小化表示空间中的预测误差。这样系统就能在信息提取和预测之间找到一种平衡。不过,衡量信息量的方式非常复杂,涉及到一些数学理论,比如训练基于能量的模型和能量函数,但我今天没有时间详细讲解这个部分。总的来说,我的建议是:放弃生成模型,转向这种联合嵌入预测架构,放弃概率模型,转向基于能量的模型,也放弃对比学习方法。
强化学习
我之前没提到这个,因为马上会讲到这个话题,还会涉及到强化学习。不过,我已经讲了十年了,这也是当前机器学习的四个最受欢迎的支柱之一,所以目前我并不太受欢迎(笑)。
其中一种方法是估计编码器输出的信息量,目前有大约六种方法可以实现这一点。我还漏了一种叫做 MMCR 的方法,它是我在纽约大学和 Flatiron 的同事提出的。这个想法是防止系统 " 崩溃 " 并生成常量。我们需要确保从编码器输出的变量有非零的标准差。你可以通过在一组样本上应用一个成本函数,确保这些变量不会变成常量。这听起来很简单,但是系统可能会 " 作弊 ",让所有变量相等或高度相关。因此,我们需要加入另一个项,最小化这些变量的协方差矩阵的非对角线项,以确保它们不相关。
当然,这还不够,因为变量可能依赖但不相关。于是我们采用了另一个技巧,将 Sx 扩展到更高维度的 Vx,然后在这个空间中应用方差协方差正则化。这种方法似乎有效,但实际上我在这里最大化的是信息量的上限,我希望实际信息量也会随之增加。然而,我们并没有信息量的下限,也不知道如何计算它。另一套方法叫做蒸馏方法,它的工作原理非常神秘。如果你想知道它具体是如何工作的,可以去问坐在这里的 S. Guli,他写了一篇相关的论文。我自己也有些疑惑,但它效果非常好。这种方法的核心是只更新架构的一半,而不在另一半上反向传播梯度,同时以一种特殊的方式共享权重。
有很多论文表明,这种方法在完全自监督学习的影像表示上效果很好,尤其是当影像的破损部分被遮盖时。我们最近也有一些关于视频的工作,通过遮盖视频中的部分内容,在表示空间中进行预测,并利用蒸馏技巧防止系统崩溃。这一方法也效果显著。未来,如果我们成功实现这些目标,并最终开发出能够推理、计划并理解物理世界的系统,可能需要几年甚至几十年才能全部实现。马克 · 扎克伯格一直问我需要多长时间才能做到这一点(笑)。如果我们成功,这些系统将成为我们与数字世界互动的中介,它们将随时为我们提供解答,成为人类知识的储存库。
这些 AI 平台将会像互联网一样,成为一种基础设施,而不是一种产品。这些 AI 平台必须是开源的,我不需要向 IBM 的人解释这一点,因为 IBM 和 Meta 是 AI 联盟的一部分,推动开源 AI 平台。我们需要这些平台开源,因为我们需要让 AI 助理能够理解世界上的所有语言、文化和价值观。而这不可能仅靠一家美国公司来实现。训练和微调 AI 模型非常昂贵,只有少数几家公司能够做到这一点。如果像 Meta 这样的公司能够提供开源的基础模型,世界各地的公司就可以根据自己的需要对它们进行微调。
因此,开源 AI 不仅仅是个好主意,它对于文化多样性,甚至是民主的保护,都是必要的。
总之,训练和微调将由整个生态系统中的初创企业和其他公司完成。AI 初创公司的蓬勃发展,正是得益于这些开源 AI 模型的出现。要达到人类水平的 AI 可能需要几年到几十年,这中间有许多问题需要解决,几乎可以肯定这比我们想象的要难。机器确实会超越人类的智能,但它们将会被控制,因为它们是目标驱动的。我们赋予它们目标,它们就会完成这些目标。
原视频链接:https://www.youtube.com/watch?v=4DsCtgtQlZU&ab_channel=Hudsonforum