今天小编分享的教育经验:巴黎AI峰会,斯坦福教授李飞飞演讲:当前才是“首个真正的AI时代”,欢迎阅读。
作者 | Ra · Zero
来源 | 人工智能产业链 管理智慧
咨询合作 | 13699120588
文章仅代表作者本人观点
【文章核心预览】
李飞飞从五亿年前生命感知能力的进化讲起,一路讲到图灵时代,展现 AI 发展的宏大历史脉络。
首次系统阐述现代 AI 崛起背后的三大支柱:感知算法的突破、认知科学的启发、计算能力的跃升。
深度剖析 2012 年 ImageNet 革命到 2025 年大语言模型时代,AI 从观察者到执行者的历史性转变。
提出 " 以人为本的 AI" 三大核心价值:维护人的尊严、增强人的能力、促进社区发展。
呼吁抛开科幻化想象,采取务实态度推动 AI 发展,构建开放多元的健康生态系统。
在全球瞩目的巴黎 AI 峰会开幕式上,斯坦福大学李飞飞教授发表生动的演讲。作为 ImageNet 创始人,她的每一次公开发声都格外引人注目。这一次,她带来了一个跨越五亿年的宏大叙事:从生命最初获得感知能力的进化史,讲到如今 AI 的突飞猛进。
" 毫无疑问,历史学家今后一定会把这段时间称作 ' 真正的第一个 AI 时代 '。" 李飞飞在演讲中如此断言。在她看来,从任何维度来看——无论是计算机专业中人工智能方向的学生人数、投资金额、新创企业数量,还是技术突破—— AI 都正在掀起一场深度和广度空前的革命。
各位早上好,我非常荣幸且激动能够在本周与大家共聚一堂,并带来此次开幕演讲。我也非常期待接下来最充满活力的讨论,甚至可能做出一些重要决定。
人工智能的历史与起源
对我们许多人而言,人工智能往往被视为一个关于技术、关于现代世界的故事,也毋庸置疑是一个关于未来的故事——这正是我们大家今天齐聚于此的原因。然而对我而言,它还是一个可以追溯到所有生命起源之初的故事,早在五亿年前就已经开始。那是一个极其久远的时代,当时连 " 视觉 " 这一概念都尚未出现,实际上连眼睛都尚未进化,没有任何生物曾看过这个世界,所有生命都被置于你现在在螢幕上所看到的那片黑暗当中。
当然,要在十分钟左右的时间里讲完五亿年的历史确实有点勉为其难,所以我给大家带来一个简要版:当进化赋予了你们在螢幕上所见的这些简单生物以感知周围世界并对这些感知(即便十分微弱)做出反应的能力时,一场进化军备竞赛由此展开。最初只是一种被动的体验——让光线进入体内,但不久之后就变得更加丰富并富有主动性。神经系统开始进化," 看见 " 开始转变为 " 洞察 ",看见进而变为理解,而理解则推动了行动,所有这些都孕育了 " 智能 ",从而永久地重塑了地球上生命的本质。
时至今日,五亿年之后,人类的智能已经让我们的物种可以想象并塑造工作和生活的方方面面。而我们也不再满足于仅仅拥有自然赋予的这份智慧。我们怀着的好奇心如今驱使我们想要创造出与我们同样聪明、甚至更胜一筹的机器。这也是为什么我们本周要讨论的这项重要技术,其起源可以追溯到 20 世纪中叶。
英国的伟大数学家艾伦 · 图灵(AlanTuring)极具前瞻性,早在计算机尚未真正出现之前,他就已经开始思考如何让它们拥有可与人类比肩的认知能力。对我而言,他的著作一直在向人类发出挑战:要大胆设想能够思考的机器,就像他自己所想象的那样。这股好奇心与雄心同样也感染了美国的早期计算机科学家们,他们不仅举办了首个研究项目来探索 " 会思考的机器 " 的可能性,还在 1956 年那个炎热的夏天正式提出了 " 人工智能 " 这一术语——比这个概念进入公众视野要早几十年。这张图片正是当时他们为那次研讨会撰写的研究论文截图。
说实话,令人觉得有趣的是,他们当时以为只需要两个月就能解决这一重大课题的很大一部分,甚至能破解智能的奥秘。也许他们太过乐观,但不得不佩服他们的胆识。如今,我们已经在那个 " 两个月项目 " 里走过了 820 个月,但确实也取得了不少实质性进展。
现代 AI 三大关键要素
另一个对 AI 的误解在于,认为它只是计算机和工程领網域的事情,然而事实上,它一直以来都是一门高度跨学科、富有活力的追求。我们当今所处的现代 AI 时代,正是三项极其重要又各自独立的技术与科学进步汇聚而成的成果。
第一项是对感知算法的研究——即生物(包括动物乃至人类)如何理解周围世界,并最终创造出让机器也能具备类似能力的数学模型。在达特茅斯 AI 夏季研讨会上延续了图灵的大胆假设之后,神经生理学家 DavidHubel 和 TorstenWiesel 率先揭示了哺乳动物视觉皮层中神经处理的层次结构,为他们赢得了诺贝尔奖,也彻底改变了我们对视觉处理的认知。大约在同一时期,心理学家 FrankRosenblatt 搭建了最早的神经网络原型之一——感知器(Perceptron)。这项工作启发了数十年后无数计算机科学家,尤其是早期先驱者,如 KunihikoFukushima、JeffHinton、YannLeCun、YoshuaBengio 等,去设计愈发先进的模型,最终形成了我们今天所熟知的深度学习神经网络算法,让机器拥有了自身近乎神奇的感知和分析能力。
与此同时,第二条研究脉络也开始出现——认知科学家转而研究人类自身的大腦,揭示我们对周围环境进行感知时所拥有的惊人深度和复杂性。他们的研究明确指出,无法将我们的腦与其所处的进化环境分割开来。大腦不过是一个被禁锢在颅骨黑暗之中的机器,却又从生命最初时刻开始,就急切地向外部学习,通过每一次光线的照射、每一次触觉刺激、每一声细语来获取信息。
对我个人而言,作为在 21 世纪初成长起来的科学家,当时感知算法几乎是我所在领網域的唯一关注点,而认知科学带给我的启示在于 " 规模 "。演化与发育能如此有效地塑造人类智慧,是因为它们能利用大量数据来驱动我们的学习。我和我的合作者、学生们推测,同样的规律也适用于机器,只不过这一次,数据来自现代数字设备和互联网,而不再是依靠生物感官。由此激发了我所在实验室发起的 ImageNet 项目——它是第一个针对人工智能的大规模互联网训练与评测数据集。我们提出了一个关键假设:数据是让神经网络等高容量算法真正 " 活起来 " 的关键。这个理念让神经网络焕发新生,开启了利用海量数据来推动 AI 进步的全球趋势,也成为如今所说的 AI" 规模定律 "(scalinglaw)的一部分。
最后,如果没有极其强大的运算能力来支撑,以上所有成就都不会发生,或者根本连起点都无法跨越。最初的里程碑包括冯 · 诺依曼(vonNeumann)在上世纪 40 年代提出的计算机体系结构理论,它一直沿用至今,并在 70 年代初催生了第一批微处理器。可有趣的是,真正让硅芯片原始运算速度获得飞跃的,竟是电子游戏。为追求更逼真的游戏画面,90 年代初诞生了一个小型产业,但在短短二十年内迅速膨胀为全球巨头——以英伟达(NVIDIA)等公司为代表,开发出了越来越强大的图形处理器(GPU)。结果证明,这恰恰是让神经网络算法得以利用互联网规模大数据进行学习的最后一块拼图。所以,如果现场有游戏玩家,那我们要感谢你们。
2012 年之后的 AI 突破
当然,后面的故事不仅仅是 " 历史 ",更是建构未来的 " 配方 "。2012 年,在 ImageNet 挑战赛上,我的实验室率先将算法、数据和计算这三大要素首次大规模结合在一起,几乎在一夜之间就改变了我们整个领網域。那是机器首次能够理解并准确地描述海量影像——成百上千万张之多。如今我们对此已经习以为常,但在当时,这是一项前所未有的壮举,甚至有些像科幻小说里的场景。它就像推倒了第一块多米诺骨牌,随后的一系列突破接连不断,并且来得越来越快。
如今,十多年过去了,我们依然在探索这一切的意义。当初只是学术界的一个好奇心驱动的研究,如今却年复一年地吸引着商界领袖、创业者、行业分析师,甚至政治家们的热切关注。如今,十多年过去了,我们依然看不到尽头。毫无疑问,历史学家今后一定会把这段时间称作 " 真正的第一个 AI 时代 "。从任何一个你能想到的指标来看——无论是计算机专业中人工智能方向的学生人数、投资金额、新创企业数量,还是其他方面—— AI 都是一场在深度和广度上不断扩大的革命。我想在座的各位都不需要我来重复,过去几年里,人工智能又迎来了更惊人的跃进——也就是大型语言模型的出现。
这些大型语言模型把现代 AI 所依赖的三大要素——算法、数据和计算力——都推向了更极致的规模。它们采用了一种名为 "Transformer" 的新型模型架构,训练数据几乎覆盖了整个互联网,并在数量惊人的最新、最强大芯片上运行。正如我们所见,其结果是在机器能力上比过去十年来的任何一次突破都更为迅猛。现在我们几乎将 "AI 可以用自然语言流畅地跟我们对话 " 视为理所当然,AI 能回答我们提出的几乎任何领網域的问题,甚至能够生成各种复杂形式的内容——从影像、声音、音乐到视频,无所不包。ChatGPT 所取得的惊人成就就是这项创新如何影响我们日常生活的最佳例证,因其创造了用户采用速度的历史新纪录。
而且,这些能力并不只是表面上看着 " 会说话 " 而已。若你看看这张图表,会发现 AI 模型在各种基准测试(从手写识别到博士水平的科学问答)上的表现近几年都在飞速攀升;其中一些难度极高、对人类来说具有挑战性的任务,AI 的成绩简直像坐火箭一样往上蹿,几乎呈垂直上升的趋势。
大模型与近期 AI 进展
不仅如此,从能够流畅使用语言开始,大型语言模型还在朝更具 " 主动性 " 的方向发展——它们学会了将复杂任务分解成若干步骤,并逐步规划如何实现目标。人们目前将这种趋势称作 " 具备代理能力(agentic)的 AI"。而在 2025 年,这似乎正成为这场深远技术演进的新篇章。对许多用户和企业而言,这些能力已经非常实用,而它们还远不止于此,后续的发展潜力更是不可估量。
我们目前所讨论的还大多停留在 " 语言智能 " 层面,但人类之所以为人,是因为我们拥有更全面、更完整的智能。从 " 被动感知 " 到 " 主动行动 " 的新阶段正在到来。在我自己的研究领網域——涉及摄像头和机器人时,我看到 AI 正逐渐具备 " 创造、理解、推理和互動 " 这些维度,进而在数字或物理的三维空间里与人和环境相互作用。我们称之为 " 空间智能(spatialintelligence)" 和 " 具身智能(embodiedintelligence)"。
举个例子:假设你看到这样一张图片,视觉智能很容易让我们识别出里面的所有物品:那只猫、那盆植物、那张桌子,以及那杯牛奶。但是,这就代表我们感知系统的全部功能了吗?我敢打赌,其中不少人不仅仅 " 看懂了 " 那张图,还会产生 " 哎呀,快伸手把那杯牛奶抓住,别让它掉到地上打碎了!" 的冲动。这只是个小例子,但它清楚展示了 " 从观察到行动 " 之间多么巨大的差别,也说明了我认为我们如今所处的拐点:AI 正从观察者变成与我们并肩行动的 " 执行者 "。
实际上,就连我一直崇拜的图灵先生,他对于未来的预见在这一点上也可能有些 " 过于狭隘 " 或 " 向内看 " 了。因为进化本身已经一再告诉我们:智能的真正强大之处,不仅仅在于 " 思考 ",而在于让思考能驱动行动。想想看,人类的空间智能让我们得以建立灿烂的文明:从古老的金字塔到工业革命,从科学发现到艺术创作。如今,当 AI 逐渐拓展我们的空间和具身智能,这将如何进一步改变我们与周遭世界的关系?它又能帮助我们创造和发现些什么?可以预见,我们已经在打造某种面向未来的新形态了。
空间与具身智能的兴起
接下来,我想给各位展示一些 " 空间智能 " 技术迅猛发展的例子。这四个案例来自我在斯坦福的学生和与 WorldLabs 同事所做的工作:左上角是对复杂日常视频的语义标注,右上角是艺术风格迁移,左下角是通过文本提示生成视频的算法,右下角则是让任何影像都能变成一个 3D 世界。没错,你现在看到的就是梵高画作中那家法国咖啡馆,被我们用生成式 AI 模型带进了一个想象中的三维世界。
同样令人激动的还有机器人技术,也就是 " 具身 AI"。这两项出自我实验室的研究成果,将大型语言模型与视觉模型整合到机器人的学习中,使得机器人能在更开放、更贴近现实的环境下执行人类日常任务,而不仅仅是过去那种在高度编程和设定好动作序列的场景里活动。这些进展都蕴藏着巨大潜能。
不过,如果 AI 真的不再只是 " 会思考的机器 ",而是同时成为 " 会行动的机器 ",那么我们整个社会在引导这项技术发展方向时,就承担着更加紧迫而重大的责任。我认为毫不夸张地说,这一切正将我们带到一个对整个人类文明至关重要的历史关头。我们要如何应对?我想,这也正是我们这周聚在这里的主要原因。
以人为本的 AI 与三大核心价值
这个问题其实一直在指引我的研究工作。虽然我肯定,想要找到简单答案几乎不可能,但有一个主线在我多年的探索中始终贯穿,那就是我所说的 " 以人为本的 AI(Human-CenteredAI)",并且它包含三个核心价值:尊严(dignity)、能动性(agency)和社区(community)。
首先是尊严。当面对越来越强大的技术时,我们人类常常会反思:到底是什么在定义 " 我们是谁 "?如果把我们能做的所有事情都一一剥离,剩下的、那份能够自主决策并亲自行动的尊严感,依然是我们作为人的本质之一。如果 AI 这项技术能帮助我们守护并且 " 找回 " 这份尊严,尤其是能帮助到最脆弱的人群,那将是让我最激动的事情。
在这一点上,我想给各位看一个例子:如何让机器人和 AI 技术帮助那些严重瘫痪患者重新获得自主行动的可能。在这项斯坦福大学的研究中,我的学生利用完全 " 非侵入式 " 腦电波(EEG)记录获取使用者的思维信号,通过 AI 算法对这些信号进行解码并发送指令给机械手臂。最终,机械手臂在患者 " 意念 " 的控制下做出包括烹制日式寿喜烧在内的一整套烹饪动作。这便是 AI 帮助人们重新赢得自主与尊严的一个示例。
其次是能动性(agency)。我所在实验室多年来的核心理念,就是探索如何让 AI" 增强(augment)" 人类的能力,而不是取代人类。毫无疑问,每一次重大的技术变革都会对劳动力市场产生冲击,AI 也不例外。然而,我相信 AI 可以帮助我们从创造力到医疗保健、从科研到制造业,在方方面面获得新的能力。因为在许多方面,AI 的技能与人类的技能其实是互补关系。我们完全可以利用这个 " 数字或物理上的合作者 " 来强化自身能力。
过去十年里,我的实验室一直在研究 AI 如何改进医疗服务,这让我见识到许多能让 AI 帮助提高医疗质量、同时减轻医护人员负担的机会。这里给大家展示三个例子:利用搭载 AI 的智能摄像头来协助医院监督医护人员的洗手规范,辅助记录病人复健时的移动训练情况,以及跟踪手术器械的使用状况。
最后是社区(community)。过去十年里,科技也常常被诟病 " 把人们越拉越远 ",催生了各种 " 信息茧房 " 和 " 狂热话题诱饵 " 等。如今,AI 又一次走到了十字路口:一条路是让 AI 主导很多社交体验,甚至为每个人极度定制并强化他们原本的偏见;另一条路则可能帮助我们构建更健康、更强大并具有包容性的社区,比如借助 AI 教育助手,让更多人(包括孩子和成人)获得学习的机会。这里我举两个简单案例:左图是利用 AI 和虚拟现实技术,为有阅读障碍的大学生提供个性化辅助工具;右图是美国水牛城大学开发的一个 AI 专家系统,用来缓解语言治疗师(speech-languagepathologist)短缺的问题,帮助对 3 至 10 岁儿童进行早期语言干预。
AI 治理:理性、务实与多方协作
以上这些例子引出了我今天想和大家分享的最后一个想法:在这样一个关乎人类文明走向的关键时刻,我们如何通力合作,以一种理性、务实且负责任的方式去治理 AI,从而让它继续释放惊人的潜力?最起码,我们需要从以下几个方面开始:
首先,务必要基于科学而不是科幻来进行治理。无论是大街小巷还是华尔街,关于 AI 的话题中都充斥着夸张炒作和耸人听闻的描述,往往导致对 AI 的治理政策被各种误导。相反,我们应该用更科学的方法来评估和测量 AI 的实际能力与局限,从而制定更加精准、可落实的政策,并且基于现实而非幻想。
其次,我们需要采取务实而非意识形态化的态度来看待 AI 治理。AI 有望成为一种强大技术,如果使用得当,它确实能让我们更好地工作和生活。因此,我们不应该只顾在上游阻碍这项仍然非常年轻的技术进一步探索与研究;相反,我们应该更多关注它的具体应用场景,确保它能被善加利用,并对可能产生的不良后果加以防范。
最后,我们必须投入更多资源,构建更健康、更蓬勃的 AI 生态系统,让学术界、创业者、开源社群以及公共部门都能与大企业一道参与进来、发挥关键作用。如果 AI 真的要改变世界,我们就需要各行各业、社会各个群体都能在这个变革过程中发挥作用、共同塑造未来。
我在演讲开头提到过,现代 AI 之所以兴起,主要归功于算法、数据和计算力这三大要素的结合。但若这三种关键资源仅仅掌握在少数几家公司手中,AI 生态系统就会面临好奇心驱动的研究乏力、顶尖教育人才受限、开源项目缺少资源、多学科交叉探索不足等诸多问题。
75 年前,艾伦 · 图灵对未来一瞥,发出了 " 人类是否有胆量去构造能够思考的机器 " 的挑战。今天,我们已经把这个挑战推进到一个恐怕是他当年难以想象的高度。AI 时代的技术飞跃令人叹为观止,我相信,如今是时候提出一种新的挑战了:与其再问 " 我们能否创造 AI",不如问 " 我们能否创造一股向善的 AI 力量 "。
简而言之,今天我想向各位发出邀请:让我们共同努力,去构建 " 以人为本 " 的 AI。
谢谢大家。