今天小编分享的教育经验:红杉资本访谈:AI大模型的过去、现在与未来,谷歌前研究员Misha Laskin谈从AlphaGo到Gemini的技术飞跃,欢迎阅读。
The following article is from AI深度研究员 Author AI工作坊
作者| Misha Laskin 谷歌DeepMind前研究科学家
来源 | AI工作坊,管理智慧
咨询合作| 13699120588
文章仅代表作者本人观点,图片来源于pixabay
人工智能即使备受争议,但它确实在慢慢改变我们日常的工作和生活方式。然而,要充分发挥大型语言模型(LLMs)作为AI代理的潜力,我们仍面临诸多挑战。为此,我们可以向开发AlphaGo和顶级LLMs的研究人员学习,以找到更好的解决方案。
近日,红杉资本邀请到了谷歌DeepMind前研究科学家Misha Laskin参与访谈。Misha正通过他的新公司Reflection AI,致力于实现构建最优代理模型的愿景。他正在融合强化学习的搜索功能和LLMs,以达成这一目标。Misha的合伙人是Ioannis Antonoglou(谷歌 DeepMind的核心技术大佬),也是AlphaGo和AlphaZero的共同创造者和Gemini的RLHF(基于人类反馈的强化学习)负责人。他们正利用独到见解,为开发者培训可靠的模型,以开发强大的代理工作流程。
在访谈中,Misha分享了几个关键见解:
首先,关于大语言模型,他发现一个令人惊讶的事实:即使模型没有按照预期方式工作,实际上也往往相当接近目标。他认为,这些模型似乎只是在某些方面需要更好的基础。正是这种特性使得它们在聊天中表现出色。尽管有时不太可靠,偶尔会偏离主题,但总体来说是不错的对话伙伴。
其次,Misha强调了强化学习在提高AI系统可靠性方面的重要性。他认为,未来的AI系统需要在规划和搜索能力上有所突破。
最后,Misha做出了一个大胆的预测:我们距离实现AGI(通用人工智能)可能只有3年左右的时间。他相信,这些AI将能够完成复杂任务,显著提升人类生产力。
00:00 介绍
10:01 与Ioannis Antonoglou一起进入AI领網域
25:41 AI代理的当前状态
29:17 AlphaGo、AlphaZero和Gemini的成就和挑战
32:58 探讨LLMs缺乏固定真实奖励的问题
44:12 AI代理的任务类别
45:54 如何吸引顶尖人才
50:52 距离拥有高能力AGI还需多久
56:01 快速问答环节
访谈约12,000 字,阅读约需 30分钟
旁白: 在这一集的《训练数据》中,我们邀请到了Reflection AI的CEO及联合创始人Misha Laskin加入我们。Misha曾是DeepMind的研究科学家,他的联合创始人Ioannis Antonoglou则是AlphaGo和RHF在Gemini项目的主要开发者。
1、 与Ioannis Antonoglou一起进入AI领網域
主持人: Misha,首先,我们很想了解更多关于你的个人背景。你在俄罗斯出生,一岁时移居以色列,然后在九岁时移居美国华盛顿州。你的父母一直在推动科技和研究领網域,我认为这激发了你对推进技术前沿和进入人工智能世界的热情。你能分享一下是什么激励你进入这个领網域,以及在你的童年和成年期间有哪些事情给你带来了灵感吗?
Misha Laskin: 当然可以。你知道,当我父母从俄罗斯移民到以色列时,是苏联解体时期。他们几乎是一无所有地来到以色列,只带着300美元,而这些钱在他们刚一落地就被偷了,因为他们付了一个公寓的定金,然后那个公寓就消失了,我甚至不知道那里是否真有一个公寓。他们不会说希伯来语,于是决定在耶路撒冷希伯来大学追求化学博士学位。这并不是因为他们有什么特别的学术热情,而是因为以色列为俄罗斯移民提供了进一步教育的奖学金。我问过我的父母这件事,他们是如何逐渐爱上他们的专业的,因为他们在其中变得出色。我从他们那里学到的可能是,他们并不是特别热衷于化学,但随着他们对它的了解和深入,他们成了这个领網域的大师,这对我影响很大。
移居到美国后,我的父母承诺我们搬到了一个美丽的州——华盛顿州,那里有山脉。我记得坐飞机时非常激动,我甚至在以色列向所有朋友炫耀。然而,飞机最终降落在了一个荒凉的地方,我问我的父母:"山在哪里?"他们说:"你在飞机上看到了山。"这个地方有点无聊,叫三联市(Tri-Cities),它的存在是因为曼哈顿计划,这里是钚富集的地点,名为汉福德核电站,与洛斯阿拉莫斯相似,都是上世纪40年代为特定项目建立的城市,地处偏僻。那里除了历史,没什么可做的。我在那里的生活让我有很多自由时间,最终让我对科学产生了兴趣,最开始是物理学。当我厌倦了电子游戏后,我找到了一些关于物理学的费曼讲座,费曼的讲解方式非常生动,即使是数学不太好的我也能理解世界的基本运作方式。
主持人: 这真是一段很有启发性的经历,谢谢你分享这些个人的故事。我们继续讨论你在Reflection AI的工作以及你如何看待AI未来的发展。
Misha Laskin: 这可能是最激励我的事情。我对理解事物如何在根本层面上运作产生了极大的兴趣,我想要处理那些根节点问题。就像我读到的那些例子,比如晶体管的发明,是由理论物理学家William Shockley发明的,或者GPS的工作原理,你需要进行相对论的计算,这源自于爱因斯坦的狭义相对论。我想要从事这样的工作,这就是为什么我选择了物理学。我在这个领網域接受了教育,获得了博士学位。我认为可能关键的信息是,你不仅要处理根节点问题,你要处理你这个时代的根节点问题。你要从事那些现在可以解锁的事情。毫不奇怪,当你作为一名物理学家接受训练时,你会处理一些非常有趣的问题,学习大约100年前人们是如何思考物理的。100年前,物理是我们时代的根节点问题。这就是为什么我决定不从事物理学作为我的职业生涯。我做了一个180度的转变,想要做一些非常实际的事情,所以我开始了一家初创公司。当我在那里工作时,我注意到深度学习作为一个领網域正在起飞,特别是当AlphaGo出现时,它给我留下了深刻的印象。AlphaGo的著名走法,第37步,看起来像是一个坏棋,但事实证明,10步之后,这实际上是将AlphaGo置于赢得比赛的最佳位置的最优走法。你可以感觉到这不仅仅是暴力破解,这个系统能够找到人们以前没有想到的创造性解决方案。这让我非常真切地感觉到,解决代理问题,这是第一个真正的大规模超人类代理。这就是为什么我进入AI领網域,从第一天起就致力于构建代理。
主持人: 你的职业道路非线性,从物理学到AI,这种转变听起来非常引人入胜。你是如何找到自己的方向并最终进入这个领網域的?
Misha Laskin: 是的,那是一条非线性的道路。我当时是一个局外人,那时候这个领網域也很有竞争力。OpenAI在那个时候发布了一些研究请求,大约是2018或2019年。这些研究请求是他们希望其他人来研究的问题。当我看到这个列表时,这些问题已经有些过时了,我不认为他们真的还关心这些问题,但这给了我一些具体的问题可以去研究。我开始在其中一个问题上取得进展,我感觉我在取得进展,虽然我不知道我实际上取得了多少进展。我开始不断地向OpenAI的几位研究科学家发邮件提问,这实际上是在冷联系他们,直到我可能变得太烦人了,他们开始,嗯,我想说他们的回应相当优雅。我在那里建立了一些关系,其中一个人介绍我认识了Pieter Abbeel,他是伯克利的一位大牛,我认为他是我们这个时代最伟大的研究人员之一,专长在强化学习和机器人领網域,但他的实验室几乎涉及一切,包括一些最有影响力的生成模型研究。其中一篇关键的扩散模型论文就出自他们手中。老实说,我很幸运,他愿意给我一个机会,将我带入了他的团队。真的,Pieter Abbeel教授没有任何理由这么做,当我站在另一边看待加入团队的申请者时,真的没有任何理由去接受一个未经审查的人。但他冒了这个险,我认为这是我进入这个领網域的第一步。
主持人: 你和你的联合创始人Ioannis Antonoglou在DeepMind和Google进行了一些令人难以置信的项目,也许你可以给这里的朋友们介绍一下你们参与的一些项目,比如Gemini和AlphaGo,这些项目的关键学习点是什么,以及它们是如何推动你们的思考直到今天的?
Misha Laskin: 是的,Giannis是我进入AI领網域的主要原因。他是AlphaGo的关键工程师之一,他当时在首尔,参与了与李世石的比赛。在AlphaGo之前,他还参与了一篇名为深度Q网络(DQN)的论文,这实际上是深度学习时代的第一款成功的代理,它能够玩Atari视频游戏,这开启了深度强化学习领網域的整个研究。这是一个证明点,说明你可以从原始感官输入中学习如何在环境中可靠地行动,这在当时是完全不明确的。Ioannis还参与了AlphaGo及其后续的系列工作,如AlphaZero和一篇名为MuZero的论文。我认为这真正展示了你可以将这个想法推进多远,它与我们今天的大型语言模型相比,Alpha模型实际上非常小,但在这一点上却非常聪明。至少对我来说,AlphaGo的关键教训是在Rich Sutton的一篇著名论文中得到了概括,他是强化学习研究的一位重要人物。在那篇论文中,他提出了"苦涩的教训"的想法,基本上是说,如果你正在构建基于你自己理解的系统,这些系统可能会被那些自我学习的系统取代,或者是那些以可扩展方式利用计算能力的系统。
他认为,利用计算的两种方式一种是通过学习,即训练,就像我们今天认为的语言模型,它们主要通过在互联网上训练来利用计算。另一种方式是搜索,利用计算来展开一系列计划,然后选择最好的一个。AlphaGo实际上是这两个想法的结合。我仍然认为这是AI中最深刻的想法,将学习和搜索结合起来是以可扩展方式利用计算的最佳方式,这些因素共同产生了在围棋上超人类的代理。AlphaGo的问题是它只擅长一件事,我记得当时在该领網域,感觉有些困顿,因为深度强化学习领網域的目标是构建通用代理,超人类的通用代理,而我们达到的是超人类的非常狭窄的代理,并且没有明确的路径来使它们变得通用,因为它们的数据效率太低了。如果训练一个任务需要60亿步骤,那么你从哪里获取训练其他任务的数据呢?这是语言模型时代的一大突破,你可以将互联网上的所有数据视为许多任务的集合,比如Wikipedia是描述一些历史事件的任务,Stack Overflow是编码问题的问答任务,你可以将互联网视为一个庞大的多任务数据集,这是非常有趣的。
我们从语言模型中获得通用性的原因是,它基本上是一个在大量任务上训练的系统。这些任务并不是特别有指向性,也没有可靠性或代理性的概念。因此,从这种系统中产生的语言模型并不是特别好的代理,它们当然非常了不起,可以做很多不可思议的事情,但代理性中的一个基本问题是你需要多步思考,并且每一步都有一定的错误率,这种错误会累积,这就是所谓的错误累积。这意味着如果你在第一步就有一定百分比的错误机会,那么这个错误会在几步之内迅速累积,以至于在一个有意义的任务上变得不可靠。我认为现在缺失的关键是,我们有的语言模型是利用学习的系统,它们还不是以可扩展方式利用搜索或规划的系统。
主持人: 这真是个有趣的观点,那么反射AI的灵感和你们的长期愿景是什么?你能分享一下最初的灵感和你们正在追求的问题空间吗?
Misha Laskin: 最初的灵感很大程度上来自于我和Ioannis在Gemini项目上的紧密合作。Ioannis领导了RF工作,而我负责奖励模型的训练,这是RF中的一个关键部分。我们和其他人一起工作的是这些语言模型,在训练后期你会对其进行聊天对齐,使它们适合于与用户进行良好的互動体验。通过像ChatGPT或现在被命名为Gemini的Bard,这些预训练的语言模型非常适应性强,通过正确的数据组合,你可以使它们适应成高度互动的聊天机器人。我们从中获得的关键洞见是,没有特别针对聊天做的事情,你只是在收集聊天数据。但如果你为另一种能力收集数据,你也能解锁那个能力。当然,这不是那么简单,很多事情都在改变。比如说,聊天是主观的,所以你训练的算法与你会为具有明确目标的任务训练的算法不同。还有各种问题,但主要的是,我们认为架构和模型是有效的,很多我认为是瓶颈的东西已经被计算能力和规模冲刷掉了。像我之前认为需要研究突破的长上下文长度,现在所有参与者都发布了相对于我们一两年前认为可能的模型,具有极端的长上下文长度。这些方法在训练这些东西和在训练后对齐它们方面都相当稳定,这确实是一个数据问题,也是一个如何在这些对象上启用规划和搜索的问题。我们认为如果我们自己来做,我们可以更快地解决这个问题,我们只是想要非常迅速地解决它。所以你描述的代理,无论是对你和Ioannis作为研究者,还是对Reflection来说,都是一种梦想。
2、 AI代理的当前状态
主持人: 因为现在"代理"成了2024年的热门词汇,每个人都开始自称是代理,这个词开始有点失去意义了。我们能否暂停一下,因为这个词现在被过度使用了吗?
Misha Laskin: 这是一个有趣的问题,因为"代理"这个术语在研究社区已经流传了一段时间。从AI的早期开始,我主要在深度学习时代的背景下思考代理的概念,从DQN开始。代理的定义相当简单,就是能够独立推理并采取必要的多个步骤来完成其被指定的目标的AI系统。目标的指定方式随时间而变化,在深度强化学习时代,目标通常通过奖励函数指定,比如对于AlphaGo,目标是赢得围棋比赛。人们通常将代理视为优化奖励函数的实体,但即使在语言模型出现之前,也有研究以目标为条件的代理,无论是在机器人学还是在视频游戏中,你可以为机器人設定一个目标,比如给它一个苹果被移动的影像,并要求它复现那个影像,它需要在世界中行动,拾起苹果并移动它以达到目标。简而言之,代理就是需要在环境中行动以实现某些目标的AI系统。
主持人: 考虑到最近在代理领網域,特别是编码代理领網域的活动,如果我们把目标设定为"为我创建一个计算器应用",代理需要去完成这个任务。在你看来,这算是代理的推理吗?扩展这种能力是否能带我们进入所谓的"应许之地",或者你认为我们需要采取不同的方法,可能更依赖强化学习或其他技术来实现这一目标?因为我觉得这些代理的任务完成率还在134%左右,我很好奇我们如何能将它们提高到99%。
Misha Laskin: 这些确实是代理,只是在能力范围内可能还未达到高可靠性水平。大多数人今天在语言模型的背景下考虑代理时,会想到的是被提示的代理,你可以通过提示模型或設定一系列的提示来让它完成任务,这使任何人都能将一个语言模型从零开始使其工作。我认为这很有趣,但它只能走这么远。这实际上是"苦涩教训"的一个例子,因为提示事物并将其引导到特定方向,正是我们在模型中嵌入的启发式方法,试图实现更高的智能。自深度学习时代以来,代理领網域的每一个重大进展都显示,通过学习和搜索,许多这些方法都被淘汰了。提示的目的是指定目标,你总是需要提示来告诉代理要做什么,但一旦你开始偏离这一点,提示的目的实际上是将代理置于轨道上,你就开始为它思考了,你告诉它"现在去这里做这件事"。我认为这种做法将会消失。我认为这是当今发生的局部现象,未来的系统不会这样。关键是思考和规划需要在AI系统中发生,而不是在提示层,这样才能避免达到瓶颈。
我认为你希望尽可能多地将任务交给AI系统。这些语言模型从未被训练用于代理,它们是为聊天互动和预测互联网上的事情而训练的,所以能够通过提示获得某种程度上有效的结果几乎是个奇迹。但有趣的是,一旦你能够通过提示达到某种程度的效果,这实际上是开始使用强化学习算法的最佳起点。强化学习算法所做的只是强化良好行为并尽可能减少不良行为。如果你有一个代理什么也不做,那么就没有良好的行为可以增强,因此算法不起作用。这被称为稀疏奖励问题,如果你没有达到你的奖励,即没有完成你的任务,那么就没有学习的来源。但如果你通过提示使代理达到某种工作状态,比如说它的完成率是133%,那么你就有了一个最小程度上有能力的基础,可以加强真正良好的行为。
那么挑战变成了数据挑战,你从哪里获得用于训练的提示集合?你在哪个环境中运行这些算法?我猜Susan确实带有一个环境,但对于许多问题,你需要考虑这个问题。然后,最大的挑战可能是如何以可扩展的方式验证事情是否正确完成。如果你能解决这些问题,比如任务从何而来(通常这是通过产品实现的,这是可解的)、你在哪个环境中运行它们,使用什么算法,但真正关键的是你在哪个环境中运行它们,以及如何验证事情是否正确完成。
主持人: 我认为这是实现代理的一个方案,这触及到了今天AI代理领網域问题空间的核心。为了稍微设定一下Reflection正在追求的问题背景,你认为AI代理市场的当前状态如何?我认为许多人假设我们能够用现有模型做的比实际上的能力更多。当前关于AI代理的尝试失败的原因是什么?
Misha Laskin: 当前关于AI代理的尝试失败的原因是什么?一种分类或定义通用代理的方式,或许我会使用"通用代理"这个术语,因为我将"通用性"用于广度。一个通用代理需要能够处理广泛的事务,可以处理多种输入,但它也需要在任务复杂性方面具有深度。比如说,AlphaGo可能是我们构建过的最深入的代理,它只能做一件事,因此并不那么有用,它可以下围棋,但不能玩井字棋。而当前的语言模型系统,如Gemini、Claude、ChatGPT和GPT系列模型,则倾向于另一个方向,它们非常广泛,但在深度方面并不非常有能力。它们在广泛方面极其令人印象深刻和有能力,我认为这实际上是一种奇迹。
正如我之前说的,我们感觉我们还没有解决通用性的问题,然后这些模型出现了,但现在我们处于光谱的另一端。我们现在拥有的是更多关于广度的进展。尤其是最新一代的模型,比如GPT4.0和最新的Gemini家族模型,它们在多模态方面进行了创新,它们可以在同一基础层理解不同的模态,而无需将一种模态转换成语言。我称这为广度。但在这个过程中,没有哪些东西是为深度训练的。互联网并没有真正的数据来描述如何顺序地思考。人们尝试解决这个问题的方法是使用可能具有这种结构的数据集,并希望它能推广,比如数学数据集、编程数据集,通常指的是解决数学问题的推理。
这还没有真正直面问题。我认为我们需要的方法是,让我们假设有一个通用的方法,你可以针对任何任务类别采取一系列提示,用于你的训练数据,并使语言模型在这些任务上迭代地变得更加有能力。我认为有人需要解决深度问题,整个领網域或大型实验室一直在努力解决广度问题,这当然很棒,也有一个很大的市场,解锁了很多非常有用的东西,但同样,有人需要解决深度问题。
3、AlphaGo、AlphaZero和Gemini的成就和挑战
主持人: 这非常好地引入了你和 Loannis从AlphaGo、Alpha Zero和Gemini的工作中获得的独特见解,以及训练后和数据的重要性。你能分享更多关于这些经验如何塑造你独特视角的信息吗?这些视角如何帮助我们解锁更多潜能?
Misha Laskin: 关于语言模型,我发现的一个非常惊讶的事实是,它们有时候即使没有按照你希望的方式工作,实际上也非常接近。它们感觉像是需要在某事上有更好的基础。我认为这就是它们在聊天中表现良好的见解来源。你可以和它们玩耍,它们是不太可靠的,有时会偏离轨道,但几乎是不错的聊天伙伴。
那么,如何将预训练的语言模型变成可靠的聊天机器人呢?在这里的可靠性是通过人类偏好来衡量的,即与这个聊天机器人互动的人是否比其他聊天机器人或其以前的版本更喜欢它。如果当前版本比之前的几个版本更受欢迎,那么你就知道你取得了进展,这种进展是通过为它收集数据实现的。就是收集用户输入到聊天框的查询,模型提供的输出,以及这些输出之间有效排名的数据,从而推动模型更倾向于更受欢迎的输出。
当我们谈到排名时,这个排名从哪里来?它来自于人类。要么是人类标注者,要么是嵌入到产品中的。你有时可能会在ChatGPT中看到"点赞"或"狂踩",它是在收集你的反馈,了解你的偏好。这些数据被用来使模型与用户偏好对齐。这是一个非常通用的算法,也是一个强化学习算法,因此被称为"基于人类反馈的强化学习"。你只是在强化人类反馈表达偏好的内容。没有理由相信,这种方法不能用于使代理更可靠。还有一系列其他问题需要解决。
这就是为什么这个问题如此困难,因为一旦你进入代理领網域,就不仅仅是语言输出,还有它们互动的工具,你知道的,假设你想发送电子邮件或在集成开发环境中工作,或者代理在环境中做任何事情都需要工具,需要环境,而每个部署代理的人都在不同的环境中部署代理。如你所说,融入不同环境并在其上引入代理能力确实是一项挑战。这就是为什么从事这类工作有些困难,你需要小心处理环境以及你如何构建它,因为你不想过度适应某个特定环境。从概念上讲,这与为聊天对齐模型非常相似,只是途中需要解决更多的集成挑战。
4、探讨LLMs缺乏固定真实奖励的问题
主持人: 既然你视AlphaGo为构建真正有能力的代理的顶峰,我想象你正在尝试在大型语言模型(LLMs)中引入一个类似AlphaGo的时刻。你认为游戏玩法与LLMs之间的主要区别是什么?在我看来,游戏有一个非常明确的奖励函数,可以进行自我对弈,但是将人类反馈的强化学习应用于LLMs是否足够呢?
Misha Laskin: 我认为你提到的没有确切奖励的问题可能是关键问题之一。我们从上一代强化学习研究中学到的是,如果你有一个确切的奖励,你几乎可以保证成功。这已经在许多非常令人印象深刻的项目中得到了证明,这些项目的规模前所未有。除了AlphaGo外,还有OpenAI的DOTA 5或者AlphaStar。例如,AlphaStar和DOTA 5可能更加小众,因为你需要玩这些游戏才能理解,但作为一个前星际争霸玩家,我对AlphaStar的策略发现感到震惊,就像比我们更聪明的外星人来到地球玩这个游戏并完全超越了我们。
一个确切的奖励对于确保行为至关重要。现在,对于人类偏好和代理而言,我们面临的是非常通用的对象,我们没有确切的奖励来判断某事是否完成,比如编码任务的确切奖励是什么?它可能通过一些单元测试,但仍然可能是错误的。这是一个非常困难的问题,我认为这是代理的根本问题。还有其他问题,但这是一个大问题。对于聊天来说,你如何绕过这个问题?再次通过RHF(来自人类反馈的强化学习)。你训练奖励模型,这是一个预测某事是否正确完成的语言模型。
这种方式工作得很好,但挑战在于,当没有确切的真实情况时,你拥有这种可能出错的噪声模型,代理很快就足够聪明,找到奖励模型中的漏洞并加以利用。举一个具体例子,在聊天中,假设你注意到你的聊天机器人输出了一些可能有害的内容,或者有些话题你不希望它讨论,因为它们可能很敏感。所以你在数据混合中加入了一些数据,例如聊天机器人说"抱歉,作为一个语言模型,我无法回答这个问题"。如果你现在针对这个训练了一个奖励模型,并且在你的数据混合中只放入了显示这种情况的数据点,而没有放入聊天机器人实际上回答了敏感问题的实例,那么奖励模型可能会认为,只要不回答用户的查询就是好事,因为它只看到了那种情况的积极用例。当你针对这个进行训练时,语言模型的策略最终会足够聪明,发现这个奖励模型在我不回答问题时给我高分,它可能会退化成一个根本不回答你问题的语言模型。这就是为什么这非常微妙且困难的原因。我敢肯定很多与ChatGPT或Gemini等模型互动的用户有时会发现它们有时突然不回答问题,或者在某些方面变得稍差,或者在某些方式上表现出政治偏见,我认为这很多都是数据的人工效应,但这些人工效应通过不良的奖励函数被放大了。
主持人: 关于大模型训练流程,或者说大AI系统训练流程,分为预训练和后训练两个阶段。预训练部分似乎已经在很大程度上得到了解决,我们现在处于规模扩大的阶段,技术也基本成熟。而后训练部分仍然处于一种研究阶段,人们还在探索哪些技术可以普遍适用。
Misha Laskin: 从理想状态来看,预训练的责任是获取基本技能,你可以把它看作是获取语言模型从零到良好的能力的过程,这就是为什么它如此强大。而后训练的责任是加固良好行为,从聊天的角度来看,你在加固模型沿着聊天轴的良好行为。这实际上非常有趣,因为训练AlphaGo和Gemini的高层次配方实际上是相同的,你有模仿学习阶段,然后是强化学习阶段。
强化学习阶段在AlphaGo中要复杂得多,这回到了奖励模型的问题。如果你有一个相当嘈杂且易于被利用的奖励模型,那么你能做的就只有那么多,在策略变得足够聪明并找到欺骗它的方法之前。即使你使用最复杂的RL算法,比如AlphaGo中的蒙特卡洛搜索,也可能不那么有效,因为它可能会陷入一种退化状态,策略会在它能进行任何有趣的搜索之前就破解奖励模型。
例如,如果你在下棋时考虑多步前的行动,但是你在每一步的判断都很糟糕,那么计划十步前就没有意义了。而我们今天在RHF方面的情况就是这样。有一篇非常有趣但被低估的论文,名为《奖励模型过度优化的扩展定律》,这是一篇来自OpenAI的研究这种现象的论文。这篇论文有许多有趣的点,它表明这种现象在所有规模和所有尝试过的算法中都存在。
关于你提到的AlphaZero的结果,如果你遵循它的成果,我们可能根本不需要预训练,这是对这一发现的合理结论吗?这真的是一个值得探讨的问题,因为它挑战了我们对预训练和后训练阶段的常规理解,提示我们重新思考这些阶段的必要性和效果。至少在我的思维模型中,AlphaGo的模仿学习部分是必要的,更多是从实用性角度考虑的。当DeepMind从AlphaGo过渡到AlphaStar时,并没有发布类似"AlphaStar Zero"的模型,AlphaStar的很大一部分是跨多个游戏的模仿学习。我认为AlphaGo处于一种特殊的位置,你不仅有一个零和游戏,而且可以相对快速地达到游戏的终点,所以你可以很快得到关于你的行动是否正确的反馈。
所以,如果没有明确的奖励函数,将这种方法普遍应用是一个过于不受约束的问题。我认为在实践中,如果我们对所有事物都有明确的奖励函数,AlphaZero的方法将普遍适用,但因为我们没有,所以需要进行模仿学习,这几乎是一种实际需要,我们需要某种方式进入游戏。
主持人: 你之前描述了从技术角度以及产品分发和用户接触角度,将代理置于其环境中的重要性。对用户来说,首次与最强大的代理互动时,选择正确的任务类别非常重要。你腦海中有哪些任务类别?你认为用户可以如何将这些代理应用于他们的日常工作流程?
Misha Laskin: 如果你想在深度轴上取得进展,你可以首先尝试像AlphaGo那样的困难任务,或者你可以以一种同心的方式扩展你能够处理的任务的复杂性。我们专注于以这种同心方式启用深度,并且非常关注拥有一个通用配方,这个配方不会继承某些任务的特定启发式方法。从研究的角度来看,我们正在构建这种通用配方。现在你必须将这些配方实体化以展示进展,至少对我们来说,展示不同环境的多样性非常重要。因此,我们正在考虑多种类型的代理,如网页代理、编码代理和作業系統计算机代理。
5、如何吸引顶尖AI人才
主持人: 对我们来说重要的是展示你可以拥有一个通用的启用代理的配方。稍微换个话题,你已经吸引了一个出色的团队,你还希望招募哪些人加入你的团队?
Misha Laskin: 我们正在寻找能够在这种多样和创新环境中贡献力量的人才,尤其是那些对开发和应用高级AI系统具有深刻理解和经验的专家。我们很幸运能够从顶尖的AI实验室吸引到一些人才。我认为这很大程度上归功于 Loannis和我所做的工作,尤其是 Loannis的声誉。我曾看过迈克尔·乔丹的纪录片,乔丹之所以如此高效,很大一部分是因为他个人在比赛中的出色表现,可能是最佳的。他真正激励了他的团队成员尽可能地提升到他的水平,即使他们可能达不到那样的高度。Loannis对人们也有这种影响,我在Gemini项目上与他密切合作,他对我也有这种影响。我不知道我是否达到了他的水平,但我渴望达到,并且通过这一过程,我明显成为了一个更好的工程师和研究人员。我认为这是很大的吸引力,你可以从他那里学到很多。
我们目前主要在寻找的是,我们没有急于招聘,而是更加有方法地招聘。我们确实对其他研究人员和工程师加入我们的使命感兴趣。加入我们的每个人的共同点是,我们都非常渴望成功。Loannis和我本可以留在DeepMind继续推动代理项目,但我们决定以自己的方式做是因为我们认为我们可以更快地推进这个目标。这种紧迫感部分是由于我们真正相信,我们距离AG(通用人工智能)大约只有三年的时间。
主持人: 你所说的"主任务"与"支线任务"的框架,以及你和团队成员展现出的零自满和正常的急迫感,都非常让人欣赏。我要强调的另一件事是,你描述 Loannis激励和激励他人的声誉同样适用于你和 Loannis在DeepMind的所有人。所以,三年内我可能就拥有了一个能为我写备忘录的代理,希望如此。我有一个迫切的问题:这是几十年后的事情吗?还是几个月后的事情?听起来你们更接近于几个月或几年内的时间框架。
Misha Laskin: 是的,确实让人有些惊讶,这个领網域发展的速度之快令人担忧。在深度和可靠性方面,可靠性也等同于安全性。我们希望这些系统是安全的。最近有一篇来自Anthropic的论文讨论了机械解释性,这一整个研究领網域非常有趣,并且开始展示出实际的应用价值,比如在模型中找到特定的"说谎"神经元,或者可以被抑制的神经元。对我来说,安全性就是可靠性。如果一个系统在你的电腦上乱来,破坏各种东西,那么这是一个不安全的系统。或许这是一种功利主义的安全观——你只是希望这些系统能正常工作,按照你的意图行事。
主持人: 我还有几年时间找到除了写备忘录之外的其他爱好——或者也许你将拥有一支AI实习生军团,为你完成所有的研究工作。
Misha Laskin: 从两个角度来看这个问题。一是我们从事这项工作是因为这是我们这个时代的科学根本问题。我们是科学家,这就是为什么我们如此感兴趣并致力于此。在某个世界中,你有机会成为有史以来最激动人心的科学冒险之一的一部分,并且实现了建立通用代理的目标——你有高度安全可靠的数字代理在你的电腦上运行,完成那些你不想做的繁琐工作。我不认为人类减少工作时间的需要或生产力的需求会改变,我只是认为每个人的生产能力和影响世界的能力将大幅提升。作为一名研究者,有很多事情我需要花时间去做,而一个更智能的AI可以帮助我更快地实现我们的目标。这有点循环,但如果我们接近一个数字化的通用人工智能,我们会更快地解决这个问题。
另一个角度是从用户的角度看,我们在计算机上做的很多事情,可以认为计算机是我们作为人类接触到的第一个数字工具,就像过去的锤子、凿子和镰刀一样。我们正在向超越这些的层面迈进,不是你必须学习如何精确使用所有这些工具并花费所有时间,这实际上是从实现个人目标中抽走了时间。你将拥有极其有用的AI代理,帮助你实现任何目标。这非常令人兴奋,因为我们个人目标的雄心正不断增长,比如一个軟體工程师今天可以借助这些工具完成更多工作,但这只是开始。我认为我们将能够为自己设定更加雄心勃勃的目标,因为我们可以将很多必要的工作解除安裝给系统,这些都是我非常期待的事情。
6、对AI领網域最激动的事情
主持人: 在接下来的一年、五年和十年中,我对AI领網域最激动的事情之是什么?
Misha Laskin: 我想是最近这篇关于机械解释性的工作。这意味着这些模型大多是黑盒子,目前还不清楚如何像研究神经科学一样研究它们——如果你把它们想象成大腦的话。这似乎是一个非常有趣的研究方向,现在开始显示出在非玩具环境下的有效迹象。也许可以说,语言模型的"神经科学"是一个非常有趣的AI领網域。更广泛地说,如果我在学术界,我可能会非常关注AI的科学,这不仅仅是AI的神经科学,还包括可以从理论和实证的角度探究的各种问题,比如这些模型的扩展定律是如何确定的,以及如何改变数据混合。
我们现在基本上处于相当于19世纪后期的物理学阶段,那时电力刚被发现,没人知道它是如何或为什么工作的。那时有很多实证结果,但没有相应的理论来解释这些现象,这就意味着它们并不是很被理解。然后,一系列非常简单的理论模型被开发出来,用来理解这些现象,这最终催生了下一波的实证突破。所以,我认为AI的科学目前处于这样的状态,我非常期待看到它的发展方向。
主持人: 在AI世界中,你最钦佩的人是谁?
Misha Laskin: 当被问及这个问题时,很多人可能会提到一些名字,但我想强调一下我基于与他们合作的经历而钦佩的人,因为通过我在AI领網域的这些年,有几位这样的人给我留下了深刻印象。其中之一肯定是Pieter Abbeel。我从未见过任何人像Peter那样高效地操作。自从遇见他以来,我从他那里学到的不仅仅是研究作为一种创造性追求的思考方式,更多的是关于操作上的能力和效率。他的实验室做了很多创造性的工作,但我认为这些工作都非常艰难,需要极大的专注和推动力。他管理他的实验室就像是我经历过的最严格的训练营,这极大地帮助了所有项目的聚焦。所以,无论是从他所做的工作(显然是跨领網域的卓越工作,包括在强化学习、无监督学习和生成模型方面的突破性工作),还是从他对才能的识别和启用方面,我都非常钦佩他。
像David Silver这样的人,他不仅是Deep Q-Network论文的第一作者,还是A2C和A3C两篇定义了深度强化学习的算法论文的核心人物。他的优势在于他非常善良和以人为本,尽管成就卓越却十分谦逊。至于 Loannis,他确实有种"迈克尔·乔丹效应",和他一起工作,你会不由自主地希望做到最好。我们早期的团队虽小,但大家受到他的启发,非常努力。
7、对于初创AI公司的创始人的建议
主持人: 非常感谢你分享这些。听你谈论每个人真的很有趣。关于Peter Abel,我经常告诉他,他在过去几年里实际上创造了一个影响深远的团队,这可能是因为他教会了他们许多东西,同时也自然地吸引了创造性思维者和独立思考者加入他的实验室。他还教会了他们如何严格管理实验室并极其专注地工作,所以我确信这并非偶然。最后一个问题:对于正在建立AI公司的创始人,你有什么建议?你现在刚开始你的旅程,我相信你也向其他人征求了很多建议,你会将什么建议传递给下一代?
Misha Laskin: 我认为几年后我可能会更有资格回答这个问题,那时的答案可能更有意义。但我会提供一条我在之前的创业经历中经历过的建议,这与AI无关——就是致力于对你真正重要的事情。这种重要性几乎独立于你周围发生的事情,即使在情况不佳时,这件事仍然对你有趣。这就是一种围绕这个问题的根本驱动力,与发生的其他一切无关,它本身就非常吸引你。
我之所以这么说,是因为AI是如此有趣、有能力和酷炫的技术,很容易被它的魅力所吸引,想要看看我们能做些什么。但如果没有一种强烈的内在指南针,你最终可能会发现自己处于困境。
主持人: 就我以前的经历而言,如果有可能的话,我会做一些不同的事情,并建议也这样做。我喜欢的一句话是"在自己的体育场上玩耍,不要被别人体育场的光鲜亮丽分心"。你需要那种内在的驱动力和对问题的痴迷,以帮助你度过所有困难时期。
Misha Laskin: 是的,如果你真的关心某个问题,你也会关心你为其解决问题的客户。拥有你不关心的客户是一个糟糕的处境。所以,这种关心必须是自然而然的,这是一种个人的感觉,你很难强迫自己关心某些事情,如果这些事情与你内心的某些东西不一致的话。
主持人: Misha,非常感谢你今天的加入。你正在处理我们时代最雄心勃勃的问题,我喜欢你将其描述为我们时代的根节点问题。很明显,你和Yannis的经验使你们成为在这一领網域最优秀的团队。无论是从RLF的角度,还是从奖励模型训练的角度,你们俩在AlphaGo、Alpha Zero和Gemini上的见解和经历,我们都非常期待Reflection的未来。END
华夏基石·AI启航论坛
诚邀您的参与,扫码即可获取活动详情:
喜欢这篇文章
请为我点赞和在看
>