今天小编分享的科学经验:对话Google DeepMind资深科学家:强化学习是重点,大模型时代AlphaZero依然重要,欢迎阅读。
如果说有一类游戏贯穿 AI 发展的始终,围绕其诞生的Thinking Game至今仍影响着最前沿 AI 技术的发展,那么答案很显然:
棋类游戏。
就在新加坡举办的国际象棋世界冠军赛(WCC 2024)上——就是中国国际象棋世界冠军丁立人,迎战国际象棋史上最年轻世界冠军挑战者、印度棋手古克什的比赛——尽管是人类顶尖头腦之间的对弈,比赛现场,AI 的氛围仍然浓烈。
除了 Imagen 3 和 Gemini Flash 加持的创意棋子生成:
△部分 Google 技术仅适用于出海开发者
谷歌大模型还担纲了比赛 " 解说 " 的角色—— Gemini 支持的 Chatting Chess,可以通过对话深入浅出地讲解国际象棋中各种复杂概念,帮助观众更好地读懂棋局。
△视频来源:FIDE 官方推特
新晋诺贝尔化学奖得主Demis Hassabis(戴密斯 · 哈萨比斯)也在比赛首日出现在现场,为两位棋手开棋。
△图源:FIDE youtube 官方频道
实际上,从上世纪 50 年代的 AI 跳棋,到击败棋王卡斯帕罗夫的深蓝,再到掀起人工智能第一波全球热潮的 AlphaGo ……在载入史册的历史事件背后,棋类游戏对 AI 更重要的影响或许是,启发了身在时代洪流中的那些人。
哈萨比斯是其中之一。
△图源:《The Thinking Game》宣传片
年少时,他曾是同年龄段世界排名第二的棋手。他也在自传电影《The Thinking Game》中坦言:
我实际上是通过游戏接触到人工智能的。
I actually got into AI through games.
而在 Google DeepMind,与棋类游戏、进而与 AI 深深联结的人,还不只是哈萨比斯一人。
就在 WCC 现场,量子位见到了深度参与AlphaZero项目的 Google DeepMind 资深研究科学家Nenad Toma š ev——同时也是一位国际象棋 " 狂热爱好者 "、FIDE(国际棋联)注册棋手。
从 AlphaZero 到 Gemini,从棋盘到影响人们现实生活的更多领網域,围绕 " 通用 AI",量子位也和 Nenad 更深入地聊了聊其中的 "Thinking Game"。
(以下为量子位与 Nenad 对话全文,在保留原意基础上有编辑调整。)
" 强化学习仍然非常重要 "
量子位:大模型之后,像 AlphaZero 这样的研究项目还在继续吗,是否在研究方向上有所改变?这些技术还会对我们的日常生活产生更大的影响吗?
Nenad:
当任何研究领網域出现重大变革时,你都会看到研究方向的改变,一切照旧反而不太正常。但我认为,强化学习作为 AlphaZero 体现的原则,在大语言模型领網域非常重要。
所以对强化学习的研究仍然非常活跃,是整个 AI 社区关注的重点领網域之一。
我们已经看到 AI 在各个方面产生越来越多的影响。其中一些影响对大多数人来说可能还不太明显,因为科学领網域的重大突破往往需要一段时间才能传播开来,并最终通过如医疗的改善、更好的产品等形式,影响人们的生活。
你可以把世界想象成一棵知识之树,有些问题更接近根部,而应用则在树梢。从商业角度来说,大语言模型如 Gemini,突然间降低了人们使用 AI 的门槛,这是一个非常强大的范式。但技术本身并不是突然发生的,正是因为我们在国际象棋、AlphaZero 这样的项目上的积累,启发我们走到了这里。
我想说的是,尽管 AI 在过去已经取得了许多重大进步,但如果不是 AI 的密切关注者,或者国际象棋爱好者这类直接感受到影响的人,普通人可能不会注意到这些进步,因为他们无法真正与这些系统互動,或从中获得洞见。语言模型的通用性要强得多。
人工智能领網域的长期目标是创造真正的通用人工智能系统,并且让我们能够加以利用。为了利用这些系统,我们需要一种与之互動的方式。人类使用语言相互交流,因此我们可以使用语言与基于大语言模型的 AI 交流,这使它们非常易于使用。
如果你有一个非常复杂的用户界面,必须输入一些以某种方式编码的特征,这对人类用户来说是很难用的。但如果你可以跟模型用自然语言对话,模型能够给出回应,这就是一种非常强大的范式。
这种技术的应用领網域可以是任何事情,当然也可以只是为了好玩。你可以让 AI 给你讲故事,创作诗歌,或者生成你喜欢的影像。但我们也看到其在医疗等领網域的进步。我们看到各种工作流程正在被自动化或在一定程度上实现自动化,这是一个令人兴奋的时代,让我们拭目以待未来几年会发生什么。
量子位:你认为当前哪些大模型应用领網域最具潜力?
我认为所有领網域都会受益于大模型的潜力,问题只在于我们如何使用它们,这显然需要花费一些时间和精力,去谨慎地进行构建和设计。
医疗是我非常热衷的领網域之一。我的家人们都是医生,只有我这个 " 害群之马 " 是计算机科学家(笑),他们对 AI 医疗感到害怕,但同时也充满热情。医疗是一个非常敏感、复杂的领網域,因为它关系到人们的生命和健康,你不能在这个领網域奉行硅谷 " 快速行动、打破常规 " 的思维模式。
作为研究人员,我们所做的很多工作是构建看起来可行的概念验证系统,但要真正落地实践,还需要做更多的工作,以确保其安全性,比如进行临床试验。从一个想法到一个模型,到一个早期产品,再到通过试验并获得批准,之后真正投入使用,这需要很多年时间。另外,即使 AI 已经准备就绪,也需要等待整个医疗系统做好使用它的准备。
AGI:炒作和宣传不足同时存在
量子位:有人认为大语言模型让我们更接近 AGI 了,但也有人认为 AGI 仍然是个被过分炒作的概念,你怎么看?
我刚加入 Google DeepMind 的时候,我们的规模比现在要小得多,但当时我们就是为数不多敢于说出 "AGI" 这个词,并真正畅想它的团队——我不想说错话,或许还有其他团队也是如此。
AGI 显然一直是 AI 领網域的梦想。但之前也曾出现过 AI 寒冬,当时人们认为 AGI 离我们很近,然后人们失望了,于是投资枯竭。在神经网络真正登上舞台之前,这个流程被完整地走过了一遍。
即使是在神经网络来到舞台中央,深度学习成为一种趋势之后,仍然有人一再说 AI 撞墙了,悲观情绪仍然存在。但我认为,现在有了语言模型,有了它们展现出的通用能力和性能,更多人开始相信 AGI 是可能的,AGI 正在成为一个被更广泛讨论的话题。
以前,只有一些非常乐观的技术专家会讨论 AGI,大家显然都知道 AGI 还很遥远。尽管如此,我们会设想通往这一目标的道路。举个例子,从 AlphaGo、AlphaZero 开始,到 MuZero,再到更多更通用的强化学习系统……
最终的问题是如何实现 AGI。不同的人对应该把什么放在首位有不同的看法,比如语言是否是构建 AGI 所必需的——从事机器人研究的人就可能更多地从空间智能的角度来思考 AGI。
我认为,语言发挥着巨大的作用,这也是语言模型能产生如此巨大影响的原因。人类积累了几千年的所有知识都以语言的形式表达,用语言的形式写成,包括我们所知道的关于科学和其他一切的一切。因此,一个能够很好地理解和使用语言的模型,就可以利用我们已有的所有知识。
想象一下,你创造了一个不会说话、像婴儿一样对世界一无所知的 AGI,那么它需要通过实验、试错,重新学习人类在这么长时间里学到的一切。这在原则上是可能的,它可能会自己发明一种语言等等,但这并不是最短路径或者说一个好的主意。
因此,语言模型让我们如此兴奋是有原因的。人们目前正在构建的、基于语言模型的智能体,确实具有许多 AGI 所需的特征。
但它们仍有局限性。所以说到炒作,有人完全否定 AI 正在取得的进展,也有人认为语言模型就像魔法一样能解决一切,这两种看法都不正确。大模型是机器学习模型,在某些方面表现出色,但也有一些其他缺陷。它们有很大的潜力,但仍有我们需要解决的问题。
我是一个乐观主义者,我认为在未来几年里,我们将能够解决其中的许多缺陷。
过度炒作和宣传不足同时存在,这使得有关这项技术的对话很难保持头腦清醒、脚踏实地,这取决你在和谁交谈。我认为事实总是介于两者之间。
量子位:所以在你看来,我们离 AGI 还有多远?
我认为这是不可能说清楚的。你会看到有人预测是 20 年 -50 年,这听起来很遥远;也有人说大概是 2 年,这显然是一个非常近期的预测。
目前这一切都尚未明朗,因为全球有越来越多的人在研究这些问题,每天都能看到非常多的新进展。
我个人试图紧跟所有最新进展,但仅仅是每天发布的研究论文,其数量之多,就几乎不可能让一个人完全通读,更不用说详细地了解所有内容了。
因此,我们每个人都只能了解自己所关注领網域的一部分情况,并试图根据这些片段来理解事物的发展方向。
我想说,也许是一个无聊的答案,但事实可能介于两者之间。准确预测未来是很难的,即使是短期的预测,人们也总是犯错误。所以当你试图做一个长期的预测,比如 AGI 是否会在 5 年、10 年、15 年或 20 年内实现?这是很长的一段时间,任何事情都可能发生。
我想,原则上,这将取决于 AI 社区能够产生多少创造力和灵感。灵感越多,问题就会更快得到解决;灵感不足,就需要更长时间。在某种程度上,未来掌握在我们自己手中,但我们只能拭目以待。
One More Thing
当被问到平常都会用大模型做些什么时,作为一位科学家 + 工程师,Nenad Toma š ev 的回答是 " 帮忙写代码 ",还打了个小小广告(doge):
我认为 Gemini 对于各种事情都非常有用。
无关于代码,每个人都可以用它处理自己的事情。
比如说,回到开头所说,咱们吃瓜群众在等待丁立人与古克什大战分出胜负的同时,也在新加坡比赛现场,尝试了生成自己的创意棋子:
还让 Gemini [ 1 ] 给我们解释了一下,丁立人的绰号为什么叫 " 沉默的风暴 "(Slient Storm)。
" 沉默风暴 " 这个绰号源于丁立人的棋风特点:他具备深度计算变化的能力,棋风稳健,却又充满爆发力。
他能够在长时间的相持中寻找机会,也能在关键时刻抓住对手的失误,一举获胜。
[ 1 ] 部分 Google 技术仅适用于出海开发者