今天小编分享的科学经验:德扑AI之父转投OpenAI!Science封面研究大牛,顶会拿到手软,欢迎阅读。
OpenAI 被爆最新人事动向:
前 FAIR(Meta)研究科学家 Noam Brown 加盟!
这位大佬来头可不小,研究曾登上《Science》封面。
不仅如此,他此前的研究成果可谓相当炸裂,可以用一句话来总结:
NeurIPS、AAAI 等众多顶会论文奖拿到手软!
就是这样一位传奇人物,加入 OpenAI 后他对自己要做的事放出狠话:
如果成功,我们或许会看到比 GPT-4 好 1000 倍的大语言模型。
所以,他之前拿下过什么成就,下一步又究竟要做什么?
德扑 AI 之父!拿奖拿到手软
Noam Brown 与 AI 结缘,要从他的一篇博士论文说起。
三年前,Noam Brown 从卡内基梅隆大学(CMU)以 230 页超硬核论文完成答辩,拿下计算机科学博士学位。
这篇论文,写的正是 Noam Brown 与其 CMU 导师 Tuomas Sandholm 一起创建的 AI 系统——称霸德州扑克赛场的赌神 Libratus(冷扑大师)和 Pluribus。
与围棋、国际象棋、跳棋等棋类游戏不同,这些游戏属于完美信息博弈,对战的双方,清楚每一时刻局面上的全部情况。
而相比之下,德州扑克存在大量的隐藏信息,包括:对手持有什么牌,对手是否在诈唬?
这也就决定了德扑的一个主要特征——不完美博弈。
为此,Noam Brown 创建的 Libratus 将三个负责开发扑克策略、实时优化策略、比赛结束后审查牌局的 AI 系统结合了起来。
2017 年年初,在宾夕法尼亚州匹兹堡的 Rivers 赌场上,4 名顶尖人类职业玩家和 Libratus 在为期 20 天的赛程里面对战 12 万手,Libratus 一路以碾压的态势豪取胜利,赢得 176 万美元 ( 虚拟货币 ) 。
和 AlphaGo 不同,在人机大战之前 Libratus 没有研究过人类如何打德州扑克,也没有和人类职业玩家有过交手。
但 Libratus 对战四位人类高手还是拿下了大比分优势:14.7 个大盲注 / 百手 ( 14.7bb/h ) 。
" 一般领先 5-10bb/h 就肯定是赢了 ",Noam Brown 表示。
德扑 AI 不仅取得了这场比赛的胜利,Pluribus 还在那年登顶了《Science》封面。
与此相关的研究,目前也已有近 700 的引用量。
当然,Libratus 不是凭空而生,2015 年 4 月它的前身 Claudico 正是在同一个赌场里,和四位人类顶级玩家交锋 8 万手后,累积输掉 73.2 万美元 ( 当然也是虚拟货币 ) ,败给了人类。
Noam Brown 多年来在多步骤推理、自我对战和多智能体 AI 方面的研究,终于以 Libratus 的成功交上了一份满意的答卷,并在此之后,包揽众多大奖。
比赛胜利同年,他获得了NeurIPS 2017 最佳论文奖。2019 年又继续与导师合作,成功拿下AAAI 2019 杰出论文奖。
之后 Noam Brown 的一系列成果获得了《Science》2019 年年度突破的亚军、马文 · 明斯基奖,还被评为《MIT 科技评论》35 岁以下 35 位创新者之一。
此前获得过这个称号的,就包括谷歌创始人 Larry Page、Sergey Brin,Facebook 创始人 Mark Zuckerberg,Paypal 及 Slide 创始人 Max Levchin,还有著名人工智能科学家吴恩达等一众大佬。
但是不管 Libratus 距离扑克之神还有多远,Brown 坦言他不会再对这个德扑 AI 进行优化了。
博士毕业后,Noam Brown 加入了 FAIR(Meta),成为其研究科学家。
在 Meta,他曾参与共同开发出第一个在战略游戏 Diplomacy 中达到人类水平的 AI —— CICERO。
一切看起来顺风顺水,Noam Brown 为什么突然要转战 OpenAI,又究竟要做什么?
加入 OpenAI 后:用游戏中的方法提升大模型
Noam Brown 给出了他的答案:
多年来,一直在研究扑克和 Diplomacy 等游戏中的 AI 自我对战和推理。现在,我将研究如何将这些方法真正通用化。
所以,下一个大模型难道将借鉴游戏中的方法?
其实,Noam Brown 的灵感来自于当年 Libratus 成功击败了顶级人类选手时,他所观察到的一种现象。
而这种现象与 2016 年 AlphaGo 击败李世石极为相似。
回想 AlphaGo 击败李世石,其中的关键在于:
AI 在每一步棋之前都能够进行约1 分钟的 " 思考 "。
而就这一点对于 AlphaGoZero 来说,相当于将预训练的规模扩大了约 10 万倍(搜索后评分约为 5200 Elo,不经搜索评分约为 3000 Elo)。
Noam Brown 在扑克中观察到了类似的现象,将其运用于 Libratus,才有了后面的成功击败顶级人类选手。
除此之外,AnthropicAI 的技术工程师 Andy L. Jones,在 Hex 棋盘游戏中详细研究了训练时间和测试时间的计算权衡,也发现了类似的模式。
这项研究展示了如何在 MCTS(Monte Carlo Tree Search,蒙特卡洛树搜索)的训练计算和推理计算之间进行权衡,而增加 10 倍的 MCTS 步骤几乎等同于增加 10 倍的训练:
Noam Brown 认为:
现在所有这些方法都是针对特定的游戏而设计的。如果我们能够发现一个通用版本,那么增益将是巨大的。
虽然推理可能会慢 1000 倍,并且成本更高,但是与为了一种新的抗癌药物或者为了证明黎曼猜想一样,我们会为推理付出怎样的代价呢?
接着他又补充道:
提升能力总是存在风险的,但如果这项研究取得成功,它在安全研究方面也将具有重要价值。想象一下,如果我们能够花费 100 万美元的推理成本来预测一个更具能力的未来模型,这将给我们一个此前所没有的警示。
对于 Noam Brown 加入 OpenAI 这事儿,评论区赶来的大多是来道喜的。
比如说 PyTorch 联合创始人 Soumith Chintala:
前同事 Meta AI 研究总监、佐治亚理工学院计算机科学家 Dhruv Batra 也发来了 " 贺电 ":
参考链接:
[ 1 ] https://twitter.com/polynoamial/status/1676971503261454340
[ 2 ] https://noambrown.github.io/
[ 3 ] https://www.science.org/toc/science/365/6456