今天小编分享的科学经验:两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏,欢迎阅读。
DeepMind 的 AI 智能体,又来卷自己了!
注意看,这个名叫 BBF 的家伙,只用 2 个小时,就掌握了 26 款雅达利游戏,效率和人类相当,超越了自己一众前辈。
要知道,AI 智能体通过强化学习解决问题的效果一直都不错,但最大的问题就在于这种方式效率很低,需要很长时间摸索。
而 BBF 带来的突破正是在效率方面。
怪不得它的全名可以叫 Bigger、Better、Faster。
而且它还能只在单卡上完成训练,算力要求也降低许多。
BBF 由谷歌 DeepMind 和蒙特利尔大学共同提出,目前数据和代码均已开源。
最高可取得人类 5 倍成绩
用于评价 BBF 游戏表现的数值,叫做 IQM。
IQM 是多方面游戏表现的综合得分,本文中的 IQM 成绩以人类为基准进行了归一化处理。
经与多个前人成果相比较,BBF 在包含 26 款雅达利游戏的 Atari 100K 测试数据集中取得了最高的 IQM 成绩。
并且,在训练过的 26 款游戏中,BBF 的成绩已经超过了人类。
与表现相似的 Eff.Zero 相比,BBF 消耗的 GPU 时间缩短了将近一半。
而消耗 GPU 时间相似的 SPR 和 SR-SPR,性能又和 BBF 差了一大截。
而在反复进行的测试中,BBF 达到某一 IQM 分数的比例始终保持着较高水平。
甚至有超过总测试次数 1/8 的运行当中取得了 5 倍于人类的成绩。
即使加上其他没有训练过的雅达利游戏,BBF 也能取得超过人类一半的分数 IQM 分数。
而如果单独看未训练的这 29 款游戏,BBF 的得分是人类的四至五成。
以 SR-SPR 为基础修改
推动 BBF 研究的问题是,如何在样本量稀少的情况下扩展深度强化学习网络。
为了研究这一问题,DeepMind 将目光聚焦在了 Atari 100K 基准上。
但 DeepMind 很快发现,单纯增大模型规模并不能提高其表现。
在深度学习模型的设计中,每步更新次数(Replay Ratio,RR)是一项重要参数。
具体到雅达利游戏,RR 值越大,模型在游戏中取得的成绩越高。
最终,DeepMind 以 SR-SPR 作为基础引擎,SR-SPR 的 RR 值最高可达 16。
而 DeepMind 经过综合考虑,选择了 8 作为 BBF 的 RR 值。
考虑到部分用户不愿花费 RR=8 的运算成本,DeepMind 同时开发了 RR=2 版本的 BBF
DeepMind 对 SR-SPR 中的多项内容进行修改之后,采用自监管训练得到了 BBF,主要包括以下几个方面:
更高的卷积层重置强度:提高卷积层重置强度可以增大面向随机目标的扰动幅度,让模型表现更好并减少损失,BBF 的重置强度增加后,扰动幅度从 SR-SPR 的 20% 提高到了 50%
更大的网络规模:将神经网络层数从 3 层提高至 15 层,宽度也增大 4 倍
更新范围(n)缩小:想要提高模型的表现,需要使用非固定的 n 值。BBF 每 4 万个梯度步骤重置一次,每次重置的前 1 万个梯度步骤中,n 以指数形式从 10 下降至 3,衰减阶段占 BBF 训练过程的 25%
更大的衰减因子(γ):有人发现增大学习过程中的 γ 值可以提高模型表现,BBF 的 γ 值从传统的 0.97 增至 0.997
权重衰减:避免过度拟合的出现,BBF 的衰减量约为 0.1
删除 NoisyNet:原始 SR-SPR 中包含的 NoisyNet 不能提高模型表现
消融实验结果表明,在每步更新次数为 2 和 8 的条件下,上述因素对 BBF 的表现均有不同程度的影响。
其中,硬复位和更新范围的缩小影响最为显著。
而对于上面两个图中没有提到的 NoisyNet,对模型表现的影响则并不显著。
论文地址:
https://arxiv.org/abs/2305.19452
GitHub 项目页:
https://github.com/google-research/google-research/tree/master/bigger_better_faster
参考链接:
[ 1 ] https://the-decoder.com/deepminds-new-ai-agent-learns-26-games-in-two-hours/
[ 2 ] https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/