兩小時就能超過人類！DeepMind最新AI速通26款雅達利遊戲 - 大酷樂

今天小編分享的科學經驗：兩小時就能超過人類！DeepMind最新AI速通26款雅達利遊戲，歡迎閲讀。

DeepMind 的 AI 智能體，又來卷自己了！

注意看，這個名叫 BBF 的家夥，只用 2 個小時，就掌握了 26 款雅達利遊戲，效率和人類相當，超越了自己一眾前輩。

要知道，AI 智能體通過強化學習解決問題的效果一直都不錯，但最大的問題就在于這種方式效率很低，需要很長時間摸索。

而 BBF 帶來的突破正是在效率方面。

怪不得它的全名可以叫 Bigger、Better、Faster。

而且它還能只在單卡上完成訓練，算力要求也降低許多。

BBF 由谷歌 DeepMind 和蒙特利爾大學共同提出，目前數據和代碼均已開源。

最高可取得人類 5 倍成績

用于評價 BBF 遊戲表現的數值，叫做 IQM。

IQM 是多方面遊戲表現的綜合得分，本文中的 IQM 成績以人類為基準進行了歸一化處理。

經與多個前人成果相比較，BBF 在包含 26 款雅達利遊戲的 Atari 100K 測試數據集中取得了最高的 IQM 成績。

并且，在訓練過的 26 款遊戲中，BBF 的成績已經超過了人類。

與表現相似的 Eff.Zero 相比，BBF 消耗的 GPU 時間縮短了将近一半。

而消耗 GPU 時間相似的 SPR 和 SR-SPR，性能又和 BBF 差了一大截。

而在反復進行的測試中，BBF 達到某一 IQM 分數的比例始終保持着較高水平。

甚至有超過總測試次數 1/8 的運行當中取得了 5 倍于人類的成績。

即使加上其他沒有訓練過的雅達利遊戲，BBF 也能取得超過人類一半的分數 IQM 分數。

而如果單獨看未訓練的這 29 款遊戲，BBF 的得分是人類的四至五成。

以 SR-SPR 為基礎修改

推動 BBF 研究的問題是，如何在樣本量稀少的情況下擴展深度強化學習網絡。

為了研究這一問題，DeepMind 将目光聚焦在了 Atari 100K 基準上。

但 DeepMind 很快發現，單純增大模型規模并不能提高其表現。

在深度學習模型的設計中，每步更新次數（Replay Ratio，RR）是一項重要參數。

具體到雅達利遊戲，RR 值越大，模型在遊戲中取得的成績越高。

最終，DeepMind 以 SR-SPR 作為基礎引擎，SR-SPR 的 RR 值最高可達 16。

而 DeepMind 經過綜合考慮，選擇了 8 作為 BBF 的 RR 值。

考慮到部分用户不願花費 RR=8 的運算成本，DeepMind 同時開發了 RR=2 版本的 BBF

DeepMind 對 SR-SPR 中的多項内容進行修改之後，采用自監管訓練得到了 BBF，主要包括以下幾個方面：

更高的卷積層重置強度：提高卷積層重置強度可以增大面向随機目标的擾動幅度，讓模型表現更好并減少損失，BBF 的重置強度增加後，擾動幅度從 SR-SPR 的 20% 提高到了 50%

更大的網絡規模：将神經網絡層數從 3 層提高至 15 層，寬度也增大 4 倍

更新範圍（n）縮小：想要提高模型的表現，需要使用非固定的 n 值。BBF 每 4 萬個梯度步驟重置一次，每次重置的前 1 萬個梯度步驟中，n 以指數形式從 10 下降至 3，衰減階段占 BBF 訓練過程的 25%

更大的衰減因子（γ）：有人發現增大學習過程中的 γ 值可以提高模型表現，BBF 的 γ 值從傳統的 0.97 增至 0.997

權重衰減：避免過度拟合的出現，BBF 的衰減量約為 0.1

删除 NoisyNet：原始 SR-SPR 中包含的 NoisyNet 不能提高模型表現

消融實驗結果表明，在每步更新次數為 2 和 8 的條件下，上述因素對 BBF 的表現均有不同程度的影響。

其中，硬復位和更新範圍的縮小影響最為顯著。

而對于上面兩個圖中沒有提到的 NoisyNet，對模型表現的影響則并不顯著。

論文地址：

https://arxiv.org/abs/2305.19452

GitHub 項目頁：

https://github.com/google-research/google-research/tree/master/bigger_better_faster

參考鏈接：

[ 1 ] https://the-decoder.com/deepminds-new-ai-agent-learns-26-games-in-two-hours/

[ 2 ] https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value-based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重税打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？硅碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
解除資格！停止一切合作佼昌翰 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02