今天小編分享的科技經驗:6 小時學會玩迷宮,AI 機器人不僅打破人類記錄,順便把作弊也學了?,歡迎閱讀。
拿真實世界的數據訓練 AI 機器人 6 個小時後,它可以達到什麼樣的水平?
為了進一步研究 AI 在現實世界中的潛力,來自蘇黎世聯邦理工學院的研究人員做了一項實驗,其創造了一款名為 CyberRunner 的 AI 機器人,用 6 個小時教它玩一款主流的迷宮遊戲,最終看它的表現。
結果顯示,AI 遠比我們想象的要更為聰明。它不僅快速學會了玩法,還打破了由 1988 年以來的選手 Lars G ö ran Danielsson 在 2022 年創下的 15.41 秒的世界紀錄,實現 14.48 秒的戰績。萬萬沒想到的是,它甚至還把作弊的技能也給學會了。
人類 vs AI 機器人,玩迷宮遊戲
之所以選擇迷宮遊戲作為測試目标,是因為研究人員覺得該遊戲成本低、可用性廣且具有挑戰性。
正如下圖所示,迷宮遊戲的器材是一個由許多小牆壁和洞組成的迷宮。
對于人類玩家而言,可以旋轉兩邊的旋鈕,傾斜遊戲盤來引導一個鋼球從起始點滾落到終點。在此過程中,玩家必須防止球從任何一個洞裡掉下去,否則視為遊戲失敗。
在實操過程中,研究人員表示,從經驗來看,人類需要大量的練習才能精通這款遊戲。因為玩迷宮不僅需要運用物理技巧,還需要精細的運動技能和空間推理能力。此外,迷宮設備也為遊戲帶來了一些挑戰,包括球和牆璧 / 地板之間的粘滞效應、迷宮的表面的不規則性,以及控制旋鈕和迷宮板之間的非線性耦合的存在。
為了測試 AI 的能力,研究人員對迷宮遊戲設備進行了改良,為這款 CyberRunner 的機器人配備了兩個電機(充當它的手)、一個攝像頭(它的眼睛)和一台計算機(它的大腦),讓它可以像人一樣玩遊戲。
它可以操縱設備邊上的兩個旋鈕,控制遊戲盤傾斜引導鋼球開始滾動,攝像頭實時追蹤路徑,然後計算機将其記錄下來,不斷訓練,探索最佳路徑。
基于此,研究人員還發布了一篇《Sample-Efficient Learning to Solve a Real-World Labyrinth Game Using Data-Augmented Model-Based Reinforcement Learning》論文(https://arxiv.org/pdf/2312.09906.pdf),詳細地分享了整個測試過程。
測試方法
就像人類一樣,CyberRunner 利用模型的強化學習中的最新進展,通過經驗來學習。這使得人工智能能夠通過預測不同行為結果來做出決策并選擇潛在的成功行為。
在硬體準備就緒之後,研究人員開始分三步測試與訓練 CyberRunner 的能力:
1. 利用遞歸策略,讓當前的決策取決于先前的決策和狀态。
這種策略應避免兩種情況。首先,球不能掉到任何一個洞裡;第二,該策略可能不會通過跳過迷宮的某些部分來作弊。當這兩種情況中的任何一種發生時,對應的狀态被設定為一個終端狀态,其未來獎勵的總和被設定為 0。由于遞歸策略是以所有過去的觀測和控制動作為條件的,因此可以僅從位置信息中恢復線性和角速度。
2. 然後通過攝像頭,提取影像中相關觀察和獎勵信息。
3. 使用基于模型的強化學習和數據增強以一種高效利用樣本的方式來優化學習目标。
在實驗環節中,研究人員還利用垂直方向的軌迹以及迷宮的水平翻轉視圖,產生迷宮的四個不同版本。讓 CyberRunner 從不同維度更好地學習。
簡單來看,在玩遊戲的過程中,通過一台俯視迷宮的攝像頭捕捉觀察結果,CyberRunner 觀察迷宮并根據其表現獲得獎勵。它會記住所收集的經驗,利用這些經驗,基于模型的強化學習算法學習系統的行為,根據對遊戲的理解,識别哪些策略和行為更有前途。基于這些知識,它能夠識别出最有前途的行為。
因此,機器人使用兩個電機(它的 " 手 ")來玩遊戲的方式不斷改進。重要的是,機器人不會停止玩遊戲來學習,算法與機器人同時運行。結果,機器人在每一次運行中都變得更好。
接受了 6 個多小時訓練,CyberRunner 成功率達 76%
在論文中,研究人員主要通過兩種方法驗證所提出方法的有效性:
( i ) 在物理系統上進行單次訓練運行,并評估策略的性能;
( ii ) 使用迷宮的模拟版本進行消融研究。
在真實世界的迷宮上進行策略學習,預算為 100 萬個時間步(相當于以 55Hz 的控制速率進行 5.05 小時訓練)。在物理系統上進行學習時,每當一個回合結束時,研究人員會手動将球放回起始位置。訓練過程中每個回合的歸一化累積獎勵如下圖所示。可以看到,策略成功地将球導航到迷宮的終點,僅使用不到 5 小時的收集數據。
此外,通過不斷地嘗試,平均而言,CyberRunner 成功率達到 76%。可以看到,策略有效地利用牆壁快速改變球的方向。還可以觀察到,最終策略将球導航在洞口的附近,以最大化其性能(例如圖 7 中的 10 号和 12 号洞附近)。
除此之外,據 TNW 報道,CyberRunner 在參加一個賽事時,打破了由 1988 年以來的選手 Lars G ö ran Danielsson 在 2022 年創下的 15.41 秒的世界紀錄。CyberRunner 在 14.48 秒内完成了比賽,比人類紀錄保持者快了 6% 以上。
挖掘 AI 的無限潛力
回看過去,Google DeepMind 旗下的 AlphaGo 透過自我對弈數以萬計盤進行練習強化,最終在 2016 年 3 月以 4:1 戰績擊敗頂尖職業棋手李世石,成為第一個不借助讓子而擊敗圍棋職業九段棋手的電腦圍棋程式,也自此一戰成名。
過去一年間誕生的 ChatGPT、GPT-4、Bard 等 AI 聊天機器人及大模型也經過了大量的數據與時間訓練而成。
時下的 CyberRunner 僅用了 6 個小時,利用在基于模型的強化學習方面取得的進展,證明了 AI 可以在身體技能的任務中超越人類。
而且有趣的是,在學習階段,CyberRunner 甚至發現了遊戲中的捷徑,學會了不按照數字指引,繞開了很多洞,這促使該次實驗的首席研究員 Thomas Bi 和 Raffaello D'Andrea 教授進行幹預并引導 AI 避開這些路徑,這才有了上文中提及遞歸策略必須避開的兩種情況。
對于這一實驗性成果的發布,不少網友認為這一成就不僅突破了 AI 在遊戲領網域的界限,而且标志着 AI 如何應用于現實世界的物理任務方面向前邁出了一大步。CyberRunner 的成功預示着人工智能可以承擔復雜的物理活動的未來,有可能改變各個行業和日常生活。
" 我們相信這是現實世界機器學習和人工智能研究的理想測試平台。在 CyberRunner 之前,只有擁有大量預算和定制實驗基礎設施的組織才能在該領網域進行研究。現在,只需不到 200 美元,任何人都可以參與尖端人工智能研究 ",D'Andrea 說道," 此外,一旦成千上萬的 CyberRunner 進入現實世界,就有可能參與大規模實驗,在全球範圍内并行進行學習。公民科學的終極 "