今天小編分享的科技經驗:人類被AI“毀滅”,一定是從教它玩《我的世界》開始的,歡迎閲讀。
上周,幾乎是前後腳,英偉達和國内幾家科研機構分别發布了兩份内容相似的論文。
首先是英偉達宣布開發出了一個全新的遊戲 AI 智能體 "VOYAGER",将 AI 大模型 GPT-4 接入了《我的世界》(Minecraft)遊戲。基于 GPT-4,VOYAGER 能夠在《我的世界》裏擴充着自己的物品和裝備,完成諸如建造房屋、挖礦、收集仙人掌和狩獵等基本生存技能;也能獨立進行開放式探索,去到不同的城市和地點,甚至是自己搭建傳送門。
英偉達稱 VOYAGER 在《我的世界》裏獲得的物品增加了 3.3 倍,旅行距離增加了 2.3 倍,解鎖關鍵技能樹的速度也比之前的方法快了 15.3 倍。
接着就是商湯科技聯合清華大學、上海人工智能實驗室等機構發布了通才 AI 智能體 "Ghost in the Minecraft(GITM)"。
同樣是将大語言模型(LLM)整合進《我的世界》,GITM 在《我的世界》内主世界的所有技術挑戰上實現了 100% 的任務覆蓋率(成功通關解鎖了完整的科技樹),而此前所有智能體的總和只能覆蓋 30%;另外在 " 獲取鑽石 " 任務上,GITM 成功率達 67.5%,同樣相比于此前的最佳成績—— OpenAI 的 VPT 方法大幅提高了 47.5%。
GITM 在《我的世界》的任務覆蓋率遠高于現有 AI 智能體
直白點説,他們都選擇了《我的世界》這款遊戲來訓練 AI,并且 AI 都實現了真人玩家能夠完成的幾乎所有遊戲任務,堪比是能以假亂真的效果(這放在幾個月前還是不可能的事)。
我們先抛開看起來艱澀的技術細節不談,為啥他們不約而同都迷上了拿《我的世界》做實驗?
《我的世界》就是個大型 AI 試驗場
要説起在《我的世界》裏訓練過的 AI,那可就太多了。
著名的莫拉維克悖論是這麼説的:一些任務對于人類而言很困難,例如下棋,但對 AI 來説很簡單;而像《我的世界》這樣開放世界中與環境互動、進行規劃和決策等對人類來説較為簡單的事情,對 AI 來説卻是巨大挑戰。
正因為這種情況的存在,在 AI 還不像現在這麼發達的早幾年,科學家們最初只是在《我的世界》裏用 AI 完成一些簡單的指令。
比如在 2019 年,Facebook 研發過一款《我的世界》AI 助手 "craftassist bot",這是一個智能協作式的助理機器人,可以執行人類玩家指定的各種任務,如馴服馬匹、建造城市、與村民會面及交易等。
也是在 2019 年,卡内基 · 梅隆大學、微軟、DeepMind 和 OpenAI,聯合機器學習頂級會議 NeurIPS 共同舉辦了一個叫做 "MineRL" 的專門針對《我的世界》遊戲的 AI 比賽,到 2022 年一共舉辦了四屆。
這個比賽同樣見證了 AI 在《我的世界》中的應用由簡單到復雜的過程。
比如第一屆 MineRL 比的東西還很簡單:看哪個研究團員能夠創造出可以在《我的世界》中成功開采鑽石的 AI。不過很慘,最後參加的 900 多個全球頂尖團隊沒有一個能完成挑戰,一些 AI 撸掉木材卻不會合成,一些 AI 造出了熔爐卻不會冶煉,一些 AI 知道去地下挖礦,但卻選擇了垂直挖……
後來到了第三屆,比賽内容就變成了看誰能訓練出樣本高效的《我的世界》AI 智能體。這一屆的冠軍是以 76.970 分的絕對優勢奪冠的騰訊 AI Lab" 絕悟 "。
各種公司、機構密集開始在《我的世界》中訓練 AI 其實也是最近五年的事。
美國國防高級研究計劃局(DARPA)在 2020 年 8 月啓動了自适應分布式概率任務分配(ADAPT)項目,以期在戰場空間中利用 AI 協助指揮官進行決策,該項目的承包商 Aptima 公司用到的就是《我的世界》來訓練 AI 與人類的互動能力。
2021 年哥本哈根信息技術大學、紐約大學和上海大學的研究者也創建過一個使用 3D 神經元胞自動機(Neural Cellular Automata,NCA)的系統,并将該系統部署在了《我的世界》裏,這個時候的 NCA 已經可以建造毛毛蟲、城堡、公寓樓和樹等復雜的實體。
比較出圈的一次實驗是在去年。
OpenAI 去年宣布由他們訓練的 AI 已經做到了熟練遊玩《我的世界》。通過引入一種新穎且便捷的 AI 訓練法 " 視頻預訓練(Video PreTraining)",在向 AI" 投喂 " 了 7 萬小時從相關合作方處獲取的《我的世界》演示視頻以及與視頻配套的鍵盤滑鼠操作記錄後,OpenAI 旗下的 AI 的操作已經相當傳神,掌握了只有人類才能領悟的高階玩法。
OpenAI 在《我的世界》中的實操演示
此外,DeepMind 也在今年年初開發出了能夠媲美 OpenAI 成果的名叫 "DreamerV3" 的 AI 智能體。DreamerV3 在沒有任何人工數據輔助的情況下,被丢進《我的世界》裏摸爬滾打了 17 天,驚人地學會了如何從 0 開始挖鑽石,成了世界上第一個純靠自己摸索,就能在《我的世界》裏速挖鑽石的 AI 智能體。
當時 MineRL 比賽的發起人之一 William Guss 都忍不住第一時間發來賀電:4 年了," 鑽石挑戰 " 終于被攻克了!
沒有誰比《我的世界》更合适了
《我的世界》面世 12 年,已經成為世界上最受歡迎的一款遊戲,被許多玩家形容為電子版的樂高。早在 2019 年,《我的世界》就超過《俄羅斯方塊》成為全球銷量最高的遊戲。
《我的世界》" 開放世界 " 的遊戲屬性讓它成了科學家們訓練 AI 的絕佳場所。
不同于 LOL 和王者榮耀等單一的戰略對戰遊戲,《我的世界》并不預先設定目标,僅有的兩個模式是 " 生存 " 和 " 創造 "。" 生存 " 模式中,玩家要造好房子并收集東西,保證活下來,即使是用來擊退僵屍和蜘蛛的劍也需要玩家用木材和鐵礦來鍛造;" 創造 " 模式則更加自由,玩家使用各種功能的立方體,自由構建建築物和物體,而且遊戲永遠不會結束。
如果説 LOL、王者榮耀或是很多棋類遊戲因為簡單的規則和遊戲機制,可以讓 AI 以極快的速度學習并超越戰勝人類,《我的世界》遊戲過程的復雜程度就幾乎是在挑戰 AI 的極限。
極度多樣的環境、完全靠随機種子生成的地圖、長決策序列與復雜的技能學習、高自由度玩法帶來的海量策略偏好,都增加了《我的世界》AI 研究的難度。
比如,為了讓 AI 在 15 分鍾内找到鑽石,AI 需要經歷徒手采集原木、合成木板、木棍與木鎬,采集到鐵礦,經過一系列加工才能合成鑽石,看似只是一件小事,但對于 AI 來説,卻需要掌握其中復雜的邏輯關系——這還只是《我的世界》遊戲的一部分,除了制造工具,AI 還需要給自己制定目标,學着在遊戲世界裏探索,直到解鎖所有的遊戲任務。
《我的世界》中找鑽石的步驟
而如果只是學下棋或是打 LOL,AI 只用知道怎麼赢就行了。
是不是覺得,《我的世界》訓練出來的 AI,要比靠下棋、玩 LOL 訓練出來的 AI 高級多了(雖然學習速度可能慢了點)?
事實上在當前的 AI 研究中,科學家們會越來越追求通用人工智能(AGI)的研究,追求打造更通用的 AI 智能體,也就是發展 AI 智能體能夠掌握廣泛的技能,适應各種環境變化,更深入地模拟和應對人類在復雜問題上的能力,像人一樣的進行感知、理解和互動(而不是只會回答簡單問題、下棋能赢人類那種 " 小打小鬧 " 的 AI)。
這就意味着要訓練通用 AI,《我的世界》模拟的環境是非常合适的。
不過,開放世界遊戲那麼多,為什麼又偏偏是《我的世界》呢?
有網友在推特向參與開發了 VOYAGER 的英偉達首席科學家 Jim Fan 發問説,既然 VOYAGER 是為開放世界而生,那為什麼沒有選擇在《塞爾達》或者是《艾爾登法環》這樣看上去更加宏大的開放世界遊戲中作 AI 訓練?
Jim Fan 的回答是,這中間的主要難點其實并不是算法,而是因為《塞爾達》和《艾爾登法環》這樣的遊戲運用了 " 緩慢且難以以編程方式控制高端控制台 ",并且 " 需要一個好的編碼 API 來控制角色 "。相較之下,《我的世界》的技術門檻要更低,在目标和玩法類似的情況下,《我的世界》實際也為 AI 訓練降低了難度。
另外,《我的世界》對開發者也很友好。許多用于構建《我的世界》的代碼庫都是開源的,所以人們可以很容易修改。并且該遊戲也允許研究人員記錄和學習人們是如何一起完成任務的,然後觀察他們将如何與 AI 智能體一起工作。
從這些意義上説,沒有誰比《我的世界》來訓練 AI 更合适的了。
這次《我的世界》裏的 AI 有什麼特别?
此次英偉達開發的 VOYAGER,和商湯科技聯合清華大學、上海人工智能實驗室等機構開發的 GITM,與過去基于《我的世界》訓練的 AI 智能體最大的不同在于,引入了大語言模型(LLM)作為 AI 訓練的核心方法。
以往在《我的世界》中訓練 AI 用到的主流方法則是,模仿學習和強化學習。
即便是此前 OpenAI 和 DeepMind 開發出的最先進的《我的世界》AI 智能體,用到的訓練方法也是模仿學習和強化學習。
打個比方,如果想讓 AI 在《我的世界》裏學會挖礦,模拟學習要做的就是先喂給 AI 上萬個遊戲視頻,讓它分析學習為什麼要撸樹,如何利用工作台進行分解合成,如何做出第一把鎬子,如何冶煉鐵錠,制作鐵鎬,獲取鑽石,如何避免落入岩漿,如何戰鬥等等挖礦的必要步驟。
等到投喂學習結束,AI 接下來就要接受強化學習,也就是把 AI 小人扔進《我的世界》,讓它去 " 真正 " 執行挖礦的任務,通過反復實驗來發現和解決問題,從而真正學會挖礦這一技能。
但在大語言模型的訓練方法下,AI 的學習邏輯是被完全重構的。
依然拿挖礦來説,AI 智能體自身會首先根據 " 盡可能多發現不同的東西來幫助挖礦 " 的總體目标去提問、自動生成許多小任務,通過去存儲有助于成功解決某個任務的行動程式(比如撸掉樹木再去進行合成被驗證是正确的,造出了熔爐就要去冶煉也是正确的),AI 就會逐漸建立起一個如何正确挖礦的技能庫。而往後如果再遇到挖礦任務,AI 就可以根據其描述的嵌入在技能庫中進行檢索。
大語言模型訓練方法下的 GITM
也就是説,大語言模型的訓練方法下,AI 是可以自主驅動探索并掌握廣泛技能的,這就使得大語言模型方法更能幫助 AI 成為一個終身學習者,能在較長的時間跨度内逐步獲得、更新、積累和遷移知識,同時緩解了其他持續學習方法中的 " 災難性遺忘 "。
VOYAGER 探索物品量高于其他許多 AI 智能體
有點像是一直讓 AI 呆在學校裏讀書實習,還是讓 AI 一開始就在社會裏摸爬滾打的區别。
總而言之,用大語言模型方法在《我的世界》訓練出來的 AI 更像一個真實的人了。
我們知道,一個理想的 AI 應該具有與人類類似的能力。《我的世界》裏的 AI 不管是根據其當前的技能水平和世界狀态提出合适的任務(如果發現自己處于沙漠而不是森林,就會在打鐵前學會獲取沙子和仙人掌),根據環境反饋完善技能并将掌握的技能存入記憶(比如打僵屍和打蜘蛛的技能類似),還是不斷探索世界,以自驅動的方式尋找新任務,其實都已經和現實世界中人類的決策過程和行為方式非常相近。
説《我的世界》已經是一個縮小版的現實世界也許一點也不誇張。
而讓人細思極恐的是,随着 VOYAGER 和 GITM 的研究成果發布,AI 現在已經能通關《我的世界》了。
這不禁讓人猜想,AI 是不是很快就能在現實世界裏如魚得水,它能像人一樣生活,會做飯、會用手機、知道怎麼穿衣服、怎麼養寵物、怎麼坐公交地鐵……更不可思議的是,它還能像人一樣有自己的想法,知道穿哪件衣服好看,怎麼做飯能更好吃,電話應該打給誰……沒準在不久的将來,我們在生活中遇到到的 " 人 ",都無法分辨它是不是 AI。
既然都能通關《我的世界》了,AI 過上人的生活從技術上來講也不是不能實現。
人類又會如何選擇呢?