今天小編分享的科學經驗:GPT-4玩《我的世界》15倍速攀科技,不看畫面全靠代碼操作,歡迎閲讀。
把 GPT-4 放進一個虛拟世界會怎麼樣?比如《我的世界》。
英偉達開發最新方法 Voyager,在遊戲中點亮科技樹的速度是此前方法的15.3 倍,同時獲得的獨特物品是此前的 3.3 倍,探索範圍是 2.3 倍。
更關鍵的是,Voyager 目前完全借助遊戲畫面推理,一切操作與反饋通過文本和遊戲的 Javascript API 進行。
被其他 AI 玩家視為噩夢的挖鑽石也不在話下。
結合人類反饋,蓋個房子也不是問題。
更不用説撸樹、遊泳、摸魚……這些基礎操作。
這項成果來自英偉達科學家 Jim Fan(範麟熙)團隊。
Voyager 的出現甚至引發了一些網友的恐懼。
當 GPT-4 不再只是一款大語言模型,而擁有了與其他工具互動進行復雜動作的能力,學會推理和創造,真正的 " 人工智能 " 即将降臨……
深度廣度雙雙提升
團隊将 Voyager 的表現與 ReAct、Reflexion 和 AutoGPT 進行了對比。
在地圖探索距離上,Voyager 達到了其他 AI 玩家的 2.3 倍。
而在科技樹方面,只有 Voyager 成功解鎖了鑽石工具。
對于其他工具,Voyager 解鎖的效率也最高。
下表中,括号前的數字表示提示迭代的次數,越少説明效率越高;括号中的數字則表示在 3 次試驗中 AI 玩家的成功率。
除了能點亮訓練過的科技樹,Voyager 在零點測試中表現同樣出色。
研究人員讓這些 AI 玩家制造沒有訓練過的鑽石鎬、金劍、岩漿桶和指南針。
結果只有 Voyager 取得了 100% 的成功率,效率也比其他玩家更高。
如果有人工的幫助,給予評價或指導,Voyager 還能構造建築。
之所以需要人工,是因為在研發 Voyager 時 GPT-4 還不具備視覺能力。
如何實現
Voyager 主要由三部分組成,即自動任務生成系統、技能庫和迭代提示機制。
顧名思義,自動任務生成器負責根據宏觀目标生成具體任務及操作遊戲的代碼并進行優化。Voyager 使用的是一個流行的 Javascript Minecraft 操作庫 ( Mineflayer ) 。
GPT-4 根據 Voyager 發送的提示生成代碼調用這個操作庫,并根據 JS 運行情況和遊戲反饋對代碼中的錯誤進行修正。
Voyager 發送給 GPT 的提示中主要包含四部分内容:
一是鼓勵 GPT 嘗試多種方式,同時又加以限制的總方針。
二是目前的狀态,包括生命和飢餓值、持有物、位置和周圍環境等。
三是之前成功和失敗的操作,反映目前的工作進展。
四是額外信息,讓 GPT-3.5 根據前述狀态提問并調用知識庫自答,将過程傳給 GPT-4。
説完了任務生成器,再看看 Voyager 的技能庫。
通過讓 GPT-3.5(成本考慮)對生成的代碼進行注釋,并納入技能庫同時建立索引。
操作時則先用 GPT-3.5 生成操作説明,調用數據庫中最匹配的五個。
然後,GPT-4 将決定是調用數據庫中的已有技能還是重新生成代碼。
這一過程給 GPT 的提示則由五部分組成:
一是代碼生成的指導,如 " 你生成的代碼将被反復使用 "。
二是控制 API 及相關技能。
三是上一步中生成的代碼,以及對應的運行狀況和反饋。
四是當前的狀态,具體内容和代碼生成器部分相同。
五是利用思維鏈方式,讓 GPT 生成代碼前進行推理。
最後再來看看 Voyager 的迭代提示機制,這一機制用于 Voyager 的自我提升。
這一機制會收集環境反饋、運行錯誤等信息。
同時結合對任務成功與否的自我檢測,對自身進行優化。
下圖就展示了自我檢測的幾個實例。
消融測試結果顯示,缺少這一環節會導致 Voyager 運行質量的顯著下降。
論文地址:
https://arxiv.org/abs/2305.16291
項目主頁:
https://voyager.minedojo.org
GitHub 頁面:
https://github.com/MineDojo/Voyager
參考鏈接:
[ 1 ] https://twitter.com/DrJimFan/status/1662115266933972993
[ 2 ] https://m.weibo.cn/status/4905873598054632