今天小編分享的科學經驗:大模型玩《寶可夢》達人類水平!網友喊話世界冠軍:是時候一較高下了,歡迎閲讀。
基于大模型的 Agent 會玩寶可夢了,人類水平的那種!
名為Pok é LLMon,現在它正在天梯對戰中與人類玩家一較高下:
Pok é LLMon 能靈活調整策略,一旦發現攻擊無效,立刻改變行動:
Pok é LLMon 還會運用人類式的消耗戰術,頻繁給對方寶可夢下毒,并一邊恢復自身 HP。
不過面對強敵,Pok é LLMon 也會 " 慌亂 " 逃避戰鬥,連續切換寶可夢:
最終對戰結果是,Pok é LLMon 在随機天梯賽中取得 49% 的勝率,與專業玩家的邀請賽中取得 56% 的勝率,遊戲戰略和決策水平接近人類。
網友看到 Pok é LLMon 的表現也很意外,直呼:
小心被任天堂封禁,這話是認真的。
甚至有網友喊話寶可夢大滿貫選手、世錦賽冠軍Wolfey Glick,來和這個 AI 一較高下:
這究竟是如何做到的?
Pok é LLMon 大戰人類
Pok é LLMon 由佐治亞理工學院研究團隊提出:
具體來説,他們提出了三個關鍵策略。
一是上下文強化學習(In-Context Reinforcement Learning)。
利用從對戰中即時獲得的文字反饋作為一種新的 " 獎勵 " 輸入,不需要訓練就可以在線迭代完善和調整 Pok é LLMon 的決策生成策略。
其中反饋内容包括:回合 HP 變化、攻擊效果、速度優先級、招式額外效果等。
比如 Pok é LLMon 反復使用相同的攻擊招式,但由于對方寶可夢具有 " 幹燥皮膚 " 的能力,對其沒有任何效果。
在第三回合中對戰中,通過即時上下文強化學習,Pok é LLMon 随後選擇更換寶可夢。
二是知識增強生成(Knowledge-Augmented Generation)。
通過檢索外部知識源作為額外輸入,融入到狀态描述中。比如檢索類型關系、招式數據,模拟人類查詢寶可夢圖鑑,來減少未知知識導致的 " 幻覺 " 問題。
由此一來,Pok é LLMon 可以準确理解并應用招式效果。
比如面對犀牛進化形态的地面攻擊,Pok é LLMon 未選擇更換寶可夢,而是施展 " 電磁飄浮 ",該技能在五回合内成功抵御地面攻擊,使犀牛的 " 地震 " 技能無效。
三是一致性動作生成(Consistent Action Generation)。
研究人員發現,當 Pok é LLMon 面對強大對手時,思維鏈(CoT)的推理方式會導致它因 " 恐慌 " 而頻繁更換道具或寶可夢。
△Pok é LLMon 害怕,不斷切換寶可夢
而通過一致性動作生成,可以獨立多次生成行動,投票出最一致的,從而緩解 " 恐慌 "。
值得一提的是,研究人員所用的模型自主和人類作戰的寶可夢對戰環境,基于 Pokemon Showdown 和 poke-env 實現,目前已開源。
為了測試 Pok é LLMon 的對戰能力,研究人員用它分别與随機天梯賽玩家和一名擁有15 年經驗的專業玩家對戰。
結果,Pok é LLMon 與天梯随機玩家的勝率為 48.57%,與專業玩家的邀請對戰勝率為 56%。
總的來説,Pok é LLMon 的優勢在于:能準确選擇有效招式,統一使用一個寶可夢擊倒全部對手;展現出類人的消耗戰略,使對手中毒後再拖延回血。
不過研究人員也指出了 Pok é LLMon 的不足之處,面對玩家的消耗戰略 ( 拖延回血 ) 很難應對:
容易被玩家的迷惑戰術誤導(迅速切換寶可夢,巧妙使 Pok é LLMon 浪費強化攻擊機會):
團隊簡介
三位作者均為華人學者。
論文一作胡思昊,現為佐治亞理工學院計算機科學博士生,本科畢業于浙江大學,曾在新加坡國立大學擔任研究助理。
研究興趣包括用于區塊鏈安全和推薦系統的數據挖掘算法及系統。
作者Tiansheng Huang,同為佐治亞理工學院計算機科學博士生,華南理工大學校友。
研究興趣包括分布式機器學習、并行與分布式計算、優化算法以及機器學習安全性。
導師劉玲,現為佐治亞理工學院計算機系教授。1982 年畢業于中國人民大學,1993 年于荷蘭蒂爾堡大學獲博士學位。
劉教授主導分布式數據密集系統實驗室(DiSL)的研究工作,專注于大數據系統及其分析的多個方面,如性能、安全和隐私等。
同時她也是 IEEE Fellow,2012 年獲得 IEEE 計算機學會技術成就獎,還曾擔任多個 IEEE 和 ACM 大會主席。
參考鏈接:
[ 1 ] https://twitter.com/_akhaliq/status/1754337188014100876
[ 2 ] https://poke-llm-on.github.io/
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>