大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了

今天小編分享的科學經驗：大模型實時打《街霸》捉對PK，GPT-4居然不敵3.5，新型Benchmark火了，歡迎閱讀。

讓大模型直接操縱格鬥遊戲《街霸》裡的角色，捉對 PK，誰更能打？

GitHub 上一種你沒有見過的船新 Benchmark 火了。

與 llmsys 大模型競技場中，兩個大模型分别輸出答案，再由人類評分不同——街霸 Bench引入了兩個 AI 之間的互動，且由遊戲引擎中确定的規則評判勝負。

這種新玩法吸引了不少網友來圍觀。

由于項目是在 Mistral 舉辦的黑客馬拉松活動上開發，所以開發者只使用 OpenAI 和 Mistral 系列模型進行了測試。

排名結果也很出人意料。

經過 342 場對戰後，根據棋類、電競常用的 ELO 算法得出的排行榜如下：

最新版gpt-3.5-turbo 成績斷崖式領先，Mistral 小杯排第二。更小的模型超過了更大的如 GPT-4 和 Mistral 中杯大杯。

開發者認為，這種新型基準測試評估的是大模型理解環境并根據特定情況采取行動的能力。

與傳統的強化學習也有所不同，強化學習模型相當于根據獎勵函數 " 盲目地 " 采取不同行動，但大模型完全了解自身處境并有目的的采取行動。

AI 想在格鬥遊戲裡稱王，需要哪些硬實力呢？開發者給出幾個标準 :

反應要快：格鬥遊戲講究實時操作，猶豫就是敗北

腦子要靈：高手應該預判對手幾十步，未雨綢缪

思路要野：常規套路人人會，出奇制勝才是制勝法寶

适者生存：從失敗中吸取教訓并調整策略

久經考驗：一局定勝負不說明問題，真正的高手能保持穩定的勝率

具體玩法如下：

每個大模型控制一個遊戲角色，程式向大模型發送螢幕畫面的文本描述，大模型根據雙方血量、怒氣值、位置、上一個動作、對手的上一個動作等信息做出最優決策。

第一個挑戰是定位人物在場景中的位置，通過檢測像素顏色來判斷。

由于目前大模型數學能力還都不太行，直接發送坐标值效果不好，最終選擇了将位置信息改寫成自然語言描述。

所以對于 AI 來說，實際上他們在玩的是一種奇怪的文字冒險遊戲。

再把大模型生成的動作招式映射成按鍵組合，就能發送給遊戲模拟器執行了。

在試驗中發現，大模型可以學會復雜的行為，比如僅在對手靠近時才攻擊，可能的情況下使用特殊招式，以及通過跳躍來拉開距離。

從結果上可以看出，與其他測試方法不同，在這個規則下似乎更大的模型表現越差。

開發者對此解釋到：

目标是評估大模型的實時決策能力，規則上允許 AI 提前生成 3-5 個動作，更大的模型能提前生成更多的動作，但也需要更長的時間。

在推理上的延遲差距是有意保留的，但後續或許會加入其他選項。

後續也有用戶提交了流行開源模型的對戰結果，在 7B 及以下量級的戰鬥中，還是 7B 模型排名更靠前。

從這個角度看，這種新型基準測試為評估大模型的實用性提供了新思路。

現實世界的應用往往比聊天機器人復雜得多，需要模型具備快速理解、動态規劃的本領。

正如開發者所說，想要赢，要在速度和精度之間做好權衡。

GitHub 項目：

https://github.com/OpenGenerativeAI/llm-colosseum

參考鏈接：

[ 1 ] https://x.com/nicolasoulianov/status/1772291483325878709

[ 2 ] https://x.com/justinlin610/status/1774117947235324087