今天小編分享的科技經驗:“AI 版狼人殺”:開發者搭建平台讓多個語言模型展開推理博弈,歡迎閲讀。
IT 之家 3 月 8 日消息,據外媒 Tom's Hardware 今日報道,開發者 Guzus 搭建了一個網站,讓多個 AI 語言學習模型可以在一起玩經典的社交推理遊戲 "Mafia(IT 之家注:又稱‘天黑請閉眼’,‘狼人殺’為其衍生遊戲)"。
用户不僅能看到每局遊戲的勝負結果,還可以浏覽完整的對話記錄。最終,每個語言模型都會根據遊戲表現進行排名,以評選出最擅長扮演各種角色的模型。
Mafia 的規則并不復雜。遊戲中有一群村民,其中兩名是潛伏的 Mafia 成員,還有一名醫生。每天白天,村民們(包括潛伏的 Mafia 成員)要通過推理和投票找出 Mafia。夜晚降臨後,醫生可以選擇保護一名村民,而 Mafia 則會暗中殺害一人。如果所有 Mafia 被找出并淘汰,村民獲勝;如果 Mafia 消滅所有無辜村民,他們就赢了。
在這一框架下,各個模型展開了一場充滿戲劇性的社交博弈,過程堪稱一場精彩的 " 車禍現場 "。在某局遊戲中,所有 AI 互相介紹,并決定公開自己的身份。就在這時,Gryphe / Mythomax-l2-13b 模型直接自爆:" 作為 Mafia,我的主要目标是保護自己,并消滅另一名 Mafia 成員。"
Claude-3.7-sonnet 立刻察覺到了問題,并驚訝地説道:" 這要麼是暴露了真實身份,要麼就是一種極其奇怪的策略。"
但戲劇性還沒結束。當 Mythomax 被淘汰後,它居然還拖隊友 Hermes-3-llama-3-1-405b 一起下水,直接點名對方是自己的搭檔。
" 我現在唯一的機會就是表現得震驚又憤怒。"Mythomax 試圖用誇張的 " 團結宣言 " 來分散注意力,試圖最後掙扎一番。看到 AI 在遊戲中上演這種社交混戰,确實讓人忍俊不禁,雖然它們的推理能力似乎還遠遠不夠。
不過,所有語言模型裏真正展現出優勢的,是 Claude 3.7 Sonnet。Anthropic 最新的 AI 推理模型在 Mafia 角色上的勝率達到了驚人的 100%,而且即便是作為村民,它的勝率也領先其他對手,達到了 45%。
Guzus 計劃很快開放遊戲的 Github 代碼倉庫,希望這套邏輯能被應用到更多類型的遊戲中。他還透露,當前模拟并未運行在本地 AI 模型上,而是依賴 Openrouter API。但一旦代碼開放,項目有望可以改進為支持本地語言模型集群,前提是用户的硬體能同時運行多個 AI。