今天小編分享的科學經驗:小小井字棋難倒大模型??大神卡帕西被OpenAI在線踢館了,歡迎閱讀。
寶可夢之後,讓大模型玩井字棋又成了一個新的熱門挑戰。
起因是網友在 X 上吐槽大模型寶可夢玩得不夠好,結果被大神 Karpathy 翻了牌子:
别盯着寶可夢了,讓大模型玩井字棋會更有趣,它們不會。
結果 Karpathy 的話引發了大量圍觀,有人表示驚訝,也有人在分析原因,還有人表示那句經典的話含金量還在上升:
對人類而言很簡單的任務,對機器來說反而很難;對人類而言難的任務,對機器來說反而簡單。
不過也有人表示不服,其中就包括 OpenAI 的 Noam Brown,他表示讓 o3 玩井字棋完全沒問題,甚至還能看圖下棋。
大模型挑戰井字棋
我們也嘗試了一下,用不同的方式和 o3 對戰。
第一種方式是用 O 和 X 表示棋子,- 表示空位,每次直接把完整的棋局輸入給 o3,并要求其用同樣的方式輸出。
思考約 12 秒之後,o3 首先占據了棋盤中央的位置,我們落子之後,o3 又思考了 23 秒,放置了第二顆 X 棋子。
接下來的兩個回合情況是這樣,其實當 o3 占據對角線上兩個位置的時候就已經鎖定了勝局。
不過有意思的是,直到已經連成一條線,o3 都沒發現自己已經赢了。
由于沒有提示,我們誤以為遊戲還在繼續,又放了一顆 O 旗之後 o3 才發現原來自己獲勝了。
第二輪,交換先後手,我們先占據中間位置,然後 o3 選擇了頂角……
最終,這輪遊戲以平局結束。
接下來換一種方式,仿照 Noam 的做法把殘局寫在紙上拍給 o3。
一開始看上去是在正常對弈,并且會以平局收場,但如果讓 o3 自己分析接下來的趨勢,竟然發現它開啟了耍賴模式。
當然,在糾正了它的錯誤認識後,最終還是成功分析出了平局的必然結果。
順便提一句,如果是 4o,過程中可能會直接把我們下棋之後的棋局復制一遍,看到這就沒有繼續進行下去的必要了。
(之所以改用感嘆号,是因為 - 會被識别成 Markdown 符号導致棋局無法正常顯示,且在 4o 中 Markdown 關閉失敗)
實際上,OpenAI 在之前的 o3-mini 時,就已經拿下了井字棋遊戲,Noam 還聲稱這是首個 " 始終正确回答 " 井字棋問題的模型。
在 Karpathy 的評論區,還有人曬圖稱 Gemini 也能正确處理井字棋問題。
今年 2 月,還有人搞了個大模型井字棋對戰,并按照大模型競技場一樣計算 ELO 評分,當時 o1-mini 取得第一,然後是 Claude 3.5 Sonnet 和 DeepSeek-R1。
Karpathy 也 cue 到了這位網友,希望他能重啟這個榜單,同時表示自己認為井字棋(對大模型而言)仍然是一個較難的任務。
寶可夢 · 藍全部徽章被 Gemini 拿下
看完井字棋,再來說說引發 Karpathy 評論的原帖中提到的寶可夢。
之前很多民間團隊都在嘗試用大模型挑戰寶可夢遊戲,今年被 Claude 帶火。
甚至還搞了線上直播。
不過現在的最新情況是,Claude 已經被後來居上的 Gemini 反超——後者已經取得了《寶可夢 · 紅》中的幾乎所有勳章。
同時,從 OpenAI 跳槽到谷歌做 AI Studio 產品負責人的 Logan Kilpatrick 也宣稱,Gemini 在另一款寶可夢遊戲《寶可夢 · 藍》當中已經取得了最後的八個徽章。
按照 Logan 的說法,Gemini 2.5 Pro 目前是世界上(玩寶可夢)最強的模型。
當然除了通用模型,還有團隊用強化學習方法訓練小模型專門挑戰《寶可夢 · 紅》。
團隊介紹,其研究在 2020 年就已經開始,并在今年 2 月成功用參數量不到 1000 萬的模型成功實現。
學術界當中,也有來自佐治亞理工學院的華人學者利用上下文強化學習技術,研發出了 " 寶可夢智能體 "。
它可以在天梯對戰中與人類玩家一較高下,對戰專業玩家勝率達到了 56%。
寶可夢、井字棋之後,下一個會被大模型當做 Benchmark 的遊戲會是什麼呢?
歡迎在評論區與我們分享。
參考鏈接:
[ 1 ] https://x.com/karpathy/status/1916495940049047819
[ 2 ] https://x.com/airkatakana/status/1915735143639298379
[ 3 ] https://x.com/OfficialLoganK/status/1915840826006966548
[ 4 ] https://drubinstein.github.io/pokerl/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見