小小井字棋難倒大模型？？大神卡帕西被OpenAI在線踢館了 - 大酷樂

今天小編分享的科學經驗：小小井字棋難倒大模型？？大神卡帕西被OpenAI在線踢館了，歡迎閱讀。

寶可夢之後，讓大模型玩井字棋又成了一個新的熱門挑戰。

起因是網友在 X 上吐槽大模型寶可夢玩得不夠好，結果被大神 Karpathy 翻了牌子：

别盯着寶可夢了，讓大模型玩井字棋會更有趣，它們不會。

結果 Karpathy 的話引發了大量圍觀，有人表示驚訝，也有人在分析原因，還有人表示那句經典的話含金量還在上升：

對人類而言很簡單的任務，對機器來說反而很難；對人類而言難的任務，對機器來說反而簡單。

不過也有人表示不服，其中就包括 OpenAI 的 Noam Brown，他表示讓 o3 玩井字棋完全沒問題，甚至還能看圖下棋。

大模型挑戰井字棋

我們也嘗試了一下，用不同的方式和 o3 對戰。

第一種方式是用 O 和 X 表示棋子，- 表示空位，每次直接把完整的棋局輸入給 o3，并要求其用同樣的方式輸出。

思考約 12 秒之後，o3 首先占據了棋盤中央的位置，我們落子之後，o3 又思考了 23 秒，放置了第二顆 X 棋子。

接下來的兩個回合情況是這樣，其實當 o3 占據對角線上兩個位置的時候就已經鎖定了勝局。

不過有意思的是，直到已經連成一條線，o3 都沒發現自己已經赢了。

由于沒有提示，我們誤以為遊戲還在繼續，又放了一顆 O 旗之後 o3 才發現原來自己獲勝了。

第二輪，交換先後手，我們先占據中間位置，然後 o3 選擇了頂角……

最終，這輪遊戲以平局結束。

接下來換一種方式，仿照 Noam 的做法把殘局寫在紙上拍給 o3。

一開始看上去是在正常對弈，并且會以平局收場，但如果讓 o3 自己分析接下來的趨勢，竟然發現它開啟了耍賴模式。

當然，在糾正了它的錯誤認識後，最終還是成功分析出了平局的必然結果。

順便提一句，如果是 4o，過程中可能會直接把我們下棋之後的棋局復制一遍，看到這就沒有繼續進行下去的必要了。

（之所以改用感嘆号，是因為 - 會被識别成 Markdown 符号導致棋局無法正常顯示，且在 4o 中 Markdown 關閉失敗）

實際上，OpenAI 在之前的 o3-mini 時，就已經拿下了井字棋遊戲，Noam 還聲稱這是首個 " 始終正确回答 " 井字棋問題的模型。

在 Karpathy 的評論區，還有人曬圖稱 Gemini 也能正确處理井字棋問題。

今年 2 月，還有人搞了個大模型井字棋對戰，并按照大模型競技場一樣計算 ELO 評分，當時 o1-mini 取得第一，然後是 Claude 3.5 Sonnet 和 DeepSeek-R1。

Karpathy 也 cue 到了這位網友，希望他能重啟這個榜單，同時表示自己認為井字棋（對大模型而言）仍然是一個較難的任務。

寶可夢 · 藍全部徽章被 Gemini 拿下

看完井字棋，再來說說引發 Karpathy 評論的原帖中提到的寶可夢。

之前很多民間團隊都在嘗試用大模型挑戰寶可夢遊戲，今年被 Claude 帶火。

甚至還搞了線上直播。

不過現在的最新情況是，Claude 已經被後來居上的 Gemini 反超——後者已經取得了《寶可夢 · 紅》中的幾乎所有勳章。

同時，從 OpenAI 跳槽到谷歌做 AI Studio 產品負責人的 Logan Kilpatrick 也宣稱，Gemini 在另一款寶可夢遊戲《寶可夢 · 藍》當中已經取得了最後的八個徽章。

按照 Logan 的說法，Gemini 2.5 Pro 目前是世界上（玩寶可夢）最強的模型。

當然除了通用模型，還有團隊用強化學習方法訓練小模型專門挑戰《寶可夢 · 紅》。

團隊介紹，其研究在 2020 年就已經開始，并在今年 2 月成功用參數量不到 1000 萬的模型成功實現。

學術界當中，也有來自佐治亞理工學院的華人學者利用上下文強化學習技術，研發出了 " 寶可夢智能體 "。

它可以在天梯對戰中與人類玩家一較高下，對戰專業玩家勝率達到了 56%。

寶可夢、井字棋之後，下一個會被大模型當做 Benchmark 的遊戲會是什麼呢？

歡迎在評論區與我們分享。

參考鏈接：

[ 1 ] https://x.com/karpathy/status/1916495940049047819

[ 2 ] https://x.com/airkatakana/status/1915735143639298379

[ 3 ] https://x.com/OfficialLoganK/status/1915840826006966548

[ 4 ] https://drubinstein.github.io/pokerl/

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

點亮星标

科技前沿進展每日見

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重稅打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？矽碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
曹操墓，裡面都有啥？衛青柏 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
200戶連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容溫柔郜萌運 | 2023-05-02