今天小編分享的科學經驗:中國AI麻将打出新高度!戰勝真人職業選手,鵝廠「絕藝」刷新戰績,歡迎閱讀。
不愧是中國 AI,打麻将 " 輕松 " 登頂。
騰訊最新消息,旗下棋牌類 AI" 絕藝 "LuckyJ在日本麻将平台 " 天鳳 " 上,刷新 AI 在麻将領網域最好成績。
僅需1321 盤對局,絕藝 LuckyJ 就達到了 AI 最高段位,比第二名 Suphx 減少了 4052 盤對局。
而且它的能力穩定在十段,要知道人類頂級選手的平均穩定段位也只有 7.4。
在日本麻将天鳳平台上,絕藝 LuckyJ 也成為僅有的27 個達到十段的玩家之一(包括 AI),而該平台的平均活躍人數在 23.8 萬。
不止是日本麻将,在國标麻将中,絕藝 LuckyJ 也曾擊敗過六位職業選手,成為首個戰勝國标麻将職業選手的麻将 AI。
其中一位國标麻将選手作出了這樣的評價。
我們通常所謂的妙手、靈光一現,甚至是基于經驗和感覺做出的置之死地而後生的選擇,對于 AI 來說可能都是常規操作了。
在絕藝 LuckyJ 拿下日本麻将十段後,還有不少網友前來祝賀。
畢竟在 AI 打麻将背後,提升的其實是 AI 在問題決策上的能力,這也有利于讓 AI 去解決更多現實生活中復雜的問題。
所以絕藝 LuckyJ 是怎麼做到的?
打麻将 AI 需要學會更平衡的策略
先來看 AI 打麻将難在哪。
對于 AI 來說,玩遊戲是一種極佳的檢驗其能力的方式,常見形式比如下象棋、下圍棋、打王者榮耀等。
在這其中,圍棋和象棋等屬于完美信息博弈。即遊戲雙方在每次落子前都能看到全局信息,也就是相互能看到彼此的情況。
這對 AI 來說難度并不高,因為它可以通過強大算力暴力求解,找到一個最優解。
但是打麻将的情況就復雜了。
玩家之間不僅無法看到多個其他玩家的牌,還有大量信息隐藏在沒有揭開的牌裡,這就是典型的非完美信息博弈。
也就是說 AI 和人類玩家在最開始時都只能看到自己手裡的 13 張牌,另外有一百多張牌未知。而且在每次打牌時要做一系列復雜的決策,比如是否吃牌、碰牌、胡牌等,做出的決策還要兼顧進攻和防守。
與此同時,其他玩家的吃碰杠操作都會改變接下來的摸牌順序,決策更加復雜。
在這樣一個橫坐标表示可觀察信息量、縱坐标表示隐藏信息量的圖示中,可以看到麻将包含的隐藏信息遠遠高于其他棋牌遊戲。
所以該怎麼辦?
騰訊 AI Lab 提出了一種基于強化學習和遺憾值最小化的自我博弈技術。
這使得 AI 能從零開始自我學習和提升能力,并最終收斂到一個最強的混合策略,在實際對戰過程中可以具備更加平衡的策略能力。
同時考慮到傳統的非完美信息搜索算法在麻将面前很難發揮太大作用,研究人員還基于樂觀價值估計的思想,提出了一種高效的非完美搜索方法,使得 AI 能在海量隐藏信息的遊戲狀态中,實時調整當前策略,更好應對多變的戰局。
據研究員介紹,相比人類,AI 在麻将遊戲中,擁有更加平衡的策略,對局勢的計算非常精确,其中包括打每張牌的期望收益、未來可能胡哪些番型等等。在這樣的 " 策略 " 訓練下,AI 之後也能更快速進入到其他行業中去。
在具體實戰測試中,絕藝 LuckyJ 是在 " 天鳳 " 中對決。
這是一個老牌日本麻将遊戲平台,創建于 2006 年。
從 bootstrap 分布來看,絕藝 LuckyJ 顯著強于另外兩個日本麻将 AI(Suphx、NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。
另外在國标麻将将近 2000 場對局中,絕藝 LuckyJ 的平均赢番達到 1.76 番。
(這裡番表示國标麻将的結算部門,數值越大說明赢得越多)
遊戲 AI 已經跨行應用了
不過,這麼費勁提升 AI 的打麻将能力,當然不是只想讓它打麻将。
騰訊 AI Lab 研究員介紹,在遊戲環境中推進決策 AI 的能力,最終是希望 AI 能從虛拟走向現實,解決真實世界的復雜問題。
在現實世界中充滿了需要在非完美信息狀态下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等。
而且騰訊 AI Lab 也已經有了實際案例。
其旗下另一個決策 AI絕悟,就學會了識别病理全片掃描影像中的病灶位置,效率是傳統方法的 400%。
這個 AI 找尋最優看片路徑的方法,是基于強化學習。
它避免了用傳統的窮舉方式去分析局部影像切塊,而是先決策找到有觀察價值的區網域,并通過跨多個分辨率級别獲得代表性特征,以加速完成全片判讀。
通過模仿人類的思維方式,不僅提高了看片效率,還做到了節約成本。
綜上,會玩《我的世界》的絕悟已經能懸壺濟世了,也讓人期待會打麻将的絕藝之後能跨行幹啥呢?
你覺得絕藝 LuckyJ 有哪些可應用的方向?