今天小编分享的科学经验:中国AI麻将打出新高度!战胜真人职业选手,鹅厂「绝艺」刷新战绩,欢迎阅读。
不愧是中国 AI,打麻将 " 轻松 " 登顶。
腾讯最新消息,旗下棋牌类 AI" 绝艺 "LuckyJ在日本麻将平台 " 天凤 " 上,刷新 AI 在麻将领網域最好成绩。
仅需1321 盘对局,绝艺 LuckyJ 就达到了 AI 最高段位,比第二名 Suphx 减少了 4052 盘对局。
而且它的能力稳定在十段,要知道人类顶级选手的平均稳定段位也只有 7.4。
在日本麻将天凤平台上,绝艺 LuckyJ 也成为仅有的27 个达到十段的玩家之一(包括 AI),而该平台的平均活跃人数在 23.8 万。
不止是日本麻将,在国标麻将中,绝艺 LuckyJ 也曾击败过六位职业选手,成为首个战胜国标麻将职业选手的麻将 AI。
其中一位国标麻将选手作出了这样的评价。
我们通常所谓的妙手、灵光一现,甚至是基于经验和感觉做出的置之死地而后生的选择,对于 AI 来说可能都是常规操作了。
在绝艺 LuckyJ 拿下日本麻将十段后,还有不少网友前来祝贺。
毕竟在 AI 打麻将背后,提升的其实是 AI 在问题决策上的能力,这也有利于让 AI 去解决更多现实生活中复杂的问题。
所以绝艺 LuckyJ 是怎么做到的?
打麻将 AI 需要学会更平衡的策略
先来看 AI 打麻将难在哪。
对于 AI 来说,玩游戏是一种极佳的检验其能力的方式,常见形式比如下象棋、下围棋、打王者荣耀等。
在这其中,围棋和象棋等属于完美信息博弈。即游戏双方在每次落子前都能看到全局信息,也就是相互能看到彼此的情况。
这对 AI 来说难度并不高,因为它可以通过强大算力暴力求解,找到一个最优解。
但是打麻将的情况就复杂了。
玩家之间不仅无法看到多个其他玩家的牌,还有大量信息隐藏在没有揭开的牌里,这就是典型的非完美信息博弈。
也就是说 AI 和人类玩家在最开始时都只能看到自己手里的 13 张牌,另外有一百多张牌未知。而且在每次打牌时要做一系列复杂的决策,比如是否吃牌、碰牌、胡牌等,做出的决策还要兼顾进攻和防守。
与此同时,其他玩家的吃碰杠操作都会改变接下来的摸牌顺序,决策更加复杂。
在这样一个横坐标表示可观察信息量、纵坐标表示隐藏信息量的圖示中,可以看到麻将包含的隐藏信息远远高于其他棋牌游戏。
所以该怎么办?
腾讯 AI Lab 提出了一种基于强化学习和遗憾值最小化的自我博弈技术。
这使得 AI 能从零开始自我学习和提升能力,并最终收敛到一个最强的混合策略,在实际对战过程中可以具备更加平衡的策略能力。
同时考虑到传统的非完美信息搜索算法在麻将面前很难发挥太大作用,研究人员还基于乐观价值估计的思想,提出了一种高效的非完美搜索方法,使得 AI 能在海量隐藏信息的游戏状态中,实时调整当前策略,更好应对多变的战局。
据研究员介绍,相比人类,AI 在麻将游戏中,拥有更加平衡的策略,对局势的计算非常精确,其中包括打每张牌的期望收益、未来可能胡哪些番型等等。在这样的 " 策略 " 训练下,AI 之后也能更快速进入到其他行业中去。
在具体实战测试中,绝艺 LuckyJ 是在 " 天凤 " 中对决。
这是一个老牌日本麻将游戏平台,创建于 2006 年。
从 bootstrap 分布来看,绝艺 LuckyJ 显著强于另外两个日本麻将 AI(Suphx、NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。
另外在国标麻将将近 2000 场对局中,绝艺 LuckyJ 的平均赢番达到 1.76 番。
(这里番表示国标麻将的结算部門,数值越大说明赢得越多)
游戏 AI 已经跨行应用了
不过,这么费劲提升 AI 的打麻将能力,当然不是只想让它打麻将。
腾讯 AI Lab 研究员介绍,在游戏环境中推进决策 AI 的能力,最终是希望 AI 能从虚拟走向现实,解决真实世界的复杂问题。
在现实世界中充满了需要在非完美信息状态下做决策的场景,比如金融交易、自动驾驶、交通物流、拍卖系统等。
而且腾讯 AI Lab 也已经有了实际案例。
其旗下另一个决策 AI绝悟,就学会了识别病理全片扫描影像中的病灶位置,效率是传统方法的 400%。
这个 AI 找寻最优看片路径的方法,是基于强化学习。
它避免了用传统的穷举方式去分析局部影像切块,而是先决策找到有观察价值的区網域,并通过跨多个分辨率级别获得代表性特征,以加速完成全片判读。
通过模仿人类的思维方式,不仅提高了看片效率,还做到了节约成本。
综上,会玩《我的世界》的绝悟已经能悬壶济世了,也让人期待会打麻将的绝艺之后能跨行干啥呢?
你觉得绝艺 LuckyJ 有哪些可应用的方向?