大学教授跳槽腾讯，用1年时间解决行业难题？

今天小编分享的游戏经验：大学教授跳槽腾讯，用1年时间解决行业难题？，欢迎阅读。

广阔天地，大有作为。

文 / 以撒

又是一年 GDC 落幕。这个关乎游戏产业未来的「游戏圈春晚」，年年都是神仙打架。今年的情况可能更特别——「AI+ 游戏」是这一年的关键词，这是现在最前沿、最受关注的领網域。所以没两把刷子的团队，可能都很难在这里分享。

不过中国团队还是很争气，以腾讯、网易、米哈游、字节为首，他们组团参与这个顶级盛会，就 AI、渲染、跨端等多个维度与全球游戏开发者做了分享和交流；腾讯系海外全资及控股工作室 Digital Extremes、拳头、Supercell 等也带来近 10 场分享。足以见得，我们整体上在很多方面的水平确实已经上了国际牌桌。

这些分享中让我印象深刻的一场，是腾讯魔術方塊技术中心 AI 团队负责人 Elvis 分享的技术：「《火影忍者》手游：针对格斗游戏大规模强化学习的优化」。它是 GDC AI 峰会 16 场主题分享中的一场，含金量相当高。研发游戏 AI 的团队并不少，它特别在哪儿？

你可以这么理解：在格斗游戏领網域，这是全球首次这样应用强化学习技术——在此之前，根本就没多少人尝试用三四百个机制各异的角色，去做大规模的强化学习，毕竟这训练成本想想就非常恐怖。但魔術方塊这支 AI 团队花了一年多时间，就找到了高效率的解决方案，报名 GDC 后，这个议题也很快被官方 pick 了。

在这背后，他们到底经历了什么？我们和负责人 Elvis 聊了聊，发现 Elvis 和这支团队近年的历程还挺有趣。

20 年经验学术大佬，

加入腾讯做 AI

我们不妨从 Elvis 的故事聊起：和很多人一样，他小时候的梦想是当科学家；但和大多数人不一样的是，他真的一步一步读到博士，实现了科研梦想。

早期他研究过游戏引擎，拿过中国发明家协会的发明银奖；读博时，他研究的专业是仿真系统；后来他又去 IBM 研究过超级计算机的大规模仿真系统，顺便拿了 ACM 的全球论文奖……后来，他就一直在海外担任大学教授，课程依然涉及游戏开发。到现在，他在物理仿真、大规模虚拟世界、游戏 AI 等领網域的研发经验已经有 20 多年。

这样一个学术大佬，为什么选择加入腾讯做游戏 AI？

最大的原因，可能是在高校任职多年后，他逐渐发现：梦想并不像现实那样美好。

Elvis 说，之前在海外时，大部分高校的运作模式和他小时候的想象不太一样——「大家都很重视 KPI，可能每年会给你一个棒形图作为推手，统计每个教授的文章发表数量、排名。」重视研究倒无可厚非，但关键在于，他们在申请研究经费时，往往要写上未来三年的发表量，如果某一年审核不达标，经费可能就拿不到了。

这一点让 Elvis 挺迷惑：「如果真的要做一个很有影响力的研究，你怎么可能在还没做之前就知道自己每一年能发表多少呢？你连研究是否成功还不知道呢！」特别是久而久之，许多年轻的教授都会顺着这样的规则，倾向于去做非常保守、安全，基本没什么应用场景的研究。因为考虑到经费和学校给到的压力，他们没有这个冒险的空间。

但 Elvis 可能天生是个不安分的人：他真正想做的，是更有影响力、有大规模应用场景的事。结果机缘巧合，他 20 多年的老朋友——魔術方塊的技术总监，正好和他聊到了这件事。聊过后，他很快就决定加入魔術方塊，去从头组建一支 AI 技术团队。

有腾讯的平台在，这支团队组建得不算困难，成员中既有游戏行业从业者，也有像 Elvis 一样的科研工作者。有意思的是，比起团队成员的实践能力，Elvis 最看重的一个因素，是听起来比较虚的「热情」。

热情这种事要怎么测试？Elvis 说，他每次在面试环节，都喜欢提两个特别的问题——为了保护「机密」，题目我不能具体描述，但你可以想象到，他提的是那种常见的开放性题目。比如经常被网友调侃的「一头牛重 800 公斤，一座桥承重 700 公斤，请问牛怎么过桥？」（仅为举例，真实题目还是更严谨一些）

当然，他问这个不是为了一个标准答案，或者抖机灵的回答，而是会一直问面试者：「还有没有更好的方案？有没有更好的回答？」一次一次问下去，即便说不出最优解，但只要能耐心地一直探究下去，这种热情其实就比大多数人强了。

一年时间，

解决世界性难题

团队组建起来之后，Elvis 面对的第一个项目，就是个艰巨的挑战。

这个项目，是用强化学习的方式，为《火影忍者》手游研发角色的对战 AI。为什么魔術方塊会想到做这个？Elvis 说，他们并非一个纯粹的科研团队，而是贴近产品的技术团队，他们做的事都是为了解决项目组的需求。

而这个 AI 主要解决两个需求：一个是在「晓 · 觉醒」和「爬塔玩法」等 AI 挑战赛中挑战 AI；另一个是因为《火影忍者》手游角色超多，光靠人力验证平衡性会很难，如果能用 AI 的自我对战提供大量数据参考，调整起来就会更有效率。听起来很实在，但讲真，这无论对《火影忍者》手游，还是魔術方塊来说，都算是一个相当激进的创新。

强化学习和传统的行为树 AI 不一样，不是靠固定的动作路数来出招，也没有数值上的加成，而是要通过自博弈（Self-play）的训练方法，让 AI 左右互搏，模拟人类的反应、技巧，像真人一样公平地走位、玩心机、拼操作，不断提升水平。在技术层面，这倒不至于特别难。

但对《火影忍者》手游这种类型的产品，它太难了：游戏里的角色有三四百个，每个人都有一套独立的机制、动作模组，总技能数上千。这个数量一多，训练时间和算力成本就成倍上升——「20 个角色的对局要训两天，如果是 400 个角色，对局数起码是 200 多倍。你可以想象，这样训下去可能一年多才能训完一次，这是不可行的。」

在初期，Elvis 就和团队攻坚这个难题。大概一年后，他们找到了一种巧妙的方法，直接让训练需要的时间和资源都下降了 90%。

对这种方法，Elvis 有一个比喻：「张无忌学太极剑时，张三丰让他忘记招式，我们的做法有点类似。」在传统方案中，AI 要记住每个对手的技能，再一一查找 ID，进而用对应的方式反击——这就好比让张无忌把天下所有门派的武功招式都记住再去打架练习，等他一遇到新的对手，又要从头学习一遍。

而新的方案，就是「忘记招式」——不再让 AI 查找技能，而是把所有技能标出详细的属性，比如 XY 轴的攻击范围、起手的速度、后摇时间的长短……让 AI 识别这些泛化的属性，把所有招式都看成同一种武功心法，用已有的经验应对。这样一来，既能省去查找和训练的时间，也不用担心遇到新角色要再次学习。

解决了这个最大的难题，魔術方塊在格斗游戏 AI 上的强化学习技术和应用，可以说已经在世界范围内领先了。《火影忍者》手游本身也很争气，已经保持了 8 年常青和连续增长。

除此之外，他们也会遇到一些其他层面的问题。比如 AI 的打法非常务实：为了保证获胜，它往往会只用效果最好的技能，结果就是一些辅助手段一直捏在手里没用过。这种做法其实没什么不对，但从项目组的角度来看，这种模式不够「拟人」，也体现不出很多角色的设计特点。

为了解决这个问题，他们又引入了更加丰富的奖惩体系——强化学习的基础原理，就是通过不同的奖惩条件，让 AI 一次次不断接近更加「正确」的行为模式。举例来说，設定「三技能使用」的奖励，就是鼓励 AI 多用大招，要么用来斩杀对手，要么在保证能衔接技能的情况下放大招。这些如果放在 AI 绝对理性的判断下，可能没那么「有效」，但这种打法显然是更精彩、更拟人的，毕竟哪个人类玩家会不喜欢秀呢？

后来，除了解决一开始的两个需求外，这项技术也被应用到了《火影忍者》手游 2022 年的「晓•觉醒」活动里。这场人机大战一开打，就引起了相当多玩家的挑战和热议。有趣的是，在活动最难的第三阶段，还有 10% 的玩家战胜了 AI。

在未来，这项技术还有很大的发展空间。比如结合角色设定，他们可以尝试训练出更加性格化的 AI，让角色给人的感受更加立体、真实；另外，他们也正在探索一些类似爬塔的，与玩法相结合的新模式。不管怎么用，大概都能让玩家有更新奇多元的体验。

游戏行业的能量，

远超我们想象

在 GDC 之前，这套技术方案已经在去年的世界人工智能大会分享过一次，这次也是它第二次在世界舞台上露面。GDC 现场，Elvis 分享完后，不少游戏开发者都忍不住围上来，排队与他继续交流。

有一位海外开发者问到「如何保证 AI 忍者的乐趣？」，Elvis 说：「游戏的核心还是要好玩，所以 AI 的难度设计并不是越难越好。实际上，经过我们的测试，如果仅保留以胜利为目标的奖惩体系，AI 为了获胜，战斗行为会变得非常保守，让战斗体验不那么有趣，这也是为什么我们还加入了第二套更加细致定义忍者行为的奖惩体系，让 AI 忍者的行为更有个性，更好玩。」

和 Elvis 聊到这些经历，让我挺感慨的——魔術方塊在 GDC 分享了全球首次将强化学习应用于格斗游戏的经验，只是上千场演讲中的一个例子而已。那么多团队，有那么多故事，他们的能量汇集在一起，游戏行业的势能其实远超我们想象。而国内大厂的这么多前沿技术探索在 GDC 亮相，背后的意义可能也比我们想象中还要深远。

在 36 年前，首届 GDC 大会由 Chris Crawford 在自家的客厅中举办，参会人数仅仅 25 人；而 36 年后，这一届 GDC 在美国旧金山最大的会议中心举办，里面聚集了 1000 多场演讲、近 3 万名从业者，演讲提案要经过专家委员会多轮筛选，据说申报最终通过率可能不足 15% ……有如此强大的影响力，可以说 GDC 已经代表着游戏行业最前沿的动向和未来趋势。

反过来说，这些登上 GDC 的开发者和团队，都在积极拥抱全球化的游戏研发进程，并用自己的探索影响着游戏行业的未来。不管平时怎么调侃国内大厂，这一点我还是挺 Respect。

就拿魔術方塊来说，从一个玩家的角度出发，我从来没期望过《火影忍者》手游搞这么前沿的 AI 技术；从开发者角度思考，从头建团队、做这么激进的方案，好像也有点危险。尤其是在这几年，能把团队养活都不错了，还有多少人顾得上搞这种超长线的投资？

但从功利的角度想想，这或许也是因为此前的一些经历，让魔術方塊对前沿产品所需的积累和储备格外敏感、敢去冲这样的项目。好比 Enzo（魔術方塊总裁张晗劲）说的：「就像自己天天在家练功夫，突然有一天发现外面的人都用上机关枪了。这时你的第一反应不会是为什么我这次没打赢，而是开始怀疑，我大概率打一万次也打不过。」

原文：晚点 LatePost 报道

所以，自从魔術方塊 AI 团队的技术以《火影忍者》手游为范本取得多项专利后，他们的「集海训练系统」也陆续应用到 FPS 领網域的《暗区突围》手游，以及另外三款在研新品中。AI 团队规模人数，在 2023 年扩充了 50% 左右。除了游戏内的智能 AI 外，他们也开始探索应用于不同品类游戏的生成式 AI 项目，大大加速了游戏美术和动画资源的生产效率。

在产品层面上，整个射击品类的成绩，也是靠他们这种势头冲出来的。从《独立防线》到《王牌战士》，再到《暗区突围》，在付出八年时间、三代产品前赴后继的努力之后，魔術方塊终于拿到了射击品类的门票——发行 1 年，全球用户已经超过了 1 亿。

而上升到腾讯，乃至其他头部大厂的层面，这一点其实是一样的——如今腾讯已经有了足够充分的条件和位置，他们就是一定要走向全球、影响未来的。

怎么影响呢？有一些挺实在的例子可以聊聊。比如 Elvis 就提到，他在魔術方塊很开心的一个原因是：他在高校的研究成果，可能只会有几百人看看论文，根本没地方应用；而在游戏团队的研发成果，大概率会和数百万玩家见面。

这或许也关系到做学术和做工程的本质区别。Elvis 举了另一个例子：「科学跟工程最大的区别在哪？有一篇关于网络游戏架构的论文曾在 2004 年发表，它是这个领網域里引用量最高的论文。但是从 2004 年到 2024 年，从来没有一个成功的游戏应用它的架构，一个也没有。」

「我经常举这个例子——科学跟工程最大的区别就在这里，工程不一定要非常创新，不一定要做很多高大上的事情，但一定要解决真正的问题。」

而放眼全球，游戏厂商的优势就在这里。以腾讯为例，如今它已经在海外通过投资并购，或者自建了庞大的团队，全球化也早就布局已久——早在 2008 年就投资了拳头，2021 年还组建了 Level Infinite 全面出海；最关键的，是它拥有极大规模的用户，这正好就是行业未来发展所必需的，前所未有的技术挑战和训练条件，在这么多用户的接触和碰撞之下，真正的应用会放出火花。

如今，中国厂商已经在这条路上迈出了一大步。我相信在不久的未来，我们还能见到更厉害的成果，看到他们实实在在地让游戏行业变得更好。

游戏葡萄招聘内容编辑，