今天小编分享的科技经验:腾讯网易急入局,桌崽留存超豆包,游戏新世代由AI队友开启,欢迎阅读。
2024 年,AI 在游戏行业正不断由表及里,不断触及游戏机制的核心。
大家比较熟知的《沙威玛传奇》,更多是用 AI 赋能制作,降本增效,到后来《1001 night》、《换你来当爹》中,AI 成为游戏的核心玩法。最近,背靠大厂的《永劫无间》《暗区突围》里的 AI 技术再次往前进了一步,要成为玩家在游戏中的 " 助手 "、" 队友 "。
AI 作图 by 娱乐资本论
和腾讯、网易做游戏内 AI 队友不同,就在上个月,一款名为 " 桌崽 AI" 的桌面陪伴宠物火了起来,在传统桌宠的外衣下,它真正做到了懂玩家、懂游戏,且在游戏过程中提供了实实在在的价值(查攻略、实时陪聊)。从功能性这一点看,颇有点当年游戏语音助手 YY 的意思。
内测一个月,总注册用户超过 1 万,DAU 超过 3000,付费率超出意料之外。
留存率也挺高,次留 63%,7 日留 29%,30 日留 22%,平均每日时长 237 分钟。这个数据,甚至超过了很多国内大厂的大模型产品。
要知道,根据之前一张盛传的统计图表,国产 AI 大模型用户在 30 日后,往往流失严重,从字节的豆包,到百度的文心一言(现在改名文小言),30 日后使用率就都低于 1%。
问题来了,为何 AI 布局这么多赛道,唯独在在游戏赛道如此成功?
原因就在于,游戏佬既对科技感兴趣,又对 AI 助手有强刚需,而这样的盲點和痛点,正是目前 AI 在其他领網域少有触及,也需要一定门槛的部分。
AI 助手,或许将成为 AI 领網域竞争的下一个胜负手。
跨次元的碰撞
桌崽 AI 的制作团队,是国内一家名叫脸谱心智的企业,成立于去年 6 月。
创始人 Adam 是个爱玩游戏的 95 后,本硕毕业于帝国理工学院。在创业前,他在亚马逊、微软都工作过,对聊天机器人颇有研究。
由于创始人及其整个团队,对游戏都十分热爱,因此桌崽 AI 在推出时,就具备了其他同类产品少有的优势——对当前各大主流游戏的匹配。
目前,桌崽 AI 已经适配了《黑神话 · 悟空》、《原神》、《绝区零》、《鸣潮》等 20 多款游戏。
只要打开游戏,桌崽 AI 就会在螢幕上陪着你。玩家可通过文字或语音,与和桌崽进行实时的互动。
但是,仅仅做到 " 陪伴 ",还远不能让其脱颖而出。
如前所述,其核心亮点在于 " 懂游戏 "、" 懂玩家 ",这点主要体现在两方面:其一是,在游戏过程中,桌崽 AI 不仅能看懂游戏中的画面、内容,并且还能根据玩家的行为,针对性地进行反馈。
例如玩家要是发挥得好,它就会夸玩家很棒;要是玩家不幸失手,它也会用幽默的语言进行调侃。
第二个方面就在于,在看懂游戏的基础上,它还能实时提供游戏攻略,在玩家卡关时提供帮助。
这样一来,玩家就再也不用在游戏时,切换回桌面,再打开浏览器去各种网站、论坛搜攻略了,桌崽就站旁边告诉你该怎么打通关。
除了这些核心功能外,桌崽还能通过生成式 AI,根据玩家的喜好,定制出各种不同的外形、声音,而这种个性化的特点,又进一步增加了玩家的粘性。
然而,这样的功能,虽然看着简单,但真正要实现起来,背后却有着一定的技术门槛,
具体来说,这样的门槛包括了:
多模态游戏陪玩大模型——让 AI" 懂游戏 ";
二次元视频生成大模型——自定义外观;
语音声线定制大模型——自定义声音(语音克隆等);
其中多模态游戏陪玩大模型,是其与游戏契合的关键所在 ,按照脸谱心智的介绍,该模型的运作机制,是经用户授权后,模型把游戏画面、音效和用户带有各种情绪的声音作为输入,从而给予和游戏进度同频的个性化反馈。
从技术上来说,关于游戏知识性方面的信息,模型尚且可以通过吸收各种来源的资料(游戏介绍、攻略)等,来让自己 " 精通 " 不同的游戏。
但最大的难点就在于,怎样让模型在理解各种不同模态的输入(画面、声音)的同时,还能做到实时反馈?
这就涉及到了一个十分重要的技术——多模态融合。
从某种程度上说,这是决定将来大模型在游戏中广度、深度的一个重要技术。
会看、会听的 AI 队友
多模态技术,之所以在游戏 AI 的下一阶段如此重要,主要是因为,在之前所有结合了 LLM 的游戏,例如《1001 night》等作品中,AI 的定位与作用,始终都脱离不了 " 对话 " 这一单调的框架。
这种局限,使得 AI 在游戏中的作用,被限定在了提供对话选项和简单的互动,而无法深入到其他方面。
而通过对不同模态的数据进行特征提取,游戏中的 AI 助手,可以将原始数据转换为可以被模型处理的数值表示,同时将异构特征投影到公共子空间,使得具有相似语义的多模态数据由相似向量表示,从而让 AI 理解了不同模态的信息。
实际上,这种多模态的思路,已经愈发成为了一种 AI+ 游戏的潜在发展方向。
在今年英伟达展示的一个名为 G-Assist 的游戏助手项目中,这个由 RTX 驱动的 AI 助手,会通过分析玩家的语音或文本指令,以及游戏界面截图,提供实时攻略等相关帮助。
这与桌崽 AI 的某些思路几乎如出一辙。
G-Assist 的核心技术在于其 AI 视觉模型,通过集成先进的 AI 视觉模型,G-Assist 能够实时分析游戏視窗中的视觉信息,比如识别螢幕上出现的敌对 NPC,或是推荐优选武器和材料收集方法。
而除了 " 会看 " 之外,这类多模态融合技术的另一大挑战,就是怎样在实时的游戏中,以极低的延迟实现玩家与 AI 之间的语音互动。
最理想的状态,是玩家能像平时说话时那样,与 AI 助手进行即时的交流,这考验的是 AI" 会听 " 的功夫。
在今年 5 月的开发者大会上,微软推出了 Copilot+ PC,一款为 AI 时代而生的全新 PC,其同样具备了在游戏中充当 AI 助手的能力。
例如,在《我的世界》视频演示中,通过集合 Open AI 的 GPT-4o 模型,Copilot 能够实时分析游戏画面内容,并根据不同的情境、场景,以各种语调、语气与玩家交流。
像是当玩家成功躲避敌人的追击后,Copilot 就会发出喘气声并祝贺玩家成功找到庇护处。
这种实时的、低延迟的语音互動,背后依托的技术,大致可以抽成两种,一种是传统的,以神经网络为基础的文本转语音(Text-to-Speech )技术,也称 TTS;另一种则是端到端的,GPT-4o 所展现的那种实时语音技术。
从技术力上来说,后者的要求更高,但效果也远优于前者。
这是因为,传统的 TTS 合成,通常需要先将文本转换为语音,其输出往往存在一定的延迟,这样的差距,在某些竞技类、动作类等要求快速反应的游戏中,会显得尤为突出。
更重要的是,由于整合了意图理解、自然语言处理等环节,端到端的语音大模型,在做到 " 如真人般丝滑 " 的同时,还能根据不同的情境,实时地调整自身的语气、语调。
而传统 TTS 要做到这点,只能预先进行人为的設定。
在具备了 " 会看 "、" 会听 " 的能力后,LLM 在游戏中的定位,就不再仅限于单纯进行对话的 NPC,甚至不再局限于能够实时互動的 AI 助手,对于某些更有野心的游戏大厂来说,这种多模态技术的成熟,还成为了在 AI 时代,重新构筑自身护城河的一种新手段。
Agent 技术,让 AI 胜似真人
在打破了 " 对话 " 这一框架的局限后,AI 助手在游戏中能干什么?
网易在《永劫无间》中给出的答案是:一个能听懂语音指令,实现自动跑图、搜集物资,配合战斗的智能化 AI 队友。
6 月 19 日,《永劫无间》手游在 " 定胜终测 " 中引入了全新的 " 游戏 Copilot" 功能。并依托先进的 LLM 技术,为玩家提供了一个胜似真人的 AI 队友。
这样的队友,究竟有多智能?
举例来说,在战斗中,玩家要是说了句:" 给我来点药 ",AI 队友马上跑到玩家身边给予相应的道具。
同样地,在战斗中,AI 队友不仅能指哪打哪,也会通过自主判断战场局势优化决策,打造和真人队友组队开黑一致的默契体验。
有时候,对于一些具体的道具搜寻,AI 队友也能有求必应。
除了基本的战斗、搜寻指令外,AI 队友还会主动搭话,聊天,在战斗之余缓解氛围,为玩家提供情感陪伴的价值。
总的来说,这个 AI 队友能跑图,搜物资,战斗,辅助救援,与玩家实时语音聊天,真人队友能做到的一切,它也几乎全做到了。
而要实现这些,网易靠的正是前面提到的多模态识别、实时语音互動等技术。
具体来说,这个 AI 队友,不仅能听懂玩家的话(语音识别)、观察战场局势(视觉信息输入)、了解地图和英雄技能(游戏机制学习),甚至借助诸多高手的大数据学会了如何打好永劫手游。
但除了多模态之外,要打造这样智能化的 AI 队友,还有一块最重要的拼图:AI Agent 技术。
这是因为,多模态 +LLM 的组合,尽管解决了 AI 队友看、听、理解与交流的问题,但要真正让其成为游戏中的得力助手,它就必须会亲自操作游戏。
这背后靠的正是 AI Agent 技术。
与传统依靠预设程式执行固定操作的 NPC 不同,Agent 技术赋予了 AI 队友更高的灵活性和自主性,这是因为 Agent 技术让 AI 队友具备了 " 自主规划 " 与 " 自我操作 " 的能力。
在 AI 领網域,Agent 指的是能够感知环境、做出决策并执行行动的系统,能够在复杂多变的环境中独立完成任务。
实际上,早在《永劫无间》的 AI 队友出现前,业内早已对 Agent+ 游戏的方向进行了一番探索。比如说网易自身,就有一个叫网易数智的 AI 平台,提供 MMO、SLG 等游戏类型的 AI 对手。
还有在今年 3 月,Google 的 DeepMind 就公布了一项关于新型 AI 智能体 SIMA 的开创性研究,旨在让智能体能够理解并执行多种游戏环境中的自然语言指令。
让 SIMA 在游戏中执行操作,只需要两个输入:螢幕上的影像和用户提供的自然语言指令。在测试中,SIMA 在九种不同的游戏上进行了训练和测试,包括《无人深空》和《拆解》,并在其中进行了驾驶飞船、挖矿、砍树等一系列操作。
通过从不同的游戏世界中学习,SIMA 捕捉了影像、语言与游戏玩法行为之间的联系。
这样的联系,来自游戏过程中收集的大量数据。比如螢幕上的画面、音效、文字说明,甚至滑鼠和键盘的操作记录。
之后,收集的数据集被用于训练预先设定的模型,以适应不同的游戏场景和任务。
从玩法机制上来说,AI Agent 技术在游戏领網域的介入,几乎是一种必然,因为有太多的游戏,都存在着需要复杂规划和多个子任务才能完成的目标了,例如 " 寻找资源并建立营地 " 等等。
而这类融合了多模态、Agent 等技术的游戏尝试,在发展到一定阶段后,必定会出现某个成熟的 " 集大成者 "。
例如《暗区突围》中的 AI 队友,就是这样一个例子。
更高的壁垒,更高的体验
在今年 8 月的科隆游戏展上,腾讯魔術方塊工作室分享了自研的最新 AI 技术——F.A.C.U.L.。
这是由魔術方塊工作室联合暗区突围项目团队,推出的全球首个语音指挥 FPS AI,应用了最先进的生成式 AI 技术,包括语音输入、大语言模型、实时语音合成和环境识别等。
所谓的 F.A.C.U.L.,实际上是一系列核心功能的集合,为的是使 AI 表现得更像人类队友。
具体来说,它包括了:
Complex Command Recognition(复杂指令识别) :这个功能意味着 AI 可以理解玩家下达的复杂命令,使其能够识别和执行多步指令,适应不同的战术需求。
Tactic Execution(战术执行) :指 AI 具备执行战术操作的能力,比如掩护、包抄、进攻等。AI 不再是简单地跟随玩家或进行基础攻击,而是能够参与到更复杂的战术中。
Object Identification(物体识别) :这意味着 AI 可以识别场景中的特定物体,比如敌人、掩体、道具等。这种识别能力是执行任务和战术的基础,帮助 AI 在复杂环境中做出合适的决策。
Human-Like Interaction(类人互動) :旨在让 AI 在行为上更加接近人类,AI 会表现出类似人类的反应,增强游戏的沉浸感。
虽然与《永劫无间》中的 AI 队友一样,《暗区突围》的 F.A.C.U.L. 也结合了多模态、Agent 等技术,但从复杂度和要求上来说,其却比前者更上了一个台阶。
这主要是因为,与《永劫无间》相比,《暗区突围》中的道具、武器、场景更多,更复杂,战斗中需要执行的战术也更多样化,更充满变数。
例如,"F.A.C.U.L." 将允许 AI 角色识别多大 1.7 万个游戏物品,包括建筑物、武器、地表。魔術方塊工作室称它们甚至能识别 " 一根草 "。
在具体战斗中,玩家还可以对 AI 队友还可以发处一系列连续的、复杂的指令,而 AI 队友在执行这些指令时,不仅能准确理解其含义,还能知道指令中提到的 " 沙袋 "、" 汽车 " 究竟在哪。
在执行指令时,F.A.C.U.L. 首先会基于多模态输入,对环境进行结构化分析,建立一个包含敌我位置、障碍物、目标物体等要素的 " 局势地图 "。
之后,当玩家发布 " 清理房间并守住出口 " 这样的复合命令时,AI 队友就会通过 Agent 的任务分解与多步骤执行能力,将其分解为多个步骤:首先清理敌人,然后搜索物资,最后在出口守卫。
这种多阶段任务分解与执行能力,是 Agent 技术中 " 自主规划 " 的重要环节,也是 F.A.C.U.L. 这类 AI 高效、灵活地完成任务的关键。
结语
可以说,《永劫无间》、《暗区突围》这样的例子,揭示了随着多模态、Agent 等技术的进一步发展,AI 在游戏中的介入程度正不断加深,其带来的游戏体验上的提升,也越来越明显。
但与此同时,AI+ 游戏的另一大趋势是:随着技术复杂度不断提升,"AI 游戏 " 的门槛和壁垒也在一步步变高,有实力留在牌桌上的选手,也成了资源和资金更加充足的大厂。
然而,从行业的角度来说,这种不断提升的门槛,也未尝不是一件好事。
因为随着大厂逐渐主导 AI+ 游戏领網域,AI 游戏的制作,会迈入一个更稳健,也更有标准和规范可循的 " 工业化时代 ",其品质的提升会更扎实,更可控。而非像 AI 游戏的初期阶段那样,游戏的爆火与走红,大多只能靠团队的 " 灵感 "、禀赋或运气。