騰訊網易急入局，桌崽留存超豆包，遊戲新世代由AI隊友開啟

今天小編分享的科技經驗：騰訊網易急入局，桌崽留存超豆包，遊戲新世代由AI隊友開啟，歡迎閱讀。

2024 年，AI 在遊戲行業正不斷由表及裡，不斷觸及遊戲機制的核心。

大家比較熟知的《沙威瑪傳奇》，更多是用 AI 賦能制作，降本增效，到後來《1001 night》、《換你來當爹》中，AI 成為遊戲的核心玩法。最近，背靠大廠的《永劫無間》《暗區突圍》裡的 AI 技術再次往前進了一步，要成為玩家在遊戲中的 " 助手 "、" 隊友 "。

AI 作圖 by 娛樂資本論

和騰訊、網易做遊戲内 AI 隊友不同，就在上個月，一款名為 " 桌崽 AI" 的桌面陪伴寵物火了起來，在傳統桌寵的外衣下，它真正做到了懂玩家、懂遊戲，且在遊戲過程中提供了實實在在的價值（查攻略、實時陪聊）。從功能性這一點看，頗有點當年遊戲語音助手 YY 的意思。

内測一個月，總注冊用戶超過 1 萬，DAU 超過 3000，付費率超出意料之外。

留存率也挺高，次留 63%，7 日留 29%，30 日留 22%，平均每日時長 237 分鍾。這個數據，甚至超過了很多國内大廠的大模型產品。

要知道，根據之前一張盛傳的統計圖表，國產 AI 大模型用戶在 30 日後，往往流失嚴重，從字節的豆包，到百度的文心一言（現在改名文小言），30 日後使用率就都低于 1%。

問題來了，為何 AI 布局這麼多賽道，唯獨在在遊戲賽道如此成功？

原因就在于，遊戲佬既對科技感興趣，又對 AI 助手有強剛需，而這樣的盲點和痛點，正是目前 AI 在其他領網域少有觸及，也需要一定門檻的部分。

AI 助手，或許将成為 AI 領網域競争的下一個勝負手。

跨次元的碰撞

桌崽 AI 的制作團隊，是國内一家名叫臉譜心智的企業，成立于去年 6 月。

創始人 Adam 是個愛玩遊戲的 95 後，本碩畢業于帝國理工學院。在創業前，他在亞馬遜、微軟都工作過，對聊天機器人頗有研究。

由于創始人及其整個團隊，對遊戲都十分熱愛，因此桌崽 AI 在推出時，就具備了其他同類產品少有的優勢——對當前各大主流遊戲的匹配。

目前，桌崽 AI 已經适配了《黑神話 · 悟空》、《原神》、《絕區零》、《鳴潮》等 20 多款遊戲。

只要打開遊戲，桌崽 AI 就會在螢幕上陪着你。玩家可通過文字或語音，與和桌崽進行實時的互動。

但是，僅僅做到 " 陪伴 "，還遠不能讓其脫穎而出。

如前所述，其核心亮點在于 " 懂遊戲 "、" 懂玩家 "，這點主要體現在兩方面：其一是，在遊戲過程中，桌崽 AI 不僅能看懂遊戲中的畫面、内容，并且還能根據玩家的行為，針對性地進行反饋。

例如玩家要是發揮得好，它就會誇玩家很棒；要是玩家不幸失手，它也會用幽默的語言進行調侃。

第二個方面就在于，在看懂遊戲的基礎上，它還能實時提供遊戲攻略，在玩家卡關時提供幫助。

這樣一來，玩家就再也不用在遊戲時，切換回桌面，再打開浏覽器去各種網站、論壇搜攻略了，桌崽就站旁邊告訴你該怎麼打通關。

除了這些核心功能外，桌崽還能通過生成式 AI，根據玩家的喜好，定制出各種不同的外形、聲音，而這種個性化的特點，又進一步增加了玩家的粘性。

然而，這樣的功能，雖然看着簡單，但真正要實現起來，背後卻有着一定的技術門檻，

具體來說，這樣的門檻包括了：

多模态遊戲陪玩大模型——讓 AI" 懂遊戲 "；

二次元視頻生成大模型——自定義外觀；

語音聲線定制大模型——自定義聲音（語音克隆等）；

其中多模态遊戲陪玩大模型，是其與遊戲契合的關鍵所在 ，按照臉譜心智的介紹，該模型的運作機制，是經用戶授權後，模型把遊戲畫面、音效和用戶帶有各種情緒的聲音作為輸入，從而給予和遊戲進度同頻的個性化反饋。

從技術上來說，關于遊戲知識性方面的信息，模型尚且可以通過吸收各種來源的資料（遊戲介紹、攻略）等，來讓自己 " 精通 " 不同的遊戲。

但最大的難點就在于，怎樣讓模型在理解各種不同模态的輸入（畫面、聲音）的同時，還能做到實時反饋？

這就涉及到了一個十分重要的技術——多模态融合。

從某種程度上說，這是決定将來大模型在遊戲中廣度、深度的一個重要技術。

會看、會聽的 AI 隊友

多模态技術，之所以在遊戲 AI 的下一階段如此重要，主要是因為，在之前所有結合了 LLM 的遊戲，例如《1001 night》等作品中，AI 的定位與作用，始終都脫離不了 " 對話 " 這一單調的框架。

這種局限，使得 AI 在遊戲中的作用，被限定在了提供對話選項和簡單的互動，而無法深入到其他方面。

而通過對不同模态的數據進行特征提取，遊戲中的 AI 助手，可以将原始數據轉換為可以被模型處理的數值表示，同時将異構特征投影到公共子空間，使得具有相似語義的多模态數據由相似向量表示，從而讓 AI 理解了不同模态的信息。

實際上，這種多模态的思路，已經愈發成為了一種 AI+ 遊戲的潛在發展方向。

在今年英偉達展示的一個名為 G-Assist 的遊戲助手項目中，這個由 RTX 驅動的 AI 助手，會通過分析玩家的語音或文本指令，以及遊戲界面截圖，提供實時攻略等相關幫助。

這與桌崽 AI 的某些思路幾乎如出一轍。

G-Assist 的核心技術在于其 AI 視覺模型，通過集成先進的 AI 視覺模型，G-Assist 能夠實時分析遊戲視窗中的視覺信息，比如識别螢幕上出現的敵對 NPC，或是推薦優選武器和材料收集方法。

而除了 " 會看 " 之外，這類多模态融合技術的另一大挑戰，就是怎樣在實時的遊戲中，以極低的延遲實現玩家與 AI 之間的語音互動。

最理想的狀态，是玩家能像平時說話時那樣，與 AI 助手進行即時的交流，這考驗的是 AI" 會聽 " 的功夫。

在今年 5 月的開發者大會上，微軟推出了 Copilot+ PC，一款為 AI 時代而生的全新 PC，其同樣具備了在遊戲中充當 AI 助手的能力。

例如，在《我的世界》視頻演示中，通過集合 Open AI 的 GPT-4o 模型，Copilot 能夠實時分析遊戲畫面内容，并根據不同的情境、場景，以各種語調、語氣與玩家交流。

像是當玩家成功躲避敵人的追擊後，Copilot 就會發出喘氣聲并祝賀玩家成功找到庇護處。

這種實時的、低延遲的語音互動，背後依托的技術，大致可以抽成兩種，一種是傳統的，以神經網絡為基礎的文本轉語音（Text-to-Speech ）技術，也稱 TTS；另一種則是端到端的，GPT-4o 所展現的那種實時語音技術。

從技術力上來說，後者的要求更高，但效果也遠優于前者。

這是因為，傳統的 TTS 合成，通常需要先将文本轉換為語音，其輸出往往存在一定的延遲，這樣的差距，在某些競技類、動作類等要求快速反應的遊戲中，會顯得尤為突出。

更重要的是，由于整合了意圖理解、自然語言處理等環節，端到端的語音大模型，在做到 " 如真人般絲滑 " 的同時，還能根據不同的情境，實時地調整自身的語氣、語調。

而傳統 TTS 要做到這點，只能預先進行人為的設定。

在具備了 " 會看 "、" 會聽 " 的能力後，LLM 在遊戲中的定位，就不再僅限于單純進行對話的 NPC，甚至不再局限于能夠實時互動的 AI 助手，對于某些更有野心的遊戲大廠來說，這種多模态技術的成熟，還成為了在 AI 時代，重新構築自身護城河的一種新手段。

Agent 技術，讓 AI 勝似真人

在打破了 " 對話 " 這一框架的局限後，AI 助手在遊戲中能幹什麼？

網易在《永劫無間》中給出的答案是：一個能聽懂語音指令，實現自動跑圖、搜集物資，配合戰鬥的智能化 AI 隊友。

6 月 19 日，《永劫無間》手遊在 " 定勝終測 " 中引入了全新的 " 遊戲 Copilot" 功能。并依托先進的 LLM 技術，為玩家提供了一個勝似真人的 AI 隊友。

這樣的隊友，究竟有多智能？

舉例來說，在戰鬥中，玩家要是說了句：" 給我來點藥 "，AI 隊友馬上跑到玩家身邊給予相應的道具。

同樣地，在戰鬥中，AI 隊友不僅能指哪打哪，也會通過自主判斷戰場局勢優化決策，打造和真人隊友組隊開黑一致的默契體驗。

有時候，對于一些具體的道具搜尋，AI 隊友也能有求必應。

除了基本的戰鬥、搜尋指令外，AI 隊友還會主動搭話，聊天，在戰鬥之餘緩解氛圍，為玩家提供情感陪伴的價值。

總的來說，這個 AI 隊友能跑圖，搜物資，戰鬥，輔助救援，與玩家實時語音聊天，真人隊友能做到的一切，它也幾乎全做到了。

而要實現這些，網易靠的正是前面提到的多模态識别、實時語音互動等技術。

具體來說，這個 AI 隊友，不僅能聽懂玩家的話（語音識别）、觀察戰場局勢（視覺信息輸入）、了解地圖和英雄技能（遊戲機制學習），甚至借助諸多高手的大數據學會了如何打好永劫手遊。

但除了多模态之外，要打造這樣智能化的 AI 隊友，還有一塊最重要的拼圖：AI Agent 技術。

這是因為，多模态 +LLM 的組合，盡管解決了 AI 隊友看、聽、理解與交流的問題，但要真正讓其成為遊戲中的得力助手，它就必須會親自操作遊戲。

這背後靠的正是 AI Agent 技術。

與傳統依靠預設程式執行固定操作的 NPC 不同，Agent 技術賦予了 AI 隊友更高的靈活性和自主性，這是因為 Agent 技術讓 AI 隊友具備了 " 自主規劃 " 與 " 自我操作 " 的能力。

在 AI 領網域，Agent 指的是能夠感知環境、做出決策并執行行動的系統，能夠在復雜多變的環境中獨立完成任務。

實際上，早在《永劫無間》的 AI 隊友出現前，業内早已對 Agent+ 遊戲的方向進行了一番探索。比如說網易自身，就有一個叫網易數智的 AI 平台，提供 MMO、SLG 等遊戲類型的 AI 對手。

還有在今年 3 月，Google 的 DeepMind 就公布了一項關于新型 AI 智能體 SIMA 的開創性研究，旨在讓智能體能夠理解并執行多種遊戲環境中的自然語言指令。

讓 SIMA 在遊戲中執行操作，只需要兩個輸入：螢幕上的影像和用戶提供的自然語言指令。在測試中，SIMA 在九種不同的遊戲上進行了訓練和測試，包括《無人深空》和《拆解》，并在其中進行了駕駛飛船、挖礦、砍樹等一系列操作。

通過從不同的遊戲世界中學習，SIMA 捕捉了影像、語言與遊戲玩法行為之間的聯系。

這樣的聯系，來自遊戲過程中收集的大量數據。比如螢幕上的畫面、音效、文字說明，甚至滑鼠和鍵盤的操作記錄。

之後，收集的數據集被用于訓練預先設定的模型，以适應不同的遊戲場景和任務。

從玩法機制上來說，AI Agent 技術在遊戲領網域的介入，幾乎是一種必然，因為有太多的遊戲，都存在着需要復雜規劃和多個子任務才能完成的目标了，例如 " 尋找資源并建立營地 " 等等。

而這類融合了多模态、Agent 等技術的遊戲嘗試，在發展到一定階段後，必定會出現某個成熟的 " 集大成者 "。

例如《暗區突圍》中的 AI 隊友，就是這樣一個例子。

更高的壁壘，更高的體驗

在今年 8 月的科隆遊戲展上，騰訊魔術方塊工作室分享了自研的最新 AI 技術——F.A.C.U.L.。

這是由魔術方塊工作室聯合暗區突圍項目團隊，推出的全球首個語音指揮 FPS AI，應用了最先進的生成式 AI 技術，包括語音輸入、大語言模型、實時語音合成和環境識别等。

所謂的 F.A.C.U.L.，實際上是一系列核心功能的集合，為的是使 AI 表現得更像人類隊友。

具體來說，它包括了：

Complex Command Recognition（復雜指令識别） ：這個功能意味着 AI 可以理解玩家下達的復雜命令，使其能夠識别和執行多步指令，适應不同的戰術需求。

Tactic Execution（戰術執行） ：指 AI 具備執行戰術操作的能力，比如掩護、包抄、進攻等。AI 不再是簡單地跟随玩家或進行基礎攻擊，而是能夠參與到更復雜的戰術中。

Object Identification（物體識别） ：這意味着 AI 可以識别場景中的特定物體，比如敵人、掩體、道具等。這種識别能力是執行任務和戰術的基礎，幫助 AI 在復雜環境中做出合适的決策。

Human-Like Interaction（類人互動） ：旨在讓 AI 在行為上更加接近人類，AI 會表現出類似人類的反應，增強遊戲的沉浸感。

雖然與《永劫無間》中的 AI 隊友一樣，《暗區突圍》的 F.A.C.U.L. 也結合了多模态、Agent 等技術，但從復雜度和要求上來說，其卻比前者更上了一個台階。

這主要是因為，與《永劫無間》相比，《暗區突圍》中的道具、武器、場景更多，更復雜，戰鬥中需要執行的戰術也更多樣化，更充滿變數。

例如，"F.A.C.U.L." 将允許 AI 角色識别多大 1.7 萬個遊戲物品，包括建築物、武器、地表。魔術方塊工作室稱它們甚至能識别 " 一根草 "。

在具體戰鬥中，玩家還可以對 AI 隊友還可以發處一系列連續的、復雜的指令，而 AI 隊友在執行這些指令時，不僅能準确理解其含義，還能知道指令中提到的 " 沙袋 "、" 汽車 " 究竟在哪。

在執行指令時，F.A.C.U.L. 首先會基于多模态輸入，對環境進行結構化分析，建立一個包含敵我位置、障礙物、目标物體等要素的 " 局勢地圖 "。

之後，當玩家發布 " 清理房間并守住出口 " 這樣的復合命令時，AI 隊友就會通過 Agent 的任務分解與多步驟執行能力，将其分解為多個步驟：首先清理敵人，然後搜索物資，最後在出口守衛。

這種多階段任務分解與執行能力，是 Agent 技術中 " 自主規劃 " 的重要環節，也是 F.A.C.U.L. 這類 AI 高效、靈活地完成任務的關鍵。

結語

可以說，《永劫無間》、《暗區突圍》這樣的例子，揭示了随着多模态、Agent 等技術的進一步發展，AI 在遊戲中的介入程度正不斷加深，其帶來的遊戲體驗上的提升，也越來越明顯。

但與此同時，AI+ 遊戲的另一大趨勢是：随着技術復雜度不斷提升，"AI 遊戲 " 的門檻和壁壘也在一步步變高，有實力留在牌桌上的選手，也成了資源和資金更加充足的大廠。

然而，從行業的角度來說，這種不斷提升的門檻，也未嘗不是一件好事。

因為随着大廠逐漸主導 AI+ 遊戲領網域，AI 遊戲的制作，會邁入一個更穩健，也更有标準和規範可循的 " 工業化時代 "，其品質的提升會更扎實，更可控。而非像 AI 遊戲的初期階段那樣，遊戲的爆火與走紅，大多只能靠團隊的 " 靈感 "、禀賦或運氣。