今天小編分享的科技經驗:騰訊網易急入局,桌崽留存超豆包,遊戲新世代由AI隊友開啓,歡迎閲讀。
2024 年,AI 在遊戲行業正不斷由表及裏,不斷觸及遊戲機制的核心。
大家比較熟知的《沙威瑪傳奇》,更多是用 AI 賦能制作,降本增效,到後來《1001 night》、《換你來當爹》中,AI 成為遊戲的核心玩法。最近,背靠大廠的《永劫無間》《暗區突圍》裏的 AI 技術再次往前進了一步,要成為玩家在遊戲中的 " 助手 "、" 隊友 "。
AI 作圖 by 娛樂資本論
和騰訊、網易做遊戲内 AI 隊友不同,就在上個月,一款名為 " 桌崽 AI" 的桌面陪伴寵物火了起來,在傳統桌寵的外衣下,它真正做到了懂玩家、懂遊戲,且在遊戲過程中提供了實實在在的價值(查攻略、實時陪聊)。從功能性這一點看,頗有點當年遊戲語音助手 YY 的意思。
内測一個月,總注冊用户超過 1 萬,DAU 超過 3000,付費率超出意料之外。
留存率也挺高,次留 63%,7 日留 29%,30 日留 22%,平均每日時長 237 分鍾。這個數據,甚至超過了很多國内大廠的大模型產品。
要知道,根據之前一張盛傳的統計圖表,國產 AI 大模型用户在 30 日後,往往流失嚴重,從字節的豆包,到百度的文心一言(現在改名文小言),30 日後使用率就都低于 1%。
問題來了,為何 AI 布局這麼多賽道,唯獨在在遊戲賽道如此成功?
原因就在于,遊戲佬既對科技感興趣,又對 AI 助手有強剛需,而這樣的盲點和痛點,正是目前 AI 在其他領網域少有觸及,也需要一定門檻的部分。
AI 助手,或許将成為 AI 領網域競争的下一個勝負手。
跨次元的碰撞
桌崽 AI 的制作團隊,是國内一家名叫臉譜心智的企業,成立于去年 6 月。
創始人 Adam 是個愛玩遊戲的 95 後,本碩畢業于帝國理工學院。在創業前,他在亞馬遜、微軟都工作過,對聊天機器人頗有研究。
由于創始人及其整個團隊,對遊戲都十分熱愛,因此桌崽 AI 在推出時,就具備了其他同類產品少有的優勢——對當前各大主流遊戲的匹配。
目前,桌崽 AI 已經适配了《黑神話 · 悟空》、《原神》、《絕區零》、《鳴潮》等 20 多款遊戲。
只要打開遊戲,桌崽 AI 就會在螢幕上陪着你。玩家可通過文字或語音,與和桌崽進行實時的互動。
但是,僅僅做到 " 陪伴 ",還遠不能讓其脱穎而出。
如前所述,其核心亮點在于 " 懂遊戲 "、" 懂玩家 ",這點主要體現在兩方面:其一是,在遊戲過程中,桌崽 AI 不僅能看懂遊戲中的畫面、内容,并且還能根據玩家的行為,針對性地進行反饋。
例如玩家要是發揮得好,它就會誇玩家很棒;要是玩家不幸失手,它也會用幽默的語言進行調侃。
第二個方面就在于,在看懂遊戲的基礎上,它還能實時提供遊戲攻略,在玩家卡關時提供幫助。
這樣一來,玩家就再也不用在遊戲時,切換回桌面,再打開浏覽器去各種網站、論壇搜攻略了,桌崽就站旁邊告訴你該怎麼打通關。
除了這些核心功能外,桌崽還能通過生成式 AI,根據玩家的喜好,定制出各種不同的外形、聲音,而這種個性化的特點,又進一步增加了玩家的粘性。
然而,這樣的功能,雖然看着簡單,但真正要實現起來,背後卻有着一定的技術門檻,
具體來説,這樣的門檻包括了:
多模态遊戲陪玩大模型——讓 AI" 懂遊戲 ";
二次元視頻生成大模型——自定義外觀;
語音聲線定制大模型——自定義聲音(語音克隆等);
其中多模态遊戲陪玩大模型,是其與遊戲契合的關鍵所在 ,按照臉譜心智的介紹,該模型的運作機制,是經用户授權後,模型把遊戲畫面、音效和用户帶有各種情緒的聲音作為輸入,從而給予和遊戲進度同頻的個性化反饋。
從技術上來説,關于遊戲知識性方面的信息,模型尚且可以通過吸收各種來源的資料(遊戲介紹、攻略)等,來讓自己 " 精通 " 不同的遊戲。
但最大的難點就在于,怎樣讓模型在理解各種不同模态的輸入(畫面、聲音)的同時,還能做到實時反饋?
這就涉及到了一個十分重要的技術——多模态融合。
從某種程度上説,這是決定将來大模型在遊戲中廣度、深度的一個重要技術。
會看、會聽的 AI 隊友
多模态技術,之所以在遊戲 AI 的下一階段如此重要,主要是因為,在之前所有結合了 LLM 的遊戲,例如《1001 night》等作品中,AI 的定位與作用,始終都脱離不了 " 對話 " 這一單調的框架。
這種局限,使得 AI 在遊戲中的作用,被限定在了提供對話選項和簡單的互動,而無法深入到其他方面。
而通過對不同模态的數據進行特征提取,遊戲中的 AI 助手,可以将原始數據轉換為可以被模型處理的數值表示,同時将異構特征投影到公共子空間,使得具有相似語義的多模态數據由相似向量表示,從而讓 AI 理解了不同模态的信息。
實際上,這種多模态的思路,已經愈發成為了一種 AI+ 遊戲的潛在發展方向。
在今年英偉達展示的一個名為 G-Assist 的遊戲助手項目中,這個由 RTX 驅動的 AI 助手,會通過分析玩家的語音或文本指令,以及遊戲界面截圖,提供實時攻略等相關幫助。
這與桌崽 AI 的某些思路幾乎如出一轍。
G-Assist 的核心技術在于其 AI 視覺模型,通過集成先進的 AI 視覺模型,G-Assist 能夠實時分析遊戲視窗中的視覺信息,比如識别螢幕上出現的敵對 NPC,或是推薦優選武器和材料收集方法。
而除了 " 會看 " 之外,這類多模态融合技術的另一大挑戰,就是怎樣在實時的遊戲中,以極低的延遲實現玩家與 AI 之間的語音互動。
最理想的狀态,是玩家能像平時説話時那樣,與 AI 助手進行即時的交流,這考驗的是 AI" 會聽 " 的功夫。
在今年 5 月的開發者大會上,微軟推出了 Copilot+ PC,一款為 AI 時代而生的全新 PC,其同樣具備了在遊戲中充當 AI 助手的能力。
例如,在《我的世界》視頻演示中,通過集合 Open AI 的 GPT-4o 模型,Copilot 能夠實時分析遊戲畫面内容,并根據不同的情境、場景,以各種語調、語氣與玩家交流。
像是當玩家成功躲避敵人的追擊後,Copilot 就會發出喘氣聲并祝賀玩家成功找到庇護處。
這種實時的、低延遲的語音互動,背後依托的技術,大致可以抽成兩種,一種是傳統的,以神經網絡為基礎的文本轉語音(Text-to-Speech )技術,也稱 TTS;另一種則是端到端的,GPT-4o 所展現的那種實時語音技術。
從技術力上來説,後者的要求更高,但效果也遠優于前者。
這是因為,傳統的 TTS 合成,通常需要先将文本轉換為語音,其輸出往往存在一定的延遲,這樣的差距,在某些競技類、動作類等要求快速反應的遊戲中,會顯得尤為突出。
更重要的是,由于整合了意圖理解、自然語言處理等環節,端到端的語音大模型,在做到 " 如真人般絲滑 " 的同時,還能根據不同的情境,實時地調整自身的語氣、語調。
而傳統 TTS 要做到這點,只能預先進行人為的設定。
在具備了 " 會看 "、" 會聽 " 的能力後,LLM 在遊戲中的定位,就不再僅限于單純進行對話的 NPC,甚至不再局限于能夠實時互動的 AI 助手,對于某些更有野心的遊戲大廠來説,這種多模态技術的成熟,還成為了在 AI 時代,重新構築自身護城河的一種新手段。
Agent 技術,讓 AI 勝似真人
在打破了 " 對話 " 這一框架的局限後,AI 助手在遊戲中能幹什麼?
網易在《永劫無間》中給出的答案是:一個能聽懂語音指令,實現自動跑圖、搜集物資,配合戰鬥的智能化 AI 隊友。
6 月 19 日,《永劫無間》手遊在 " 定勝終測 " 中引入了全新的 " 遊戲 Copilot" 功能。并依托先進的 LLM 技術,為玩家提供了一個勝似真人的 AI 隊友。
這樣的隊友,究竟有多智能?
舉例來説,在戰鬥中,玩家要是説了句:" 給我來點藥 ",AI 隊友馬上跑到玩家身邊給予相應的道具。
同樣地,在戰鬥中,AI 隊友不僅能指哪打哪,也會通過自主判斷戰場局勢優化決策,打造和真人隊友組隊開黑一致的默契體驗。
有時候,對于一些具體的道具搜尋,AI 隊友也能有求必應。
除了基本的戰鬥、搜尋指令外,AI 隊友還會主動搭話,聊天,在戰鬥之餘緩解氛圍,為玩家提供情感陪伴的價值。
總的來説,這個 AI 隊友能跑圖,搜物資,戰鬥,輔助救援,與玩家實時語音聊天,真人隊友能做到的一切,它也幾乎全做到了。
而要實現這些,網易靠的正是前面提到的多模态識别、實時語音互動等技術。
具體來説,這個 AI 隊友,不僅能聽懂玩家的話(語音識别)、觀察戰場局勢(視覺信息輸入)、了解地圖和英雄技能(遊戲機制學習),甚至借助諸多高手的大數據學會了如何打好永劫手遊。
但除了多模态之外,要打造這樣智能化的 AI 隊友,還有一塊最重要的拼圖:AI Agent 技術。
這是因為,多模态 +LLM 的組合,盡管解決了 AI 隊友看、聽、理解與交流的問題,但要真正讓其成為遊戲中的得力助手,它就必須會親自操作遊戲。
這背後靠的正是 AI Agent 技術。
與傳統依靠預設程式執行固定操作的 NPC 不同,Agent 技術賦予了 AI 隊友更高的靈活性和自主性,這是因為 Agent 技術讓 AI 隊友具備了 " 自主規劃 " 與 " 自我操作 " 的能力。
在 AI 領網域,Agent 指的是能夠感知環境、做出決策并執行行動的系統,能夠在復雜多變的環境中獨立完成任務。
實際上,早在《永劫無間》的 AI 隊友出現前,業内早已對 Agent+ 遊戲的方向進行了一番探索。比如説網易自身,就有一個叫網易數智的 AI 平台,提供 MMO、SLG 等遊戲類型的 AI 對手。
還有在今年 3 月,Google 的 DeepMind 就公布了一項關于新型 AI 智能體 SIMA 的開創性研究,旨在讓智能體能夠理解并執行多種遊戲環境中的自然語言指令。
讓 SIMA 在遊戲中執行操作,只需要兩個輸入:螢幕上的影像和用户提供的自然語言指令。在測試中,SIMA 在九種不同的遊戲上進行了訓練和測試,包括《無人深空》和《拆解》,并在其中進行了駕駛飛船、挖礦、砍樹等一系列操作。
通過從不同的遊戲世界中學習,SIMA 捕捉了影像、語言與遊戲玩法行為之間的聯系。
這樣的聯系,來自遊戲過程中收集的大量數據。比如螢幕上的畫面、音效、文字説明,甚至滑鼠和鍵盤的操作記錄。
之後,收集的數據集被用于訓練預先設定的模型,以适應不同的遊戲場景和任務。
從玩法機制上來説,AI Agent 技術在遊戲領網域的介入,幾乎是一種必然,因為有太多的遊戲,都存在着需要復雜規劃和多個子任務才能完成的目标了,例如 " 尋找資源并建立營地 " 等等。
而這類融合了多模态、Agent 等技術的遊戲嘗試,在發展到一定階段後,必定會出現某個成熟的 " 集大成者 "。
例如《暗區突圍》中的 AI 隊友,就是這樣一個例子。
更高的壁壘,更高的體驗
在今年 8 月的科隆遊戲展上,騰訊魔術方塊工作室分享了自研的最新 AI 技術——F.A.C.U.L.。
這是由魔術方塊工作室聯合暗區突圍項目團隊,推出的全球首個語音指揮 FPS AI,應用了最先進的生成式 AI 技術,包括語音輸入、大語言模型、實時語音合成和環境識别等。
所謂的 F.A.C.U.L.,實際上是一系列核心功能的集合,為的是使 AI 表現得更像人類隊友。
具體來説,它包括了:
Complex Command Recognition(復雜指令識别) :這個功能意味着 AI 可以理解玩家下達的復雜命令,使其能夠識别和執行多步指令,适應不同的戰術需求。
Tactic Execution(戰術執行) :指 AI 具備執行戰術操作的能力,比如掩護、包抄、進攻等。AI 不再是簡單地跟随玩家或進行基礎攻擊,而是能夠參與到更復雜的戰術中。
Object Identification(物體識别) :這意味着 AI 可以識别場景中的特定物體,比如敵人、掩體、道具等。這種識别能力是執行任務和戰術的基礎,幫助 AI 在復雜環境中做出合适的決策。
Human-Like Interaction(類人互動) :旨在讓 AI 在行為上更加接近人類,AI 會表現出類似人類的反應,增強遊戲的沉浸感。
雖然與《永劫無間》中的 AI 隊友一樣,《暗區突圍》的 F.A.C.U.L. 也結合了多模态、Agent 等技術,但從復雜度和要求上來説,其卻比前者更上了一個台階。
這主要是因為,與《永劫無間》相比,《暗區突圍》中的道具、武器、場景更多,更復雜,戰鬥中需要執行的戰術也更多樣化,更充滿變數。
例如,"F.A.C.U.L." 将允許 AI 角色識别多大 1.7 萬個遊戲物品,包括建築物、武器、地表。魔術方塊工作室稱它們甚至能識别 " 一根草 "。
在具體戰鬥中,玩家還可以對 AI 隊友還可以發處一系列連續的、復雜的指令,而 AI 隊友在執行這些指令時,不僅能準确理解其含義,還能知道指令中提到的 " 沙袋 "、" 汽車 " 究竟在哪。
在執行指令時,F.A.C.U.L. 首先會基于多模态輸入,對環境進行結構化分析,建立一個包含敵我位置、障礙物、目标物體等要素的 " 局勢地圖 "。
之後,當玩家發布 " 清理房間并守住出口 " 這樣的復合命令時,AI 隊友就會通過 Agent 的任務分解與多步驟執行能力,将其分解為多個步驟:首先清理敵人,然後搜索物資,最後在出口守衞。
這種多階段任務分解與執行能力,是 Agent 技術中 " 自主規劃 " 的重要環節,也是 F.A.C.U.L. 這類 AI 高效、靈活地完成任務的關鍵。
結語
可以説,《永劫無間》、《暗區突圍》這樣的例子,揭示了随着多模态、Agent 等技術的進一步發展,AI 在遊戲中的介入程度正不斷加深,其帶來的遊戲體驗上的提升,也越來越明顯。
但與此同時,AI+ 遊戲的另一大趨勢是:随着技術復雜度不斷提升,"AI 遊戲 " 的門檻和壁壘也在一步步變高,有實力留在牌桌上的選手,也成了資源和資金更加充足的大廠。
然而,從行業的角度來説,這種不斷提升的門檻,也未嘗不是一件好事。
因為随着大廠逐漸主導 AI+ 遊戲領網域,AI 遊戲的制作,會邁入一個更穩健,也更有标準和規範可循的 " 工業化時代 ",其品質的提升會更扎實,更可控。而非像 AI 遊戲的初期階段那樣,遊戲的爆火與走紅,大多只能靠團隊的 " 靈感 "、禀賦或運氣。