今天小編分享的科技經驗:黃仁勳預言步入現實 谷歌展示實時遊戲生成AI模型GameNGen,歡迎閱讀。
财聯社 8 月 29 日訊(編輯 史正丞)由 AI 模型實時生成遊戲的時代,已經悄然來到了我們身邊。
本周來自谷歌公司和特拉維夫大學的研究人員發表了一篇名為《Diffusion 模型是實時遊戲引擎》的論文,介紹了計算機歷史上第一個完全由神經網絡模型支持的遊戲引擎 GameNGen。
(來源:Github)
研究人員在論文中寫道:"今天,電子遊戲是由人類編程的,GameNGen 是遊戲引擎新範式的部分概念驗證——遊戲将會變成神經模型的權重,而不是代碼行。"
換一種更容易理解的說法,目前所有的電子遊戲都是預先設計好的,開發者需要編寫代碼、準備遊戲文本和貼圖模型,然後放置在遊戲地圖上——遊戲畫面的渲染和狀态更新取決于手動編輯的規則。但 GameNGen 模型打開了一個完全不同的思路:使用 AI 生成模型,根據玩家的動作和反應,實時演算和生成遊戲畫面。
在演示中,研究人員通過機器學習,讓 GameNGen 模型成功實時生成 90 時代的第一人稱射擊遊戲《毀滅戰士》。視頻顯示,在 AI 生成的遊戲中,玩家可以在場景中轉彎、發射武器,同時能夠準确反映剩餘的子彈數量、遭到攻擊後的剩餘血量,以及是否滿足打開下一個關卡所需的條件。
(來源:演示視頻)
需要注意的是,上面看到的一系列畫面,完全是 AI 實時生成的影像。最新的進展也顯示,AI 模型繼成功生成文字、影像、音頻和短視頻後,可能存在生成遊戲場景的能力,這對邏輯性、連貫性和實時互動的要求明顯高出一大截。
他們是怎麼做到的?
研究團隊介紹稱,為了訓練這個能實時生成遊戲的 AI,首先需要訓練一個強化學習(RL)代理來玩遊戲,然後使用錄制下來的片段來訓練生成擴散模型,根據過去的畫面和玩家動作來預測接下來的畫面,這也是為什麼 AI 生成的遊戲能夠展現生命值和彈藥的變化,以及敵人受到攻擊的動畫。
更大的挑戰在于讓 AI 生成的影像保持時間和邏輯上的連貫性。為了減輕推理過程中的自回歸漂移,研究人員在訓練期間通過向編碼幀添加高斯噪聲破壞上下文幀,允許 AI 更正前幾幀中采樣的信息,從而長時間保持影像生成的穩定性。
(來源:研究論文)
研究人員披露,跑這個模型只需要單個 TPU(谷歌自研 AI 處理器),就能實現每秒 20 幀的生成速度。
當然,上面這幾段話也展現出 GameNGen 的局限性:這個 AI 必須依靠輸入已有的遊戲(或文字、圖片等材料)來生成遊戲。
英偉達高級研究經理 & 具身智能集團主管 Jim Fan 博士在社交媒體上評論稱,GameNGen 更像是一個神經輻射場(NeRF),而不是一個視頻生成模型。神經輻射場通過從不同角度拍攝場景的影像,從而生成場景的 3D 展示。但這也意味着模型不具備泛化能力,無法 " 想象 " 新的場景。這也是 GameNGen 與 Sora 的不同點:它無法生成新的場景或互動機制。
(來源:X)
研究人員也在論文中提到這一點,解釋稱借助該技術,未來的遊戲開發者将能通過 " 文本描述和示例影像 " 來創建新遊戲,人們将有可能僅根據示例而不是編程技能,将一組精致的影像轉化為現有遊戲的新可玩關卡或角色。
黃仁勳:5-10 年内出現完全由 AI 生成的遊戲
由 AI 渲染來進行實時遊戲并不是一個全新的想法。在今年 3 月發布最新一代 Blackwell 架構芯片時,英偉達 CEO 黃仁勳就曾預言,大概在 5-10 年内就能看到完全由 AI 生成的遊戲。
事實上,朝着這個方向前進的不只是谷歌團隊,OpenAI 在今年首次發布 Sora 演示時,也曾展現過模拟像素遊戲《我的世界》的能力。
(來源:OpenAI)
最新的進展,也恰好迎合了米哈遊前董事長蔡浩宇近期引發熱議的 " 勸退 " 言論。
蔡浩宇本周公開發聲稱,AIGC 已經徹底改變了遊戲開發,現在只需要時間讓這種現象完全展開。他認為,未來只有兩種遊戲開發者具有繼續從業的意義——前 0.0001% 的天才,以及 99% 的業務愛好者創作滿足自己需求的遊戲。至于剩下的 " 從普通到專業 " 的遊戲開發者,大家還是趁早轉行吧。
(來源:社交媒體)