今天小编分享的科技经验:黄仁勋预言步入现实 谷歌展示实时游戏生成AI模型GameNGen,欢迎阅读。
财联社 8 月 29 日讯(编辑 史正丞)由 AI 模型实时生成游戏的时代,已经悄然来到了我们身边。
本周来自谷歌公司和特拉维夫大学的研究人员发表了一篇名为《Diffusion 模型是实时游戏引擎》的论文,介绍了计算机历史上第一个完全由神经网络模型支持的游戏引擎 GameNGen。
(来源:Github)
研究人员在论文中写道:"今天,电子游戏是由人类编程的,GameNGen 是游戏引擎新范式的部分概念验证——游戏将会变成神经模型的权重,而不是代码行。"
换一种更容易理解的说法,目前所有的电子游戏都是预先设计好的,开发者需要编写代码、准备游戏文本和贴图模型,然后放置在游戏地图上——游戏画面的渲染和状态更新取决于手动编辑的规则。但 GameNGen 模型打开了一个完全不同的思路:使用 AI 生成模型,根据玩家的动作和反应,实时演算和生成游戏画面。
在演示中,研究人员通过机器学习,让 GameNGen 模型成功实时生成 90 时代的第一人称射击游戏《毁灭战士》。视频显示,在 AI 生成的游戏中,玩家可以在场景中转弯、发射武器,同时能够准确反映剩余的子弹数量、遭到攻击后的剩余血量,以及是否满足打开下一个关卡所需的条件。
(来源:演示视频)
需要注意的是,上面看到的一系列画面,完全是 AI 实时生成的影像。最新的进展也显示,AI 模型继成功生成文字、影像、音频和短视频后,可能存在生成游戏场景的能力,这对逻辑性、连贯性和实时互動的要求明显高出一大截。
他们是怎么做到的?
研究团队介绍称,为了训练这个能实时生成游戏的 AI,首先需要训练一个强化学习(RL)代理来玩游戏,然后使用录制下来的片段来训练生成扩散模型,根据过去的画面和玩家动作来预测接下来的画面,这也是为什么 AI 生成的游戏能够展现生命值和弹药的变化,以及敌人受到攻击的动画。
更大的挑战在于让 AI 生成的影像保持时间和逻辑上的连贯性。为了减轻推理过程中的自回归漂移,研究人员在训练期间通过向编码帧添加高斯噪声破坏上下文帧,允许 AI 更正前几帧中采样的信息,从而长时间保持影像生成的稳定性。
(来源:研究论文)
研究人员披露,跑这个模型只需要单个 TPU(谷歌自研 AI 处理器),就能实现每秒 20 帧的生成速度。
当然,上面这几段话也展现出 GameNGen 的局限性:这个 AI 必须依靠输入已有的游戏(或文字、图片等材料)来生成游戏。
英伟达高级研究经理 & 具身智能集团主管 Jim Fan 博士在社交媒体上评论称,GameNGen 更像是一个神经辐射场(NeRF),而不是一个视频生成模型。神经辐射场通过从不同角度拍摄场景的影像,从而生成场景的 3D 展示。但这也意味着模型不具备泛化能力,无法 " 想象 " 新的场景。这也是 GameNGen 与 Sora 的不同点:它无法生成新的场景或互動机制。
(来源:X)
研究人员也在论文中提到这一点,解释称借助该技术,未来的游戏开发者将能通过 " 文本描述和示例影像 " 来创建新游戏,人们将有可能仅根据示例而不是编程技能,将一组精致的影像转化为现有游戏的新可玩关卡或角色。
黄仁勋:5-10 年内出现完全由 AI 生成的游戏
由 AI 渲染来进行实时游戏并不是一个全新的想法。在今年 3 月发布最新一代 Blackwell 架构芯片时,英伟达 CEO 黄仁勋就曾预言,大概在 5-10 年内就能看到完全由 AI 生成的游戏。
事实上,朝着这个方向前进的不只是谷歌团队,OpenAI 在今年首次发布 Sora 演示时,也曾展现过模拟像素游戏《我的世界》的能力。
(来源:OpenAI)
最新的进展,也恰好迎合了米哈游前董事长蔡浩宇近期引发热议的 " 劝退 " 言论。
蔡浩宇本周公开发声称,AIGC 已经彻底改变了游戏开发,现在只需要时间让这种现象完全展开。他认为,未来只有两种游戏开发者具有继续从业的意义——前 0.0001% 的天才,以及 99% 的业务爱好者创作满足自己需求的游戏。至于剩下的 " 从普通到专业 " 的游戏开发者,大家还是趁早转行吧。
(来源:社交媒体)