今天小编分享的科学经验:谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎,一张图生成无限可互動世界,欢迎阅读。
下一代世界模型炸场,一张图生成无限多样的 3D 游戏世界。
谷歌推出Genie 2,可响应键鼠操作,可玩、可控制。
与此前研究相比,Genie 2 拥有长期记忆,即使玩家把视角转开,再回来时也可稳定渲染世界中已存在的部分。
游戏世界中还可以有其他 AI NPC 存在,与玩家控制的角色进行复杂互動。
这意味着任何人都可以用文字描述他们想要的世界,选择最喜欢的呈现方式,然后进入这个世界并与之互动!
这下,沉迷《暗黑破坏神 4》的马斯克都觉得很酷,随后 DeepMind 创始人Hassabis邀请他一起做个 AI 游戏。
关键马部长他还真答应了~
结合马斯克此前声称,xAI 将开办一家 AI 游戏工作室,两者联手的可能性还真不低。
不过谷歌 DeepMind 搞这项研究,可不光是为了给人类玩游戏的——
AI 具身智能体,迈向 AGI 的途径
Genie 2 可用于训练和评估具身智能体,通过创建丰富多样的环境,可以生成 AI 在训练期间没见过的评估任务。
比如通过文字指令,训练智能体打开正确的门。
谷歌表示尽管这项研究仍处于早期阶段,在智能体和环境生成能力方面仍有大量改进空间……
但我们相信 Genie 2 是解决在安全训练具身智能体的同时,满足实现通往通用人工智能(AGI)所需的广度和通用性要求。
此前,世界模型研究在很大程度上仅限于建模一个狭窄的领網域,比如。
Genie 2 则完成了向生成丰富 3D 世界的飞跃,展示了世界模型的涌现能力,包括对象互動、复杂的角色动画、物理模拟,以及建模并预测其他智能体行为的能力。
从同一帧出发,但玩家的操作不同,可以生成不同的运动轨迹。
这意味着可以模拟反事实体验(counterfactual experiences)用于训练智能体,也就是从 " 假如当时采取另一种行动会怎样 " 中获得经验。
智能体还可以在 3D 世界中学会与其他对象互動,如气球挨打就会爆。
实现这一切,靠的依然是扩散模型。
Genie 2 是一种自回归潜空间扩散模型,在大型视频数据集上训练。
(是谁拥有 Youtube 里上亿小时的游戏视频数据,我不说)
经过自编码器处理后,视频的 Lantent frames 被传递到一个大型 Transformer 动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。
在推理时,Genie 2 可以自回归方式采样,对单个操作和过去的帧逐帧执行,使用 classifier-free guidance 来提高操作可控性。
此外,谷歌还透露,现在给出的视频示例都是由为蒸馏的模型生成,以展示可能性。
蒸馏模型可以做到实时控制,但会降低输出质量。
One More Thing
就在 2 天前,
这个大佬们都在押注的方向,真的要火了~
参考链接:
[ 1 ] https://x.com/elonmusk/status/1864388977866006639
[ 2 ] https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/