今天小编分享的财经经验:一张图生成一个世界!李飞飞世界模型首秀,欢迎阅读。
今天凌晨,AI 教母李飞飞创立的 World Labs 推出第一个重磅成果:世界模型,一张单个影像便可生成 3D 世界。
此消息一出,业界炸开了锅。李飞飞也第一时间在 X 上宣传:
在大家还在 2D 视频生成赛道卷生卷死的时候,World Labs 已经进入 Next Level,AI 生成 3D 世界。
据 World Labs 官方介绍,目前大多数 GenAI 工具都制作影像或视频等 2D 内容,存在缺乏控制和一致性的问题,而 3D 生成则可以提高控制和一致性,其模型可以预测 3D 几何图形,填充场景中看不到的部分。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。
一、一张图生成一个世界
输入任意一张图,World Labs 还你一个世界。
比如,丢给 World Labs 一张左边的图片,它能给你一个这样的 3D 世界:
你可以通过 WASD 建控制 3D 世界得上下左右视角,还可以拖动滑鼠逛这个世界的每一个角落。
同时,官方也给了很多玩法。
相机效果
生成场景后,我们可以使用虚拟攝影機进行实时渲染。通过精确控制虚拟攝影機的各项参数,可以实现各种艺术摄影效果。
例如,我们可以模拟浅景深效果,使得只有距离攝影機一定距离的物体才清晰对焦,从而突出主体并增强画面的层次感。
此外,还可以模拟推移变焦效果,即同时调整攝影機的位置和视野,创造出独特的视觉冲击力和动态感。
3D 效果
World Labs 官方介绍,大多数生成模型是预测像素。而生成 3D 场景则不仅限于像素层面的表现,其优势更多地体现在:
持久的现实:一旦生成了一个世界,它就会一直存在。如果你把视线移开并回来,场景不会在你的背后改变。
实时控制:生成场景后,可以实时移动场景。可以徜徉于花朵的细节,或者偷看角落看看揭示了什么。
符合物理规则:生成的世界遵循现实世界的基本物理规则。它们具有坚实感和深度感,与某些 AI 生成的视频的梦幻般的性质形成鲜明对比。
World Labs 生成的 3D 场景通过深度贴图技术,使得其中每个像素都按其与相机的距离着色,更具空间感。
不仅如此,World Labs 还可以添加各种动效,比如声效、灯光等,构建 3D 场景的互動式效果,瞬间进入 " 真赛博空间 "。
在大家还在 2D 视频生成赛道卷生卷死的时候,World Labs 已经进入 Next Level,AI 生成 3D 世界。
据 World Labs 官方介绍,目前大多数 GenAI 工具都制作影像或视频等 2D 内容,存在缺乏控制和一致性的问题,而 3D 生成则可以提高控制和一致性,其模型可以预测 3D 几何图形,填充场景中看不到的部分。这将改变我们制作电影、游戏、模拟器和物理世界的其他数字表现形式的方式。
一、一张图生成一个世界
输入任意一张图,World Labs 还你一个世界。
比如,丢给 World Labs 一张左边的图片,它能给你一个这样的 3D 世界:
你可以通过 WASD 建控制 3D 世界得上下左右视角,还可以拖动滑鼠逛这个世界的每一个角落。
同时,官方也给了很多玩法。
相机效果
生成场景后,我们可以使用虚拟攝影機进行实时渲染。通过精确控制虚拟攝影機的各项参数,可以实现各种艺术摄影效果。
例如,我们可以模拟浅景深效果,使得只有距离攝影機一定距离的物体才清晰对焦,从而突出主体并增强画面的层次感。
此外,还可以模拟推移变焦效果,即同时调整攝影機的位置和视野,创造出独特的视觉冲击力和动态感。
3D 效果
World Labs 官方介绍,大多数生成模型是预测像素。而生成 3D 场景则不仅限于像素层面的表现,其优势更多地体现在:
持久的现实:一旦生成了一个世界,它就会一直存在。如果你把视线移开并回来,场景不会在你的背后改变。
实时控制:生成场景后,可以实时移动场景。可以徜徉于花朵的细节,或者偷看角落看看揭示了什么。
符合物理规则:生成的世界遵循现实世界的基本物理规则。它们具有坚实感和深度感,与某些 AI 生成的视频的梦幻般的性质形成鲜明对比。
World Labs 生成的 3D 场景通过深度贴图技术,使得其中每个像素都按其与相机的距离着色,更具空间感。
不仅如此,World Labs 还可以添加各种动效,比如声效、灯光等,构建 3D 场景的互動式效果,瞬间进入 " 真赛博空间 "。
走进绘画世界
World Labs 团队还展示了他们从梵高、霍珀、修拉和康定斯基等作品中生成了世界。
创意工作流程
除了以上玩法外,3D 生成还可以与其他 AI 工具组合,比如 Midjourney、Runway、Suno 等,这将极大地改变创作者的工作流程。
例如,可以先使用文生图模型生成影像,不同的模型生成的影像风格不尽相同,而 World Labs 可以继承这些风格。
比如我们输入相同的 Prompt,可以得到不同风格得 3D 世界:
一间充满活力的卡通风格青少年卧室,床上铺着五颜六色的毯子,杂乱的书桌上放着一台电腦,墙上贴着海报,运动装备散落。一把吉他靠在墙上,中间是一块舒适的图案地毯。窗外的光线为房间增添了温暖、年轻的氛围。
二、3 个月估值 10 亿,空间智能时代才刚刚开始
今年 4 月,被称为 "AI 教母 " 的斯坦福大学教授李飞飞,带队成立 World Labs(空间智能)。这是她 2018 年从谷歌离职重返斯坦福后,第一次直接下场参与的创业项目。
World Labs 是一家专注于打造世界模型进行 3D 世界的感知、生成和互动的 AI 初创公司。
在短短 3 个月的时间里,World Labs 就进行了两轮融资,融资总额超过 2.3 亿美元,估值突破 10 亿美元,投资方包括硅谷知名风投 a16z 和 AI 基金 Radical Ventures。
李飞飞认为,未来 AI 的核心在于 " 空间智能 ",即让 AI 具备感知、推理并与 3D 世界互動的能力,这是实现更高级 AI 应用的关键。
在她看来,视觉在人类理解和与世界互动中占据核心位置,AI 发展应优先提升视觉能力,超越语言模型的局限,让 AI 从 " 大语言模型 " 过渡到 " 大世界模型 ",以应对更复杂的 3D 环境感知和互動需求。
也因此,她希望通过 World Labs 推动这一领網域的发展,实现更高层次的空间智能。
World Labs 堪称超级明星团队,除了李飞飞外,还有李飞飞徒弟,在实时风格转换和超分辨率领網域有突出贡献的贾斯汀 · 约翰逊、神经辐射场(NeRF)提出者本 · 米尔登霍尔以及 3D 重建专家克里斯托夫 · 拉斯纳。
尽管 World Labs 在技术研发和团队配置上具有领先优势,此次发布的最新成果也惊艳众人,但面临的挑战也不少。
首先,从技术角度来看,构建一个具有高精度的 3D 世界理解和生成模型需要大量的数据和计算资源,同时还需要解决实时互動的技术难题。
在 3D 生成赛道,并不是一片蓝海,除了 World Labs 外,英伟达、Meta 等多家公司也在积极布局物理 AI 与 3D 世界的相关技术,市场竞争激烈。
再有,在商业化路径上,尽管 LWM 的潜力巨大,但如何找到合适的商业模式,尤其是平衡研发投入与市场回报,是创业公司面临的共同难题。
如果找不到盈利模式,能活下去的概率很小,毕竟已经不少 AI 领網域的明星初创公司卖身大厂了。
不过,不得不承认的是,在潮水的变化面前,空间智能,一切才刚刚开始。