今天小编分享的互联网经验:为什么Sora不能成为世界模型?,欢迎阅读。
文 | 王智远
写完一篇空间智能文章,发到群里,聊它如何用虚拟空间数据训练机器人,帮人类理解世界。
结果有朋友提出个问题:
文生视频算不算空间智能?它也能生成虚拟场景,为什么不是最佳途径?这问题挺有意思,我第一反应就想到了 Sora。
文生视频 " 新星 " 崛起速度太快,几句话能生成一个视频,两年内字节、腾讯、甚至其他模型厂商纷纷压住该赛道。
不过,两年过去,有人发现它没那么完美,生成人像总带着 " 恐怖谷 " 的诡异,连 Facebook 首席人工智能科学家 Yann LeCun 也点评说:Sora 不过是画得好看,压根不懂物理规律。
于是,我带着疑问研究了一下:看似强大的 Sora,为什么不能成为真正的世界模拟器?它和空间智能的差距到底在哪?
01
爱因斯坦有句经典的名言:
" 如果不能简单地解释一件事,那就说明还没有真正理解它。"(If you can't explain it simply, you don't understand it well enough.)
所以,想深入探究,就必须从深层次技术原理出发。
Sora 的核心是 " 扩散模型 "(Diffusion Model);从一堆随机噪点开始,通过 AI 一步步去掉杂乱,最终生成清晰的画面,再将这些画面串联成视频,听起来像魔法,其实背后是数学原理在支撑。
另外,它还有个帮手是 "Transformer",这个词不少人听说过。什么意思呢?它擅长处理序列数据,把零散的信息连成一条线。在 Sora 中,它将文字指令拆解,再把一帧帧画面串联成流畅的动作。
举个例子:
如果你输入 " 船在咖啡杯里航行 ",Sora 会先理解 " 船 " 和 " 咖啡杯 ",然后,把船、水波荡漾、船身倾斜这些相关的词汇、场景串联起来。
这背后依赖海量视频数据和强大的算力,才能在几秒钟内生成几十秒的画面。
可是,你有没想过,仅仅依赖数据堆砌出来的结果,真的能理解物理世界吗?答案是不会。问题就出在架构上。
扩散模型擅长从数据中学习像素规律,预测下一步画面应该是什么样子;Transformer 则能让帧与帧衔接得天衣无缝。所以从视觉上看,Sora 很 " 聪明 ",能够模仿真实视频的连续感,但仔细一想,问题就来了。
船怎么可能塞进杯子?我试过输入「猫跳到桌上」,画面流畅得没话说,结果猫腿直接穿过了桌面,就像游戏里的穿模。为什么会这样?
因为 Sora 的生成逻辑是 " 画得好看 ",而不是 " 画得对 "。
它不懂重力如何让脚落地,也不懂桌子为何会挡住猫腿,生成 " 恐怖谷 " 人像时,更一目了然,脸部细节一放大就崩了,它只知道靠像素预测,却没有考虑现实规则。
所以,Sora 的强项和弱点是一枚硬币的两面。
视觉流畅是它的本事,不合理也是它的命门。正如 Yann LeCun 所说,它 " 不懂苹果为何落地 ",我觉得这个观点很对:Sora 的架构根本就没想去理解物理世界,只是想把画面糊弄得像真的。
既然 Sora 不懂物理世界,那它能否成为世界模拟器呢?
我认为有点悬。为什么?
世界模拟器是一个能够运行物理规则的虚拟环境,帮助机器人学习现实中的因果关系,但 Sora 生成的视频虽然看起来像回事,却毫无真实性。
你想想看," 船在杯子里 " 这样的视频去怎么去教机器人,机器人可能会以为杯子能装下万吨巨轮,这根本没好用。
因此,扩散模型和 Transformer 的目标是视觉生成,而不是物理模拟,Sora 更像一个艺术工具,追求 " 好看 " 的画面,而不是 " 对 " 的世界,这让我觉得 Sora 局限性在于其架构没有对准目标。
02
既然这样问题来了:世界模拟器要具备哪些关键特性?
我觉得最基础的有三点:
一,得知道现实物品规则是什么样,搬到虚拟场景中,不能差太多;二,理解物品与物品之间怎么相互影响的;三,还得能把不同物品整合到一起,相互推理。
这么说,有点抽象,我举个例子:
你在教一个机器人怎么拿东西,世界模拟器里面的 " 虚拟杯子 ",得模仿出真实杯子的重量、材质、形状,这样机器人才知道该用多大的力气去抓。
模拟器把重力以各指标模仿的不准确,机器人就会抓得太紧或者太松,东西就会掉下来,甚至还会被弄坏。
再聊聊智能交通。
现实中,堵车是个大难题。要解决它,得靠算法、数据分析,比如错峰出行。
假设有个世界模拟器,如果它没法模拟红绿灯时长、车辆速度,就无法预测哪里会堵车、什么时候堵,也做不了错峰规划。
同样,如果模拟器不清楚车辆摩擦力,就判断不了车子能不能在绿灯时顺利起步或红灯时及时停下;如果搞不清车辆之间的相互影响,交通就会乱套,甚至可能出事故。
所以,世界模拟器的作用,是把复杂的物理规则和物体之间的关系都搞清楚,这样才能让机器人、智能交通这些高科技的东西更好地工作。
对比来看,Sora 在关键特性上明显不足。它在视觉生成方面做得很棒,但没办法满足世界模拟器对物理规则和因果关系推理的要求。
这种问题不只出现在 Sora 上,一些国产大模型也有类似架构缺陷。我刷抖音时经常看到有人用图生视频模型,结果人突然变成狗,看起来很搞笑,但明显不符合现实逻辑。
原因很简单,架构无法为世界模拟器提供真实的物理理解能力,因此,在具身智能或其他领網域的应用就会受到很大限制。
可以得出一个结论:世界模型和文生视频的架构完全不一样。世界模型要模拟真实世界,必须懂物理规律和现实逻辑;文生视频主要生成画面,在逻辑和真实性上没那么严格。
03
我认为,相比之下,真正值得关注的,是更注重物理规则建模和具备因果关系推理方向的模型。比如:李飞飞的 World Labs、黄仁勋的世界模型(Cosmos WFMs),以及群核科技的空间智能。
为什么拿他们举例呢?有三点:
先看目标,黄仁勋提出的 Cosmos WFMs(世界模型)是希望打造一个能模拟真实世界的「虚拟大腦」。这个大腦要懂物理规则,要知道物体怎么动、力怎么作用,还要明白事情的前因后果。
李飞飞的 World Labs 目标是让人工智能真正理解世界。它通过模拟物理规则、因果关系和复杂场景,让 AI 不仅能 " 看到 ",还能 " 理解 " 世界。
比如:一个 AI 产品可以在虚拟场景中预测事情的发展,或根据不同情况做出合理决策。这种能力对提升机器人、自动驾驶等领網域的智能化至关重要。
群核科技的空间智能,目标是希望把真实世界搬到数字世界里,让 AI 能看懂、能用,然后用数据帮助家居设计、建筑规划、以及 AR、VR 这些领網域,帮行业更高效的干活。
说得直白点,是希望打造一个 " 数字孪生 " 的世界,让人、AI、空间里面思考和行动,解决实际问题。
既然有了目标,再看看三家技术实现路径。
Cosmos WFMs 的技术实现路径是通过构建生成式世界基础模型(WFMs),结合高级分词器、安全护栏和加速视频处理管道等关键技术,为开发者提供高效的开发工具。
具体来说,它利用 NVIDIA NeMo 对基础模型进行调优,并通过 GitHub 和 Hugging Face 提供开源支持,帮助开发者生成高仿真的物理数据。
此外,Cosmos 还专注于多视角视频生成、路径规划、避障等任务,进一步提升物理 AI 在机器人、自动驾驶等领網域的应用能力。
报告里面的东西是不是很难懂?
通俗的说:他们做的这套系统,能让 AI 学会像人一样看路、规划路线、避开障碍物,还能生成各种角度的视频,特别适合用在机器人和自动驾驶这些领網域。
李飞飞的 World Labs 的技术实现路径是,开发一种从 2D 到 3D 的智能转化技术,让 AI 不仅能看懂平面图片,还能生成完整的三维空间。
他们的系统从一张普通照片出发,估算出场景的 3D 结构,然后补全图片中看不到的部分,最终生成一个用户可以自由探索和互动的虚拟世界。
简单讲,用 AI 把平面影像变成立体空间,让人像在真实世界一样能走进去、四处看看。这种技术对机器人导航、虚拟现实等领網域特别有用,因为它们都要 " 空间智能 " 来理解和应对复杂的 3D 环境。
群核科技搞空间智能,简单来说:
1 万台 GPU 伺服器,用计算能力帮家居和建筑行业快速做出大量 3D 模型,顺便攒了一堆 2D 和 3D 的设计数据;把数据整合到一个平台上,能生成特别逼真的虚拟场景。
最后,企业可以用这个平台来训练机器人,比如:扫地机器人或者自动驾驶设备,让它们在虚拟世界里模拟真实环境,学会怎么动、怎么避障,变得更聪明。
因此,无论黄仁勋的 Cosmos WFMs、李飞飞的 World Labs,还是群核科技的空间智能,技术核心目标是通过模拟真实世界的物理规则和因果关系,让 AI 在空间内训练更聪明、更能解决实际问题。
04
我认为,要实现这一目标,离不开一个关键因素:高质量数据。数据是构建世界模型和空间智能的基础,可它也是发展里最大的「拦路虎」。
为什么?
我们说具身智能有点抽象,换一个更具体的词:" 虚拟训练 "。虚拟训练有两个重要方面:
一个是生成式的海量数据。就像 GPT 这样的文字模型,靠超大规模的数据和强大的算力来学习和推理;另一个是真实数据。枕头的大小、重量、材质,或者光线怎么反射、物体怎么碰撞,这些是物理互動场景。
这种真实数据来源于现实世界,直接决定虚拟训练能否模拟出符合实际逻辑的行为和反应;
换句话说,虚拟训练要两种数据:一种是 " 虚拟生成 " 的大数据,另一种是 " 真实场景 " 的物理数据,而后者,往往成为发展的瓶颈。
原因很简单:文生视频、文生图等生成式技术虽然能生成丰富的内容,但很难直接获取真实的物理规则和精确的互動细节。
比如,文生视频可以生成一个 " 滚动的球 ",但它可能无法准确模拟球在不同材质地面上的摩擦力、弹跳高度或碰撞反应。
那真实场景的数据从哪儿来呢?只能从真实世界里来。
通过传感器、摄像头、激光雷达等设备,从现实环境中采集;你开车时,传感器会记录车辆的运动轨迹、力度变化、光线反射,还有车辆间距、行人行为,甚至天气对路况的影响。这些信息会被上传到平台,用来分析和训练。
但有了数据还不够。
平台的数据不能保证下一次操作一定精准,还得在虚拟环境里进行大量训练;自动驾驶汽车,要在虚拟环境里反复模拟行驶,可能要跑成千上万次,直到能应对各种复杂场景,才能用到现实世界里。
明白这些,你也就明白了,这不仅是自动驾驶、机器人领網域的问题,其他行业也一样。
不管医疗、制造还是农业,世界模型和空间智能都需要海量的真实数据来支撑,并且要通过虚拟环境的反复训练来验证和优化能力。
换句话说,无论是自动驾驶、机器人导航,还是其他行业的具身智能应用,核心挑战都在于如何获取高质量的真实数据,再通过虚拟和现实的结合,让 AI 真正能解决实际问题;这才是未来技术落地的关键。
谁有底层架构、谁有数据,谁才有上牌桌的机会。