今天小编分享的科技经验:OpenAI炸裂更新!又一个行业被干掉了,欢迎阅读。
作者 | 万连山
假期轻松愉快,没太关注时事。
没想到一觉醒来,朋友圈突然被一则新闻刷屏:OpenAI 发布文生视频模型 Sora 。
好家伙,瞬间给我拉回工作氛围。
人们一直期待 GPT-5,但 Sora 带来的轰动不亚于 GPT-5 的发布。
之前大家还在关注,谷歌推出的 Gemini 能否杀死 GPT4,全世界各大科技巨头能否在这波 AI 浪潮中弯道超车。
现在,显然没人关注了。
因为 OpenAI 自己可能要用它先杀死 GPT-4 了。
我上官网(https://openai.com/sora)看了演示视频,无论从视频流畅度还是细节表现能力上,Sora 的效果都相当惊艳。
难怪有人说:现实,不存在了。
比如官推里这条 14 秒的东京雪景: 美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。
尽管我们能感觉到,还有那么一些不自然。但当素材用,已经足矣。
又比如下面这张对法令纹和痘印的刻画,只要不去吹毛求疵,确实已经足够真实。
说句不该说的,这张图,至少看起来比坐在美颜前面的女主播们真实 ……
网友们也第 n+1 次纷纷哀悼起相关赛道的公司们:
"OpenAI 就是不能停止杀死创业公司。"
" 天哪,现在起我们要弄清什么是真的,什么是假的。"
" 我的工作没了。"
" 整个影像素材行业被血洗,安息吧。"
……
01 现实与虚拟的界限
其实,文字生成视频这回事,早就不新鲜了。
2023 年 8 月,RunwayGen2 正式推出,AI 生成式视频正式进入大众视野。
到今年初,不计其数的产品一个接一个,PIKA、Pixverse、SVD、Genmo、Moonvalley…… 等等等等。
太多了,也太卷了。
我们能明显感觉到,最近小半年刷的短视频里,多了很多不自然的视频。稍微品一品,就能察觉这肯定不是人工剪辑的。
首先,没有超过 4s 的连贯镜头;其次,很不自然。
这些实用的工具,基本都是小公司出品的,功能并不完善。
说不完善都还算保守了,简直就是漏洞百出。
视频内容归根结底,是对现实世界的还原。既然如此,那其中必然包含大量互動镜头——物与物、人与人、人与物,等等。
就像用攝影機拍出来的片段一样。
我们看电影、看视频,看的也是互動,相信没几个人喜欢看一个人的独白。
比如,玻璃杯从桌子上摔到地上,它应该碎掉;像皮球摔到地上,它应该弹两下。
但让 AI 去合成这类场景,你就会发现,它并不会还原以上的物理现象。物体与物体碰撞或叠加到一起,AI 只会让其中一方变形。
这说明了一个关键问题: 过去的 AI 并不理解现实世界的规律。
不符合人类常识的视频,能有多大市场呢?
不理解基础物理的 AI,它的上限能有多高?
想要解决这个问题,难不难?很难。
现在的 AI 大模型,虽然是模拟的人腦,但毕竟有所区别。
最本质的区别在于: AI 没有想象力。
比如,你一巴掌扇在我脸上,面部肌肉如何颤动?把一颗鱼雷扔进池塘,水面如何散开?
我们可以想象到后续会发生的事情,AI 不能。
无论它的参数堆得多高、计算速度再快,都不能。
即便是目前的 Sora 也做不到。
从各种演示例子中可以看到,虽然 Sora 对自然语言有着深入的理解,能够准确洞悉提示词,生成表达丰富的内容,甚至可以创建多个镜头、保持角色和视觉风格的一致性。
但是,它依然无法准确模拟出复杂场景的物理现象,因为它不理解因果关系。
比如,人咬了一口饼干,但饼干上没有咬痕;又或者混淆左右、不遵循特定的摄像轨迹;甚至无法理解,影子是人的影子还是物的影子 ……
如此一来的结果,便是合成有违物理常识的视频。
既然如此,Sora 到底牛在哪里,为什么这么多人追捧它?
因为它其实做得足够好了,至少比同行们好太多了。
用 Fortune 杂志的话来说就是: 将生成式 AI 之战转移到了好莱坞。
用官网的话来说,它能够生成包含多种角色和特定类型的运动,主体和背景细节准确;还能理解事物在物理世界的存在方式。
简单来说,它虽然还不能理解需要想象力的因果律,但最基本的现实场景,它是可以还原的。
AI 生成视频这一条赛道,诞生至今还不到 1 年,我们确实不能要求太高。
如果把上文描述的内容当做终结目标,把去年至今的一系列生成工具作为雏形,Sora 大概处在两者之间。
它是如何做到的?
02 谁站在巨人肩上?
Sora 主要采用了两种技术。
一个是扩散模型(diffusion model),原本是用于文字转图片的。
简单来讲,是先生成一张全是 noise(噪声)的图片,与目标图片的 vector 尺寸相同(比如目标图片是 256*256,初始 sample 图片也要是 256*256),然后经过若干次 denoise(去噪声),让图片逐步成型。
问题在于,大模型怎么知道去除什么?保留什么?
当然需要训练。
研究人员得先用清晰的图片,一步一步加噪声进去,如下图。
这是上图的逆序,即反向扩散。
看懂了上面两个步骤,你才能理解 MIT Technology Review 究竟在说啥:
Sora 的团队使用了 DALL-E 3 背后的技术,即扩散模型。扩散模型经过训练后可以将模糊的随机像素变成图片。
其原理并不复杂,但需要时间和人力成本。
另一项技术是 Transformer 的神经网络,就是 GPT(Generative Pre-Trained Transformer)中的 T。
但是,Transformer 架构人尽皆知,在文字、影像生成上已经成为主流,为什么别人没想着在视频生成上用,就 OpenAI 用了呢?
用技术的话来说: Transformer 架构中,全注意力机制的内存需求会随着输入序列长度而二次方增长。
说人话就是: 计算成本太高了。
即便 OpenAI 背靠微软,各种融资拿到手软,也不愿意这样烧钱。
所以他们开发了一个视频压缩网络,先把视频数据降维到 latent(潜空间),再将压缩过的数据生成 Patche,这样就能使输入的信息变少,有效减小计算量压力。
然后,为了让大模型更好理解用户的意思,OpenAI 直接把文生视频模型套进已经得到市场认可的 GPT 模型范式中,这就是它独有的优势了。
使用者输入的提示词,并非直接交给 Sora,而是先让成熟的 GPT 将文本进行精准详细的扩写。
Sora 再根据 GPT 提供的详细文本,逐帧生成更准确的视频。
说实话,个人认为,这才是 Sora 有别于其他模型的最大优势。
其他团队即便能解决其他步骤,但没有成熟的大模型,也是白搭。
整体上看,Sora 的成功几乎是水到渠成的。
它能有如今惊艳的表现,基本全部得益于 OpenAI 过去的成果,有些是借用了思路,有些则是不可或缺的基本架构。
这就是所谓的先发优势了,它不仅仅体现在老生常谈的垄断问题上面。
一生二、二生三、三才生万物。
反观 OpenAI 此时此刻全世界的各大竞争对手,无一例外全部卡在文生文、文生图上。
更有甚者,连一都没有的,还是老老实实抓紧打底层。不然等先发者三生万物了,真的是什么都晚了。
我们能明显感觉到,AI 比过去任何行业的迭代都要快。
也许,这个技术差只要维持两年,就会变成永远无法逾越的鸿沟。
所谓 " 差距只有几个月 "、" 弯道超车 ",基本是不存在的。
03 尾声
正如上文所说,Sora 目前仍有很大缺陷。
它能生成复杂、精美且足够长的视频,这证明 AI 在理解现实世界的能力上有相当大的提升。
但这种提升,依然基于大量的训练,而不是 AI 本身对世界的理解。Sora 对视频的处理依旧是有很多局限性,甚至包括很基本的事实错误。
所以 Sora 给人的感觉虽然震撼,但还称不上这两天热烈讨论的 " 世界模型 "。
所谓 " 现实不存在了 ",绝对不是指现在。
但未来说不准。
在我们普通人眼中,Sora 就是个文生视频模型。它的出现,意味着大多数影视、视频制作从业人员,即将失业。
但对 OpenAI 团队而言,并不仅此而已——这必然是他们构建 AGI(通用人工智能)的重要环节。
AGI 与世界的互動不仅体现在文字、图片和语音等形式上,还有更直接的视觉视频,这也是人类自古以来认知和理解世界最重要的方式。
所以生成视频、理解视频和理解物理世界,是未来 AGI 必备能力之一。
此时此刻,我们还能想象得到,生成式 AI 会对影视、游戏制作行业造成天翻地覆的影响。
等到通用人工智能问世的那一刻,AI 到底能做什么、会对世界造成多大的影响?
所有人都能想象到的,是必然会应用到具身智能,也就是机器人上。
但除此之外呢?抱歉,想象力有限,真的想象不出来。
或许,AI 真的就是全人类期待了几十年的那个技术奇点。你知道某些事情会发生,但无法想象究竟是什么事。(如果能想象,那也就不叫奇点了)
只能祈祷,未来是星辰大海,商机遍地。