大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

Sora爆火,一次典型的OpenAI式胜利

2024-02-20 简体 HK SG TW

今天小编分享的互联网经验:Sora爆火,一次典型的OpenAI式胜利,欢迎阅读。

图片来源 @视觉中国

文 | 读懂财经

在 2022 年的春节,OpenAI 推出的 ChatGPT 快速引爆了资本圈与 AI 圈,至此拉开了 AI 大航海的序幕。

到了今年,类似的故事也在发生。2 月 16 日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora。很显然,这给了整个 AI 行业一点小小的震撼。

相比市面上现有的 AI 视频模型,Sora 展示出了远超预期的能力:不仅直接将视频生成的时长一次性提升了 15 倍,在视频内容的稳定性上也有不小的提升。更重要的是,在公布的演示视频里,Sora 展示了对物理世界部分规律的理解,这是过去文生视频模型一大痛点。

随着 Sora 的发布,另一个有趣的事情是,为什么总是 OpenAI?要知道,在 Sora 发布前,探索 AI 视频模型的公司并不少,包括大众熟知的 Runway、Pika,也取得了不错的进展。但 OpenAI 依然实现了降维打击。

这是一场典型的 OpenAI 式胜利:聚焦 AGI 这一终极目标,不拘泥于具体场景,通过 Scaling Law,将生成式 AI 的 " 魔法 " 从文本延伸到了视频和现实世界。‍‍‍‍‍‍

在这个过程中,AI 所创造的虚拟世界与现实世界的边界逐渐模糊,OpenAI 距离 AGI 的目标也将越来越近。

01 降维打击的 Sora

在 Sora 发布前,大众对文生视频方案并不陌生。根据知名投资机构 a16z 此前的统计,截至 2024 年底,市场上共有 21 个公开的 AI 视频模型,包括大众熟知的 Runway、Pika、Genmo 以及 Stable Video Diffusion 等等。

那么相比现有的 AI 视频模型,Sora 所展示出来的优势,主要集中在以下几点:

一是视频长度的巨大提升。Sora 生成长达 1 分钟的超长视频,这样内容长度远远高于市面上的所有 AI 视频模型。

根据 a16z 统计,现有的 AI 视频模型制作的视频长度大都在 10 秒以内,像此前大热的 Runway Gen 2、Pika,其制作的视频长度分别只有 4 秒和 3 秒。60 秒的视频长度,也意味着其基本达到了抖音等短视频平台的内容要求。

二是视频内容的稳定性。对 AI 视频来说,它们基本上是生成帧,在帧与帧之间创造时间上连贯的动画。但由于它们对三维空间以及物体应如何互動没有内在的理解,导致 AI 视频往往会出现人物扭曲和变形。

比如说,这样的情况经常会出现:片段的前半部分,一个人在在街道上行走,后半部分却融化在地面上——模型没有 " 坚硬 " 表面的概念。由于缺乏场景的三维概念,从不同角度生成相同片段也很困难。

但 Sora 的独特之处在于,其所制作的 60 秒视频不仅能够实现一镜到底,视频中的女主角、背景人物,都达到了惊人的一致性,各种镜头随意切换,人物都是保持了极高的稳定性。以下是 Sora 发布的演示视频:

Prompt: 一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

三是深刻的语言理解能力使 Sora 能够精准地识别用户的指令,从而在生成的视频中呈现出丰富的表情和生动的情感。这种深层次的理解不仅局限于简单的命令,Sora 还理解这些东西在物理世界中的存在方式,甚至能够实现相当多的物理互動。

举个例子,就拿 Sora 对于毛发纹理物理特性的理解来说,当年皮克斯在制作《怪物公司》主角毛怪时,为能呈现其毛发柔软波动的质感,技术团队为此直接连肝几个月,才开发出仿真 230 万根毛发飘动的軟體程式。而如今 Sora 在没有人教的情况下,轻而易举地就实现了。

" 它学会了关于 3D 几何形状和一致性的知识," 项目的研究科学家 Tim Brooks 表示。" 这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。"

毫无疑问,相比于其他 " 玩具级 " 的视频生成 AI,Sora 在 AI 视频领網域实现了降维打击。

02 把视觉数据统一起来

从技术层面来说,图片生成和视频生成的底层技术框架较为相似,主要包括循环神经网络、生成对抗网络(generative adversarial networks,GAN)、自回归模型(autoregressive transformers)、扩散模型(diffusion models)。

与 Runway、Pika 等主流 AI 视频聚焦于扩散模型不同,Sora 采取了一个新的架构—— Diffusion transformer 模型。正如它的名字一样,这个模型融合了扩散模型与自回归模型的双重特性。Diffusion transformer 架构由加利福尼亚大学伯克利分校的 William Peebles 与纽约大学的 Saining Xie 在 2023 年提出。

在这个新架构中,OpenAI 沿用了此前大语言模型的思路,提出了一种用 Patch(视觉补丁)作为视频数据来训练视频模型的方式,是一个低维空间下统一的表达部門,有点像文本形式下的 Token。LLM 把所有的文本、符号、代码都抽象为 Token,Sora 把图片、视频都抽象为 Patch。

简单来说,OpenAI 会把视频和图片切成很多小块,就像是拼图的每一片一样。这些小块就是 Patch,每一个补丁就像是电腦学习时用的小卡片,每张卡片上都有一点点信息。

通过这种方式,OpenAI 能够把视频压缩到一个低维空间,然后通过扩散模型模拟物理过程中的扩散现象来生成内容数据,从一个充满随机噪声的视频帧,逐渐变成一个清晰、连贯的视频场景。整个过程有点像是把一张模糊的照片变得清晰。

按 OpenAI 的说法,将视觉数据进行统一表示这种做法的好处有两点:

第一,采样的灵活性。Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频(如下列 3 个视频)。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容,快速以较低尺寸制作原型内容。

第二,取景与构图效果的改善。根据经验发现,以原始宽高比对视频进行训练可以改善构图和取景。比如,常见的将所有训练视频裁剪为正方形的模型,有时会生成仅部分可见主体的视频。相比之下,Sora 的视频取景有所改善。

为什么 OpenAI 能够想到将视觉数据进行统一表示的方法?除了技术原因外,也很大程度上得益于 OpenAI 与 Pika、Runway,对 AI 视频生成模型的认知差异。

03 世界模型,通过 AGI 的道路

在 Sora 发布前,AI 视频生成往往被人看作是 AI 应用率先垂直落地的场景之一,因为这很容易让人想到颠覆短视频、影视 / 广告行业。

正因为如此,几乎所有的 AI 视频生成公司都陷入了同质化竞争:过多关注更高画质、更高成功率、更低成本,而非更大时长的世界模型。你能看到,Pika、Runway 做视频的时长都不超过 4s 范围,虽然可以做到画面足够优秀,但物体动态运动表现不佳。

但 OpenAI 对 AI 视频生成的探索更像是沿着另一条路线前进:通过世界模型,打通虚拟世界与现实世界的边界,实现真正 AGI。在 OpenAI 公布的 Sora 技术报告里,有这样一句话:

" 我们相信 Sora 今天展现出来的能力,证明了视频模型的持续扩展(Scaling)是开发物理和数字世界(包含了生活在其中的物体、动物和人)模拟器的一条有希望的路。" ‍

世界模型,最早是由 Meta 首席科学家杨立昆(Yann LeCun)在 2023 年 6 月提出的概念,大致意思是可以理解为是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知,尤其是理解当下物理世界存在的诸多自然规律。

换言之,OpenAI 更愿意把 Sora 视为理解和模拟现实世界的模型基础,视为 AGI 的一个重要里程碑,而不是 AI 应用落地的场景。这意味着,相比其他玩家,OpenAI 永远用比问题更高一维度的视角看待问题。

在实际情况里,这会让解决问题变得更加容易。正如爱因斯坦说过,我们不能用创造问题时的思维来解决问题。从这个角度上说,也能够解释为什么 OpenAI 总能时不时给行业来点小震撼。

尽管从目前看,AI 生成的视频仍然有着各种各样的问题,比如模型难以准确模拟复杂场景的物理,也可能无法理解因果关系的具体实例,但不可否认的是,至少 Sora 开始理解部分物理世界的规则,让眼见不再为实,基于物理规则所搭建的世界真实性遇到前所未有挑战。

当大模型从过去文本中学习的模式,开始转为向视频和真实世界学习。随着 Scaling Law 的逻辑在各个领網域涌现,或许赛博世界与物理世界的边界将变得更加模糊。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們