今天小编分享的财经经验:彻底颠覆!从业者感慨:要卷死一堆视频公司了,欢迎阅读。
作 者丨孔海丽
编 辑丨张伟贤
图 源丨图虫
视频领網域的 "GPT 时刻 " 也来了。
北京时间 2 月 16 日凌晨,OpenAI 推出了新的文生视频模型 Sora,可以把简短的文本描述转换为长达 60 秒的高清视频,继文本、图片的革命之后,继续颠覆视频领網域。
OpenAI 一口气放出的 48 个示例视频中,既有对现实世界的高度还原,也有动画或科幻大片,角色与场景互動复杂、运动轨迹清晰、情感生动、细节逼真,一镜到底和多机位统统不在话下。
更重要的是,Sora 初步实现了对真实世界的洞察与学习,已经能够理解角色在物理世界中的存在方式并预判运行轨迹。
尽管目前 Sora 仍难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系,比如人物吹蜡烛之后,烛火并未摇曳或熄灭。但这种趋势已经摆上了台面,OpenAI 开辟了一个全新的赛道,并让其他仍困在几秒视频时长的 AI 视频模型创业公司,遭受降维式辗轧。一位 AI 大模型从业者感慨:" 要卷死一堆文生视频公司了,秒杀…… "
一个能够理解、感知、创造内容的 AI 视频模型,将撕开无限可能。OpenAI 扔下的这枚重磅炸弹,商业落地场景非常丰富,战栗的将不只是影视行业,整个内容创作行业或都将被动摇。
在实际应用层,Sora 可能会为短视频创作、游戏呈现效果、机器人具身智能、自动驾驶等,带来巨大的影响与突破。假以时日,真实世界与视频虚拟世界的区隔,或许也将被削弱,大洋彼岸已经在担心 AI 视频会影响总统大选了,正在采取行动应对 AI 生成的深度伪造。
对于 Sora 模型的意义,OpenAI 官方如此表述:" 能够理解和模拟现实世界的模型的基础,我们相信这一能力将是实现 AGI 的重要里程碑 "。
上难度:理解真实世界
与现有文生视频技术相比,OpenAI 的 Sora 几乎将 AI 视频的竞争,从冷兵器时代推进到了现代化战争阶段,时长、效果、互动性,都秒杀现有技术。
视频生成领網域面对的一个重要挑战就是,在生成的较长视频中保持时空连贯性和一致性。市面上现有的 AI 视频产品,时长一旦超出几秒,将无法正确呈现物体之间的互动关系,逐渐 " 离谱 "。
因为 AI 对视频的学习,依赖大量的训练数据,如果训练数据中没有涵盖某种特定的过渡效果或动作,AI 就很难学会如何在生成视频时应用这些效果。也就是说,时长一旦变长,现有 AI 的能力就会 " 露馅 "。
更根本的原因在于,现有 AI 无法理解物理世界的运行法则,也就无法预测物体和角色在时间线上的运动轨迹。
但 OpenAI 做到了。Sora 直接将时长提升到了 60 秒,且效果高清,细节丰富。
OpenAI 官网呈现的一则 60 秒视频显示,女主与周围的街道、人群、灯光、都非常清晰自然,完全没有 AI 视频常见的 " 掉帧 " 问题,甚至肢体动作、面部表情、水中倒影、墨镜折射画面都很连贯。
另一则视频中,穿过东京郊区的火车车窗倒影,不仅显示了车窗外掠过的建筑,近距离经过的另一节车厢甚至加深了车内灯光、人物的折射清晰度,非常符合常理,并且流畅自然。
Sora 经常能够为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物、动物和物体即使在被遮挡或离开画面后,仍能被准确地保存和呈现。并且,Sora 能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。
一则太空人科幻视频中,同时呈现了近景、远景中的主角,被太空船内部场景切分开的人物镜头,分别处于凝视、行走、思考等不同的状态,人物一致、行为连贯。
据 OpenAI 官网介绍,Sora 是一种扩散模型,相较其他模型,看起来具备了 " 理解 " 和 " 思考 " 能力。
与 AI 视频明星创业公司 Runway 所使用的 Gen 模型相比,Sora 模型不仅了解用户在提示中要求的内容,还了解这些角色在物理世界中的存在方式,能够理解和模拟运动中的物理世界,能够生成具有多个角色、特定类型的运动,以及主题和背景的准确细节的复杂场景。
与 GPT 模型类似,Sora 使用的是 transformer 架构,该架构对视频的时空序列包和影像潜在编码进行操作,能够主动填补视频中的 " 缺失帧 ",从而看起来具备 " 预测性 ",使得 AI 视频模型不再那么 " 被动 "。
一位 AI 大模型从业人士对 21 世纪经济报道记者表示,OpenAI 又一次改写了游戏规则,把文生视频推高到了 " 理解真实世界 " 的维度。
这也正是世界模型的特点——让机器能够像人类一样对真实世界有一个全面而准确的认知。世界模型不仅包括对事物的描述和分类,还包括对事物的关系、规律、原因和结果的理解和预测,从而进行推理和决策。
英伟达人工智能研究院 Jim Fan 表示:" 如果你还是把 Sora 当做 DALLE 那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。" 有技术人员告诉 21 世纪经济报道记者,Jim Fan 的言外之意在于,不能忽略 Sora 所折射的 " 世界模型 " 的更进一步—— AI 已经可以读懂物理规律。
随着训练的继续推进,AGI 的实现或许不再是纸上谈兵。
打击力:颠覆现实世界
OpenAI 推出 Sora 之后,互联网世界除了感叹,还有一片哀嚎。
在 OpenAI 的推文下面,不少评论打出 "gg 皮克斯 "、"gg 好莱坞 "(注:gg 是竞技游戏礼貌用语,good game 的缩写,用于表达 " 打得好,我认输 "),马斯克更是在 X 上发表评论,称 "gg 人类 "。
有不少网友感慨自己 " 要失业了 ",视频行业将被彻底颠覆。
有来自电影制作行业的从业人士告诉 21 世纪经济报道记者,如果 Sora 继续进化下去,取代一部分传统视频制作方式是必然的,就像 AI 绘画取代画师、设计师一样,这是趋势。
" 短视频、概念视频、广告、微短剧、甚至是长视频里,都会大量使用 AI 生成视频。"该人士表示:" 不过传统影视剧该怎么拍还得拍。"
观点普遍认为,AI 视频模型将改变电影工业的生产方式,虽然不能完全取代现有人力,但将会成为新的生产工具,影视行业从业人士需要尽快把工具 " 为我所用 "。
一位影视编剧提出了另一种想法,她认为,Sora 这类 AI 视频模型大大降低了精美视频的制作门槛,以后编剧的奇思妙想将有更大的呈现空间," 技术不到位 "、" 经费不够 " 的掣肘都将减小很多。
比如,OpenAI 的一则视频中,巨大的猛犸象缓缓走来,形象逼真,身后腾起了雪雾,远处被白雪覆盖的树林与山脉清晰可见。而众所周知,动画《冰川时代》的实际制作费用达到 8000 万美元之高,耗时 4 年之久。
" 那些有才华但苦于缺少投资的导演们,可能会借力 Sora 创造出许多惊人的作品。" 她补充说。
目前,Sora 尚未对公众开放,OpenAI 正在与一些视觉艺术家、设计师和电影制作人合作,以探索如何让 Sora 对创意专业人士提供有效帮助。
而双刃剑的另一面,是 AI 视频模型给现实世界带来的虚假信息威胁也将大大增加。
近期,AI 合成的泰勒 · 斯威夫特不雅照曾引起过轩然大波,就连白宫方面也呼吁国会 " 应立刻采取行动 ",而美国政坛和民众也对背后凸显的技术、法律漏洞感到担忧。
AI 生成 " 恶性视频 " 对现实世界造成的困扰,将数倍于图片效果。为此,美国联邦贸易委员会将致力于利用工具来检测、阻止相关冒充欺诈行为。
为此,OpenAI 表示,将在提供 Sora 之前采取几个重要的安全措施,与错误信息、仇恨内容和偏见等领網域的专家进行合作,对模型进行对抗性测试;OpenAI 也在构建工具来检测误导性内容,例如检测分类器,可以判断视频何时由 Sora 生成。
除了开发新技术为 Sora 保障安全性,现有的安全方法也适用于 Sora 模型,例如那些请求极端暴力、色情内容、仇恨影像、名人肖像或他人 IP 的提示将被模型拒绝,也开发了强大的影像分类器,用于查看生成的每个视频的帧数,以确保在向用户显示视频之前遵守 OpenAI 的使用政策。
但 OpenAI 也承认,无法预测人们使用 Sora 的所有有益方式,也无法预测人们滥用它的所有方式。
不过,目前 Sora 还有其局限性,比如可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人咬一口饼干之后,饼干可能没有咬痕。该模型还可能混淆提示的空间细节,例如,左右混淆,人类在朝着跑步机的尾部跑步。也可能难以精确描述随时间推移发生的事件,例如,五只灰狼幼崽嬉戏的画面中,幼崽数量可能忽多忽少,有的幼崽会凭空出现或消失。
随着技术进步,或许未来,如何判定视频真假,也将成为一门学问。
压迫感:巨头步步碾压
另一厢,谷歌也于同一日发布了 Gemini 1.5 版本,在文本的长度上实现了大幅突破。但终究被 OpenAI 的视频模型抢尽了风头。
一批 AI 视频模型创业公司也将命悬一线。
文生视频的生成模型最早出现在 2022 年底,Pika lab、Runway 都分别贡献过 AI 生成视频的话题。早期,就连 Meta 和谷歌的 AI 视频都有着 " 一眼 AI" 的问题,清晰度、逻辑性有明显缺陷。
经过不懈努力,Runway 在 2023 年 11 月发布了 AI 视频生成工具 Gen-2,修复了视频画质,也克服了不连贯、闪烁变形以及低清等问题,但生成的视频时长最多只能达到 18 秒。
眼下,OpenAI 一举把 AI 视频生成时长拉到了 60 秒,并且运镜复杂、场景多变、人物还能够表达丰富的情感色彩,简直断了其他小公司未来的路。
业内分析人士表示,如果其他 AI 视频模型创业公司无法尽快追赶 OpenAI,恐怕将直接失去生存空间。
但这种追赶并不容易。前述 AI 大模型从业者向 21 世纪经济报道记者表示,仅就公开信息而言,其他公司与 OpenAI 在技术能力、训练量、耗资程度方面,都有着代际差异。
" 如果长期关注 AI 文生视频的进展,就会知道 OpenAI 的 Sora 有多强大,是专业拳手暴打小白的差距。"、"AI 真的抽成两种,OpenAI 和其他 AI" ……相关评论也是层出不穷。
一位关注 AI 大模型的投资人向 21 世纪经济报道记者透露,小型公司跑出来的概率变得更渺茫了,尤其是这么烧钱的领網域,很难在巨头的阴影下做出亮点。
从文本大模型、影像大模型,再到如今的视频大模型,OpenAI 深刻诠释了 " 一步先、步步先 " 的残酷性。
实际上,Sora 之所以能这么出色,也与 OpenAI 之前的领先优势有关。
OpenAI 放出的技术报告透露,Sora 模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。这背后有 GPT 的功劳,OpenAI 会先利用 GPT 将简短的用户提示转换为更长的详细内容,再发送到视频模型。
他们还为视频生成调用了 DALL · E3(OpenAI 的影像生成模型)中的 re-captioning 技术,为视觉训练数据生成高度描述性的文本,使得模型能够更忠实地遵循用户指令。
除了能够以文本生成视频,Sora 模型还能够获取现有的静止影像并从中生成视频,提高视频的准确性及细节颗粒度,还可以对现有视频进行扩展或填充 " 缺失帧 "。
也就是说,Sora 是站在 OpenAI 的大语言模型 GPT 以及图片大模型 DALL · E 的肩膀上,并且跑出了加速度。
一位硅谷 AI 行业创业人士感慨说:"创业之路,离天堂太远,离巨头太近,如果又没有自己的壁垒,实在太容易被淘汰了。"
而其他落后于 OpenAI 的科技巨头,在 AI 大模型这条路上,也要时时接受来自先行者的压迫感。
SFC
本期编辑 刘雪莹 实习生陶陶
21 君荐读
>