追不上Sora的同行有难了

今天小编分享的科技经验：追不上Sora的同行有难了，欢迎阅读。

Sora 公布第 10 天，同行已经坐不住了。

2 月 16 日，中国大年初七，OpenAI 公布了全新的生成式人工智能模型 Sora：输入自然语言指令，输出至多 60 秒的视频。

从文本到视频的生成式 AI 模型并不新鲜，但 sora ——就像 ChatGPT ——一样，因其断崖式的质量提升，登时点燃了互联网。高清的画质，流畅的画面，乍看之下颇为自然的物理轨迹，和一年前近乎鬼畜的 " 威尔 · 史密斯吃意大利面 " 视频看起来像隔了一个世纪，同行去年才发布的 AI 产品与之相比也黯然失色。

10 天很短，但在 AI 领網域却足以生变。

至少有两家 AI 界 " 当红炸子鸡 " 站了出来：2 月 22 日，StabilityAI 正式开放 Stable Video 的公测，该产品背后的模型 Stable Video Diffusion 去年 11 月就已经发布。几乎同时，另一家在文生图领網域颇有建树的 Midjourney 也透露，可能会在下一次迭代时包含视频功能。

昔日 " 炸子鸡 " 站在阴影中，追不上 Sora 的同行有难了。

在接受了 Sora 演示视频的直接冲击之外，人们立刻开始做纵向和横向的比较。

纵向比较，人们拿出了一年前 " 威尔 · 史密斯吃意大利面 " 的 AI 视频。这位好莱坞明星脸部变形严重、面的形态千变万化，分分钟触发恐怖谷效应，越看越诡异。

一年之后，Sora 已经可以做出一个女人在东京街头漫步的视频，不管是画面质量、连续性和稳定性，还是女人的步态与神情，都已经几乎可以以假乱真，让人连连称赞：文本到视频的进步也太大了。

可惜的是，尽管无数网友在 OpenAI CEO 山姆 · 奥特曼（Sam Altman）的社交媒体账号下求 Sora 版本的 " 威尔 · 史密斯吃意大利面 "，并没能得偿所愿。倒是史密斯本人跑出来整了个活儿，真人拍摄，" 伪造 " 了一个新版本。你别说，还真差点给人骗过去——真人都能拍视频假装是 AI 生成的了，倒也足见 Sora 视频的高质量。

横向对比，同行就有点尴尬了。OpenAI 把每一个 Sora 演示视频的文本指令都公布了，虽然人们不能直接用 Sora，但是可以拿着指令去市面上已有的产品里试，看看有什么差别。

不试不要紧，一试吓一跳：看到 Sora 视频的时候就觉得厉害，看了同行的表现更对 Sora 的威力有了新的认知。

同样是女人在东京街头漫步的指令，Runway 生成的视频暂停看还都像那么回事，连起来就只能用 " 千变万化 " 形容，女人的形象并不能随着时间的推移保持稳定。要知道 Sora 的演示视频中还有机位的变化，从远景到脸部特写，女人的形态始终如一。Runway 生成的视频更像是很多张图片的动态融合。

StabilityAI ——就是那个开源了文生图 Stable Diffusion 的公司——的 Stable Video 生成的画面清晰度和美观度都很不错，但是女人的脸变形严重，看起来很像一个骷髅头，诡异感拉满。

Pika 则有些取巧，其画面相对流畅，但比较模糊，且并非写实风格。

此外，打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比，Sora 并非和同行打得有来有回，而是碾压了同行。

一朝之间，文生视频当红 " 炸子鸡 " 发现自己站在了 OpenAI 投下的阴影中。

从文本到视频的 AI 工具并不是新鲜事物。在 2023 年，多个文本到视频 AI 工具问世，Runway、PikaLabs（下称 Pika）、StabilityAI 等初创公司在这个赛道都备受瞩目，热钱不断，估值暴涨。

其中 Runway 成立于 2018 年，3 月开放 Gen-2 内测，6 月正式对外发布。此前有 Gen-1 影像到视频 AI 工具。Runway 同时还技术支持了多部电影。其中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。

Runway 的 CEO 兼联合创始人克里斯托瓦尔 · 巴仑苏埃拉（Crist ó bal Valenzuela）说：" 我们已经看到了影像生成模型的爆发。我相信，2023 年将会是视频之年。"

在 5 月时，Runway 已经完成了 1.41 亿美元的 D 轮融资，投资方包括谷歌、英伟达等，估值暴涨三倍，达到 15 亿美元，

Pika 去年 4 月刚刚成立，A 轮融资达 5500 万美元，估值登时超过 2 亿美元，11 月就发布了第一个文本到视频产品 Pika1.0。到了 12 月时，其用户已有超过 50 万，每周生成近百万视频内容。

而 StabilityAI 则因其文本到影像工具 Stable Diffusion 名声在外，早在 2022 年获得 1 亿美元融资后，估值就已经超过了 10 亿美元，成为独角兽企业。去年 11 月，Stable Video Diffusion 发布，注意后面还有一个 "Diffusion" 后缀，这是一个基于 Stable Diffusion 的生成式视频基础模型，需要用户自己部署使用，还不算面向大众发布的产品。

StabilityAI 官网

三家初创公司，2023 年三个重要生成式视频产品 / 模型，突然就被 Sora 会心一击。

在 OpenAI 兴冲冲向世界展示 Sora 之后，Runway 的 CEO 巴仑苏埃拉在社交平台 X 上发帖：" 游戏开始（Game On）。" 而 StabilityAI 的 CEO 兼创始人莫斯塔克（Emad Mostaque）则将奥特曼称作 " 巫师大人 "。

从演示视频来看，Sora 的确有改变游戏格局的威力，跟不上 Sora 的同行有难了。

参照 ChatGPT 发布之后，虽然 AI 浪潮让投资人热情高涨，AI 初创公司如雨后春笋般冒出来，新晋独角兽一个接着一个。但这是一个冰火两重天的故事，不少 AI 创业公司走上下坡路，或寻求收购，或大幅裁员，甚至就此寿终正寝。据智东西梳理，仅 2023 年 11 月到 2024 年 1 月，全球就有 AI 新闻初创企业 Artifact、AI 医疗公司 Olive 等 4 家 AI 初创企业宣布关停。

The Infoemation 称，至少有 7 家开发生成式视频的 AI 公司，共筹集了至少 5.5 亿美元的资金。有投资人私下对 The Information 表示，之前刚刚错过某热门 AI 视频初创企业的融资，看到 Sora 的视频后 " 感到庆幸 "。

人工智能赛道热度高，但门槛也高，厮杀之中刀光剑影，掉队就可能掉入坟墓。

知名 AI 初创企业 Huggine Face 在一篇博文中，提到了文本到视频的三大挑战：算力挑战，确保跨帧空间与实践的一致性伴随着高计算成本，使得大多数研究人员无法负担这类模型的训练费用；缺乏高质量数据集，用于文本到视频生成的多模态数据集非常稀少，而且经常缺乏注释；指令模糊性，如何以一种让模型更容易学习的方式描述视频不是一件容易的事。

即便是看似站稳了脚跟的 StabilityAI 都麻烦不断。去年 6 月，福布斯发布一则长新闻，超过 30 位 StabilityAI 前员工和投资人细数创始人兼 CEO 莫斯塔克的 9 大罪证，包括：窃取 StableDiffusion 成果融资 10 亿；隐瞒融资困难；夸大公司收入；拖欠员工工资；学历和工作经历造假。

抛开其他不谈，硅谷 " 当红炸子鸡 " 却又融资困难、公司收入被夸大的问题，着实令人意外。知情人士称，StabilityAI 每个月的开销大概是 800 万美元，而莫斯塔克却曾自爆公司 8 月的营收大概在 120 万美元，有机会超过 300 万美元。莫斯塔克很快就删除了该帖，但从这个数字不难闻到烧钱的味道。

11 月，也就是其发布 Stable Video Diffusion 模型的同月、公司完成 1 亿美元融资的一年后，StabilitAI 传出多位高级管理人员辞职、公司财务状况脆弱的消息，并一度传闻考虑出售，这一消息随后被莫斯塔克否认。

入不敷出、人才流失，StabilityAI 的危机暴露了光鲜的热门创企的软肋。

巨头的加入也会让战事更加激烈。在 AI 视频的赛道，巨头早有布局。2022 年 10 月，Meta 和谷歌相继发力。Meta 先发布了 Make-A-Video 模型，仅一周后，谷歌 CEO 桑德尔 · 皮查伊（Sundar Pichai）亲自安利他们在这一领網域的两个最新成果，Imagen Video 和 Phenaki，分别强调视频品质和长度。

但不管是 Meta 还是谷歌，目前都尚未向公众开放其文本到视频 AI 工具。谷歌官方认为用于训练 AI 视频模型的数据仍包含有问题的内容，可能会导致 Imagen Video 产生图形暴力或色情剪辑，造成不良影响。巨头的保守操作大家也都熟悉了，在自然语言聊天机器人的赛道，谷歌也是早早就手握模型但未向 C 端推出产品，原因也是安全问题。但 ChatGPT 与微软的联手让巨头走出保守，Sora 未尝不能做同样的事。

已经有巨头有新动作。在 Sora 公布的一周前，字节宣布人事变动，原抖音集团 CEO 张楠宣布辞去集团 CEO 一职，未来把精力聚焦在剪映的发展上。据时代周报援引接近剪映的人士，张楠亲自带队寻求在 AI 辅助创作上突破，并即将推出一个 AI 生成视频的产品。

面对新开的 " 游戏 "，Sora 的同行只能全力向前。

就在 Sora 公布的几天之后，2 月 22 日，StabilityAI 正式开放了 Stable Video 的公测，从模型走向人人可以方便上手的产品。虽然视频长度还是比较短，只有 7 秒，但视频质量比较高。莫斯塔克在社交平台上宣传新产品时显得很谦虚，表示开放的原因是：" 我们想要创造类似 Sora 的大型开放的 Stable Video2，但需要更多的数据和计算。"