国内大厂集体“屏蔽”Sora

今天小编分享的互联网经验：国内大厂集体“屏蔽”Sora，欢迎阅读。

图片来源 @视觉中国

文 | 偲睿洞察，作者 | Renee

在 AI 的长河里，从不缺一鸣惊人、一夜成名的技术。上图，便是从 Sora 的示范视频上截取的，无论是略显蓬松的猫毛，还是主人被吵醒紧蹙的眉毛，与真实世界里的画面，别无两样。

半个月前，Open AI 发布了首个文生视频模型 Sora，再次让 AI 界沸腾——其是第一个能够根据人类指令生成长达一分钟视频的模型，上一个讨论度这么高的产品，还是 ChatGPT。

从 ChatGPT 到 Sora，这 16 个月里，AI 界的战火已从千模大战的战场上，蔓延到各个细分应用之中。

对于普通人来说，就是原先你可以问诸如文心一言、讯飞星火等通用大模型各种问题，生成各种文字、图片答案，现在可以通过文字描述，生成还原度极高的视频。以下便是 OpenAI 的示范视频，提示词是一架无人机在阿马尔菲海岸的岩石露头上环绕着一座美丽而历史悠久的教堂 ······

更令人惊讶的是，以往的视频模型是多个真实图片的组合，并不具备理解力，而 Sora 是 " 听懂 " 人话后，进行视频的建构。

我们能看到，在 OpenAI Sora 官方介绍页里，纸飞机有了自我意识，自由翱翔。这或许就是 OpenAI 终极的目标，也将是无数 AI 大厂的愿景。

现下，Sora 已然敲响战鼓，百度、字节等以 AI 为标签的大厂们是否会紧跟脚步，以及能不能造出类似模型，是摆在李彦宏、张一鸣们面前的问题。但目前大厂们都在静默之中，等待着属于自己的质变。

当然，一旦造出来，类 Sora 模型变现路径倒是要比 ChatGPT" 现实 " 不少。

其可以是抖音、好看视频等视频平台的高效创作工具，也可以制作简单的特效，给近日爆火的微短剧提供更多题材。更进一步的猜测是，影视作品中大部分特效成本、人力成本都可以省去。

不过，对于国内以大模型创业的企业来说，又增加了一道坎——还没把 ChatGPT 消化掉，又来了个新课题。跟，没有更多的精力，不跟，没有热度有可能凉得更快。

Sora 到底牛在哪里？

一系列文章、视频展现效果显示，Sora 的出世意味着细分应用文生视频模型迎来了 iPhone 时刻。

事实上，文生视频并不是新鲜事儿，去年年底，全球 AI 企业陆陆续续发布了自己的文生视频模型。去年 11 月份，Meta 发布了视频生成模型 Emu Video。从官方示例中可以看出，其局限于较为简单的动作。

紧接着，Stability.ai 也发布了开源视频生成模型 Stable Video Diffusion ( SVD ) ，并且也在官方论文中大方承认自己的不足——生成的视频相对缺少动态性。

也就是说，生成有高度一致性且有丰富动态性的视频，让视频内容真正地动起来，是去年年底视频生成领網域中的最大挑战。

在 Sora 发布以前表现最好的，莫过于 PixelDance。从展示的结果来看，在基础模式下（用户只需要提供一张指导图片 + 文本描述），人物动作、脸部表情、相机视角控制、特效动作，Pixeldance 都可以很好地完成。

国内大厂也同样是去年年底开始布局。

字节跳动于去年 11 月 18 日推出了文生视频模型 PixelDance，可生成有高度一致性且有丰富动态性的视频。阿里紧随其后也上线了 Animate Anyone 模型，一张人物照片，再配合骨骼动画引导，就能生成动画视频。

23 年末，百度发布了文生视频工具 " 度加剪辑 "，据称可以一键获取最新热点、ai 生成文案、一键生成视频。同时一大批 " 应 ChatGPT 而生 " 的 AI 创业公司也在去年年底参与进来，共同探索 AI 大模型应用。

而时间来到 2024 年 2 月中旬，OpenAI 的 Sora 还是凭借更逼真、流畅的效果，遥遥领先。

为何 Sora 可以一骑绝尘？红衣大叔周鸿祎给出了答案，大概的意思是，在这之前我们做视频、做图用的都是 Diffusion，我们可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。

但 Sora 能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克的情况。OpenAl 利用它的大语言模型优势，把 LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力。

自 Transformer 架构引领通用大模型浪潮后，LLM+Diffusion 这一新兴研究框架或许又会有大批量的追随者。

开源后跟不跟，不开源搞不搞，成为每个 AI 厂商面前的难题。

谁都能玩得起吗？

事实上，要不要跟随 Sora 这个问题，或许并不再取决于个人 / 公司意愿，而是一些硬性条件 + 软实力。例如，公司还有足够的芯片吗？

去年，据偲睿洞察测算，ChatGPT 光是访问阶段就要耗去 3 万多个 A100，这俨然已是巨头们的游戏。按照去年一份流传出的交流纪要显示，大厂们手握着丰厚的资源——阿里云 AI 专家提到，阿里云在云上有上万片的 A100，整体能够达到 10 万片，集团体量应该是阿里云的 5 倍。腾讯云利用 H800 加速卡打造的大模型算力集群，集群规模达到了数千台伺服器。

尽管 Sora 只是一个视频模型，但对算力的渴求也不小。目前，训练端由于暂无明确算法架构和训练详细数据。据民生证券测算，一个月内训练完 Youtube 全部新增视频需要约 231 片 A100。考虑到模型都是经过多次训练得到，算力需求仍有较大程度提高的可能性。而推理端的需求量更是惊人，假设 Sora 模型参数为 30 亿，则对应1846 万个 A100 需求。

紧接着，第二个致命的问题是，公司有高质量的数据集吗？现阶段，谷歌、OpenAI 等国际大厂们，都在争抢高质量的文本数据集。

根据第一批大模型弄潮儿的经验，若是没有备足充足的弹药，很有可能会草草离场。

据智东西不完全统计，2023 年 11 月 -2024 年 1 月，有 4 家 AI 大模型创企宣布关停。在这之中，其中有大厂独立出来的团队，有明星产品创始人新成立的公司，也有已经走过十余年的 " 老牌 " 企业。有的缺钱、有的缺精准定位，想要玩 AI，空有一腔热血远远不够。

事实上，更致命的问题是，公司有 AI 天才吗？

周鸿祎表示，科技竞争最终比拼的是人才密度和深厚积累。这里的人才密度，绝不是说规模——毕竟 OpenAI 的 Sora 团队只有 13 个人，应届博士带队，00 后参与。

我们不得不佩服 OpenAI 的勇气，将 " 选贤举能 " 发挥得淋漓尽致，除了未知的潜能，年轻人还有一个最大的优势——能熬。据谢赛宁透露，Sora 是 Bill 他们在 OpenAI 的呕心沥血之作，" 虽然不知道细节，但他们每天基本不睡觉高强度工作了一年 "。

从以上部分团队成员背景可以看出，其门槛极高——大部分都是名校博士毕业 + 实习 / 工作经验，有本科学生，不过也要有着创业经历、多段工作经历。无论是 OpenAI 公司，还是人才本人，都积累了无数个量变，为质变做准备。

或许，包括 OpenAI 在内的 AI 公司们，都在等哪个 " 无名小卒 "（要么是 MIT、清北级别的学生，要么 3-5 年创业、大厂经历，要么是二者的结合）悟得了 AI 的真理，一战成名，成为 AI 大神。

ChatGPT 和 Sora 告诉我们的是，A100、高质量数据、AI 天才，是新时代的稀缺物资，国内大厂尚有欠缺，从零开始的大模型创业公司们怕是跟不上热度，也跟不上速度。

微短剧，或许是现下大厂高性价比变现方式

在 AI 各类资源都很有限的情况下，All in AI 的大厂们在跟随之前，必然会考虑投资回报比，也就是 Sora 能够极大地改变哪些行业的模式？同时还和大厂已有业务密切相关？

答案，非短视频行业莫属。

对于定位于热点话题视频的创作者们，Sora 可谓是极大地提高了工作效率。毕竟热点话题比拼的是时效，大家很难有二创的空间，只要学会了，便能快速拉开差距。目前在国内，已经有电商服务机构向带货主播推出 "AI 根据热梗自动撰写视频脚本 " 的服务。

而对于一些深度话题，创作者们则可以与 AI 分工合作。

创作者产出事件 / 产品的差异化内容、确认文章大纲；而 AI 负责重复劳动的部分，例如展现产品的特性，给文字自动加背景视频，无需创作者去各大网站搜罗。也就是说，创作者们能够靠着 AI 省去不少事，出现更多的 " 灵光一现 "，吸引更多的用户停留。

在这之中，最大的受益人便是平台。于是，我们也就不难理解为何 2 月 7 日，抖音集团 CEO 张楠辞去集团 CEO 一职，把精力聚焦在剪映的发展上。据了解过去一年，张楠已经把绝大多数精力倾斜到剪映相关业务上，并亲自带队在 AI 辅助创作上寻求突破，即将推出一个 AI 生图和视频的产品。

视频平台快手必然会在这个方向努力：在去年的那一波卷大模型的浪潮中，快手宣布已组建大模型研发团队，推进在搜索、AIGC 辅助生成图文视频方面的应用。

百度，也正在跟上节奏。尽管好看视频在百度的存在感并不高，但每年都在实打实地推进该业务： 2020 年下半年开始，百度开始一系列大手笔运作。百度先后投资 MCN 机构牧云文化、引入宋健（内容生态平台总经理，年前已离职），以及在 11 月 17 日宣布斥资 36 亿美元并购 YY 中国。

2024 年微短剧爆火，百度也在不断加码该市场。据光子星球报道，百度将在上半年完成与微短剧适配的基础设施建设，包括创作者生态、分发逻辑、用户运营等，并尝试跑通变现路径。

微短剧，或许是百度等类 Sora 视频模型的 " 用武之地 "。

相比于大型的影视大作，微短剧的特效制作、内容创作各方面门槛都较低，与此同时，类 Sora 模型能给近日爆火的微短剧提供更多题材范围，例如科幻等。若是人物细节逼真，演员的片酬都可能为零，如果分摊成本极低的话，视频内容行业将很快被洗牌。

百度们亟需推出中国 Sora，除了因为新业务的需要，还需考虑到站位的问题。作为上一个千模大战的发起者，百度再次迎来证明自己的时刻。

2024 年的春天，来得很晚，无论是真实的天气，还是 AI 行业。

去年冬天，研究部门能拿着以往 AI 积累，赶上大模型的浪潮，市场部门也能借此开大会、与友商们一起打响千模大战。

今年冬天，研究员们还在加班加点想着怎么把通用大模型落实到千行万业时，文生视频这一细分领網域又出现一个劲敌。

永远在黑暗中前行，永远有人走得更快，国内 AI 大厂们的黎明，忽近忽远。

不过，离黎明更近的 Sora，也需加强常识学习——在完整看完头图的原视频之后发现，女孩的胳膊与手并不在同一个维度。