今天小编分享的科技经验:争造AI时代剪映:国产Sora的生态暗战与商业黎明,欢迎阅读。
文 | 正见 TrueView,作者 | 刘萍,编辑 | 一白
当 DeepSeek 用 1/10 算力实现 GPT-4 级别性能时,这个信号值得所有文生视频从业者深思:中国 AI 创新不应趋于技术复刻,而是要构建原创技术范式。真正的破局点或在于 " 场景定义技术 " 的创新路径。当技术研发深度融入产业需求时,中国公司完全可能开辟出超越 Sora 范式的新赛道。正如大模型领網域涌现的 MoE 架构创新,文生视频的下一轮突破,或诞生于技术与产业需求的化学反应之中。
今年春节,DeepSeek 火遍全球。上一次大模型引发如此震动,还是 OpenAI 发布 Sora 时。
2024 年 2 月 15 日,OpenAI 的文生视频模型 Sora 横空出世,凭借其逼真的效果、复杂的镜头转换、以及最长可达 1 分钟的视频生成时长,瞬间在全球引发热潮。这一突破也引得国内厂商紧急入场,快手可灵、字节即梦、阿里通义万相、腾讯混元等文生视频模型接踵而至,背后亟待开掘的是如剪映般超 8 亿月活和近百亿营收的商业空间。
然而卷了一年后,厂商们依旧是互联网时代 " 小步快跑,试错迭代 " 的产品思维。近期快手可灵发布 1.6 版本,语义理解、文本响应度等功能有所提升,收费规则没变;时隔一月,阿里云发布通义万相 2.1,在大幅度复杂运动、物理规律遵循、艺术表现等层面全面提升,首创生成汉字视频……
DeepSeek 只用少量 GPU 和低廉的部署成本实现媲美 OpenAI 效果的解题思路,或许能为文生视频厂商提供解决困局和改变竞争维度的样本参考。
如果说 2024 年,文生视频厂商完成了从 0 到 1 的初步探索,在 AIGC 技术日新月异的发展节奏与大厂激烈竞逐的浪潮中,2025 年将背负的是从 1 到 10 乃至 100 的期待。谁将成为引领新一轮文生视频风潮的先锋?谁又将出现在自家大厂失败产品的盘点名单之上?
技术路线共识下的创新困境,追赶者难破时长魔咒
当 OpenAI 在 2024 年 2 月 15 日向世界展示 Sora 时,这个能生成 60 秒高质量视频的 AI 模型不仅重新定义了文生视频的行业标准,更在无意间为中国 AI 赛道划定了技术追赶的坐标系。
传统 U-Net 架构需要完整影像的前后向传播,而 Sora 基于 Transformer 的 patch 训练机制可将计算成本降低 40% 以上。这种效率提升让国内厂商在算力受限的环境下看到了希望——正如 DeepSeek 用 1/3 的 GPU 资源实现 GPT-4 水平的语言模型,文生视频领網域似乎也存在类似的 " 捷径 "。
从快手可灵到阿里通义万相,从字节即梦到腾讯混元,国内厂商集体开启了一场名为 " 复刻 Sora" 的技术军备竞赛。
可是,虽然国内厂商已掌握 Sora 的技术核心 DiT 架构(Diffusion+Transformer)的基础原理,但这并不意味着他们能顺利复制出国产 Sora,关键差距在于技术体系的完整性。毕竟技术路线以外,Sora 未披露的技术细节,诸如参数规模、算法设计等关键技术环节仍存在代际差距。
相比难以突破的算力、算法和数据三大核心难关,国内各厂商的主要比拼指标围绕时长、视频的分辨率等展开。
而这场始于技术路线模仿的追逐战,也在经历近一年的发展后,逐渐显露出更深层的创新困境。清华系 AI 公司瑞莱智慧 RealAI、蚂蚁集团和百度联合孵化的生数科技,去年 4 月底就携文生视频模型 Vidu 亮相,号称能生成最长为 16 秒的视频,但 7 月末正式上线时,视频时长却仅有 4 秒和 8 秒两种选择。
智谱 AI 在去年 7 月发布了文生视频清影(Ying),底层技术也沿用了 DiT 架构,可生成的视频最长仅有 6 秒,11 月增加至 10 秒。从清华系 RealAI 的 16 秒承诺缩水至实际 8 秒输出,到智谱 AI 清影模型从 6 秒艰难爬升至 10 秒,国产模型始终困在 " 秒级 " 竞技场。
即便头部玩家快手可灵通过 " 续写 " 功能实现 3 分钟拼接视频,其单次生成仍停留在 10 秒门槛。这种困境在 Sora Turbo 正式版发布后更显讽刺—— OpenAI 主动将时长压缩至 20 秒,暗示首秀的 1 分钟视频实为精心剪辑之作。
在生成式 AI 领網域,技术路线的透明度与实现能力之间存在巨大鸿沟,也揭示了一个残酷现实:单纯的技术路线模仿难以突破物理模拟、时空连续性等核心难题。就像当年国产芯片遭遇的 " 制程追赶悖论 ",文生视频领網域同样面临 " 参数堆砌效率递减 " 的困局。
而当整个行业陷入同质化竞争的泥潭时,所谓技术突破往往沦为参数调优的数字游戏。
数据荒与技术伦理,构建生态壁垒的双重挑战
如果说技术路线是看得见的战场,那么数据争夺就是水面下的暗战。2024 年 9 月爱奇艺起诉 MiniMax 的版权纠纷,揭开了大模型训练的暗箱—— " 数据荒 "。
算法、算力和数据是支撑 AI 文生视频模型运行的核心三要素,也是决定技术突破的基础。
数据是模型训练的原材料,训练数据越多,模型越强大。没有稳定的数据来源,大模型的训练无从谈起。经过 " 百模大战 ",高质量数据已变得越发昂贵且稀缺。
强如 OpenAI 也难逃 " 数据荒 " 的困境。
2023 年,OpenAI 因擅自使用媒体数据,惹恼了欧美主流媒体,最终拿钱消灾,与 Politico、《时代》、《金融时报》等签订了付费協定。同年 5 月,OpenAI 首席执行官奥特曼公开承认,AI 公司在不久的将来会耗尽互联网上所有的数据。
去年 8 月,OpenAI 被超过 100 位 YouTube 主播集体诉讼,指控其擅自转录数百万个 YouTube 视频来训练大模型。OpenAI 的前任 CEO Mira 在采访中被问及是否拿 YouTube 的视频训练 Sora,Mira 拒绝了回答。
当互联网公开数据即将耗尽,拥有私有数据池的平台便拥有了护城河。相信这也是快手、字节、阿里、腾讯等拥有长短视频平台产品的厂商,争相入局的原因之一。
快手、抖音这样的短视频平台,天然拥有数据资源禀赋,多年来积攒了巨量、丰富的视频数据;阿里旗下的优酷,为国内三大视频平台之一,坐拥高质量的视频资源。
谷歌的文生视频模型 Veo2 被认为比 Sora 还强大,暂且不分析复杂的技术问题,光是谷歌涌有 YouTube,就比 OpenAI 少了许多数据来源烦恼。
当技术水平尚处于统一竞争维度,都未能打破算力、算法和数据禁锢,文生视频赛道的竞争也开始演变为平台级生态系统的对抗。
商业化前哨战,从流量狂欢到价值沉淀的路径探索
枪战片版《甄嬛传》,武打剧类《红楼梦》,大熊猫做家务……在快手、抖音、小红书等社交平台,这些 " 魔改 "、创意十足的小视频播放量屡创新高。
虽然创作者已经率先分得流量甜头,但与通用语言大模型的商业化历程类似,留给文生视频的发育时间注定不会太久。
2025 年,文生视频势必要经历从技术崇拜到商业理性的范式转换。
参考行业基准线 Sora Turbo 的订阅制收费模式,每月 20 美元可生成 50 个视频。具体而言,月收费 20 美元的 ChatGPT Plus 用户可直接使用 Sora,但每月最多生成 50 个 480p 视频或更少的 720p 视频,时长为 5 秒。月收费 200 美元的 ChatGPT Pro 用户,能享受更多的视频生成数量和更高的分辨率,时长达 20 秒。
而中国厂商正在积极探索更具本土特色的变现路径。快手提供免费额度,并設定了收费梯度,月费分为 66 元、266 元和 666 元三档。用户每次登录能免费获得一定数量的灵感值,消耗完需要开通会员获取灵感值,才能继续生成视频。
或许是出于促进内容生态繁荣的需求,2024 年 10 月 18 日,快手可灵启动了首期 " 未来合伙人计划 ",推出一站式 AIGC 生态合作平台,帮助创作者降低创作门槛。但这种 2C 模式面临双重挑战:个人用户付费意愿天花板明显,而专业创作者受制于平台流量管控策略。
因 AI 视频容易引发版权纠纷,且若平台充斥太多 AI 视频,会引起用户反感,进而影响社区生态。为此厂商们也在积极探索更多变现路径以求破局。
抖音和博纳合作了 AI 科幻短剧《三星堆:未来启示录》;快手联合贾樟柯、李少红等 9 位知名导演,依托可灵制作出品 9 部 AIGC 电影短片。但具体收益如何还有待考证。
除影视合作外,电商也是 B 端商业化的重要试验田。如阿里面向平台商家开放专属图生视频,推动营销落地;可灵将部分内测名额给了遥望科技等 MCN 机构,以加速技术的应用与推广。
这些探索揭示出新的价值逻辑——当技术竞赛陷入僵局,场景化落地能力加速赛程推进。
行业终局思考,走出 OpenAI 的范式 " 阴影 "
DeepSeek 用 MoE 架构突破算力瓶颈,文生视频领網域同样需要架构级的变革。
多模态大模型与神经渲染的结合,量子计算对扩散模型的加速,甚至是腦科学启发的认知架构,这些前沿探索虽然风险巨大,却是打破同质化竞争的唯一出路。
当技术突破、数据生态与商业落地形成正向循环,中国 AI 企业才能真正构建起自己的护城河。
在这场虚实交织的竞赛中,最后的赢家不会是某个技术参数的保持者,而是那些能重新定义视频生成与物理世界关系的规则制定者。
正如智能手机革命不仅是通信工具的更新,文生视频的终极价值,在于创造人类认知与数字世界互動的新范式。这条路注定漫长,但正是这种超越短期功利的坚持,才能孕育出真正改变世界的创新力量。