国产Sora诞生 - 大酷樂

今天小编分享的财经经验：国产Sora诞生，欢迎阅读。

作者丨白杨

编辑丨骆一帆

图源丨 AI

4 月 27 日，在 2024 中关村论坛年会未来人工智能先锋论坛上，清华大学联合北京生数科技有限公司正式发布了文生视频大模型—— Vidu。

在会议上，清华大学人工智能研究院副院长、生数科技首席科学家朱军对外展示了多段由 Vidu 生成的视频，单段视频最长可达 16 秒，并且在整个视频呈现上，Vidu 已经不输 Sora。

年初，OpenAI 发布的 Sora 惊艳了世界，也让外界对大模型的关注焦点从单模态转向多模态。而 Vidu 的发布，则是国内首个具备 " 长时长、高一致性、高动态性 " 等特点的视频大模型。

国产 Sora

据朱军介绍，目前国内已有视频大模型的生成视频大多在 4 秒左右，而 Vidu 可以一次性生成 16 秒的视频。除了在时长上的突破以外，Vidu 在视频效果方面也得到显著提升。

比如 Vidu 能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够在一段画面里实现远景、近景、中景、特写等不同镜头的切换，包括直接生成长镜头、追焦、转场等效果。

另外，Vidu 既能够模拟真实物理世界，也能够生成真实世界不存在的虚构画面。其中对于真实世界，Vidu 能生成细节复杂且符合真实物理规律的场景，例如合理的光影效果、细腻的人物表情等。

同时，作为国产大模型，Vidu 更理解中国元素，能够生成熊猫、龙等特有的中国元素。

朱军表示，Vidu 与 Sora 一样，采用的都是 " 一步到位 " 的生成方式，即视频片段从头到尾是连续生成的，在底层算法上则是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

早于 DiT 架构提出 U-ViT

据朱军介绍，Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术 U-ViT 架构由团队于 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 与 Transformer 融合的架构。

需要指出的是，外界熟悉的 Sora、Stable Diffusion 3 等模型，采用的都是 Diffusion Transformer 架构 DiT。而所谓 Diffusion Transformer 是在 Diffusion Model（扩散模型）中，用 Transformer 替换常用的 U-Net，将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合。

DiT 架构由伯克利团队于 2022 年 12 月发表。而生数科技在其之前提出的基于 Transformer 的网络架构 U-ViT，两项工作在架构思路与实验路径上完全一致，均是将 Transformer 与扩散模型融合。

2023 年 3 月，Vidu 团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser，并率先完成了 U-ViT 架构的大规模可扩展性验证。

正是有了这些长期的技术积累，Vidu 团队才能够在 Sora 发布仅两个月后，就快速推出了自研视频大模型。

朱军表示，从图文任务的统一到融合视频能力，作为通用视觉模型，Vidu 能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构也将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

生数科技是谁？

作为 Vidu 的研发方之一，外界对于生数科技可能相对陌生。

生数科技成立于 2023 年 3 月，核心团队来自清华大学人工智能研究院，此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。

去年，生数科技完成多笔融资，投资方包括蚂蚁集团、锦秋基金等。今年 3 月，生数科技完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱 AI、老股东 BV 百度风投和卓源亚洲跟投。

目前，生数科技团队于 ICML、NeurIPS、ICLR 等人工智能顶会发表相关论文近 30 篇。在扩散模型方面，该团队的成果已涉及骨干网络、高速推理算法、大规模训练等全栈技术方向。

另外虽然成立时间不长，但生数科技已经开始推进大模型的商业化落地。一方面是以 API 的形式向 B 端机构直接提供模型能力，另一方面打造垂类应用产品，按照订阅等形式收费。

截至目前，生数科技已与多家游戏公司、个人终端厂商、互联网平台等 B 端机构开展合作，同时，生数科技也于去年上线两款工具产品，分别是视觉创意设计平台 PixWeaver 金额 3D 资产创建工具 VoxCraft。

SFC