國產Sora誕生 - 大酷樂

今天小編分享的财經經驗：國產Sora誕生，歡迎閲讀。

作者丨白楊

編輯丨駱一帆

圖源丨 AI

4 月 27 日，在 2024 中關村論壇年會未來人工智能先鋒論壇上，清華大學聯合北京生數科技有限公司正式發布了文生視頻大模型—— Vidu。

在會議上，清華大學人工智能研究院副院長、生數科技首席科學家朱軍對外展示了多段由 Vidu 生成的視頻，單段視頻最長可達 16 秒，并且在整個視頻呈現上，Vidu 已經不輸 Sora。

年初，OpenAI 發布的 Sora 驚豔了世界，也讓外界對大模型的關注焦點從單模态轉向多模态。而 Vidu 的發布，則是國内首個具備 " 長時長、高一致性、高動态性 " 等特點的視頻大模型。

國產 Sora

據朱軍介紹，目前國内已有視頻大模型的生成視頻大多在 4 秒左右，而 Vidu 可以一次性生成 16 秒的視頻。除了在時長上的突破以外，Vidu 在視頻效果方面也得到顯著提升。

比如 Vidu 能夠生成復雜的動态鏡頭，不再局限于簡單的推、拉、移等固定鏡頭，而是能夠在一段畫面裏實現遠景、近景、中景、特寫等不同鏡頭的切換，包括直接生成長鏡頭、追焦、轉場等效果。

另外，Vidu 既能夠模拟真實物理世界，也能夠生成真實世界不存在的虛構畫面。其中對于真實世界，Vidu 能生成細節復雜且符合真實物理規律的場景，例如合理的光影效果、細膩的人物表情等。

同時，作為國產大模型，Vidu 更理解中國元素，能夠生成熊貓、龍等特有的中國元素。

朱軍表示，Vidu 與 Sora 一樣，采用的都是 " 一步到位 " 的生成方式，即視頻片段從頭到尾是連續生成的，在底層算法上則是基于單一模型完全端到端生成，不涉及中間的插幀和其他多步驟的處理。

早于 DiT 架構提出 U-ViT

據朱軍介紹，Vidu 的快速突破源自于團隊在貝葉斯機器學習和多模态大模型的長期積累和多項原創性成果。其核心技術 U-ViT 架構由團隊于 2022 年 9 月提出，早于 Sora 采用的 DiT 架構，是全球首個 Diffusion 與 Transformer 融合的架構。

需要指出的是，外界熟悉的 Sora、Stable Diffusion 3 等模型，采用的都是 Diffusion Transformer 架構 DiT。而所謂 Diffusion Transformer 是在 Diffusion Model（擴散模型）中，用 Transformer 替換常用的 U-Net，将 Transformer 的可擴展性與 Diffusion 模型處理視覺數據的天然優勢進行融合。

DiT 架構由伯克利團隊于 2022 年 12 月發表。而生數科技在其之前提出的基于 Transformer 的網絡架構 U-ViT，兩項工作在架構思路與實驗路徑上完全一致，均是将 Transformer 與擴散模型融合。

2023 年 3 月，Vidu 團隊開源了全球首個基于 U-ViT 融合架構的多模态擴散模型 UniDiffuser，并率先完成了 U-ViT 架構的大規模可擴展性驗證。

正是有了這些長期的技術積累，Vidu 團隊才能夠在 Sora 發布僅兩個月後，就快速推出了自研視頻大模型。

朱軍表示，從圖文任務的統一到融合視頻能力，作為通用視覺模型，Vidu 能夠支持生成更加多樣化、更長時長的視頻内容，同時面向未來，靈活架構也将能夠兼容更廣泛的模态，進一步拓展多模态通用能力的邊界。

生數科技是誰？

作為 Vidu 的研發方之一，外界對于生數科技可能相對陌生。

生數科技成立于 2023 年 3 月，核心團隊來自清華大學人工智能研究院，此外還包括來自北京大學和阿裏巴巴、騰訊、字節跳動等科技公司的多位技術人才。

去年，生數科技完成多筆融資，投資方包括螞蟻集團、錦秋基金等。今年 3 月，生數科技完成新一輪數億元融資，由啓明創投領投，達泰資本、鴻福厚德、智譜 AI、老股東 BV 百度風投和卓源亞洲跟投。

目前，生數科技團隊于 ICML、NeurIPS、ICLR 等人工智能頂會發表相關論文近 30 篇。在擴散模型方面，該團隊的成果已涉及骨幹網絡、高速推理算法、大規模訓練等全棧技術方向。

另外雖然成立時間不長，但生數科技已經開始推進大模型的商業化落地。一方面是以 API 的形式向 B 端機構直接提供模型能力，另一方面打造垂類應用產品，按照訂閲等形式收費。

截至目前，生數科技已與多家遊戲公司、個人終端廠商、互聯網平台等 B 端機構開展合作，同時，生數科技也于去年上線兩款工具產品，分别是視覺創意設計平台 PixWeaver 金額 3D 資產創建工具 VoxCraft。

SFC