今天小編分享的科學經驗:北大發起復現Sora,框架已搭!袁粒田永鴻領銜,AnimateDiff大神響應,歡迎閲讀。
重磅:
北大團隊發起了一項 Sora 復現計劃——Open Sora。
框架、實現細節已出:
初始團隊一共 13 人:
帶隊的是北大信息工程學院助理教授、博導袁粒和北大計算機學院教授、博導田永鴻等人。
為什麼發起這項計劃?
因為資源有限,團隊希望集結開源社區的力量,盡可能完成復現。
消息一出,就有人北大校友兼 AnimateDiff 貢獻者等人即刻響應:
還有人表示可以提供高質量數據集:
所以," 國產版 Sora" 的新挑戰者,就這麼來了?
計劃細節,已完成 3 個初步功能
首先,來看目前公布的技術細節——即團隊打算如何復現 Sora。
整體框架上,它将由三部分組成:
Video VQ-VAE
Denoising Diffusion Transformer(去噪擴散型 Transformer)
Condition Encoder(條件編碼器)
這和 Sora 技術報告的内容基本差不多。
對于 Sora 視頻的可變長寬比,團隊通過參考上海 AI Lab 剛剛提出的 FiT(Flexible Vision Transformer for Diffusion Model,即 " 更新版 DiT")實施一種動态掩碼策略,從而在并行批量訓練的同時保持靈活的長寬比。
具體來説 , 我們将高分辨率視頻在保持長寬比的同時下采樣至最長邊為 256 像素 , 然後在右側和底部用零填充至一致的 256x256 分辨率。這樣便于 videovae 以批量編碼視頻 , 以及便于擴散模型使用注意力掩碼對批量潛變量進行去噪。
對于可變分辨率,團隊則表示在推理過程中,盡管在固定的 256x256 分辨率上進行訓練 ,,但使用位置插值來實現可變分辨率采樣。
具體而言:
我們将可變分辨率噪聲潛變量的位置索引從 [ 0, seq_length-1 ] 下調到 [ 0, 255 ] ,以使其與預訓練範圍對齊。這種調整使得基于注意力的擴散模型能夠處理更高分辨率的序列。對于可變時長,則使用 VideoGPT 中的 Video VQ-VAE,,将視頻壓縮至潛在空間,支持這一功能。
同時,還要在擴展空間位置插值至時空維度,實現對可變時長視頻的處理。
在此,主頁也先給了兩個 demo,分别是 10s 視頻重建和 18s 重建,分辨率分别為 256x256 和 196x196:
這三個功能都已經初步實現。
相關的訓練代碼也已經在對應的倉庫上上線:
成員介紹,目前的訓練是在 8 個 A100-80G 上進行的(明顯還遠遠不夠),輸入大小為 8 幀 128 128,大概需要 1 周時間才能生成類似 ucf(一個視頻數據集)的效果。
而從目前已經列出的 9 項 to do 事項來看,除了可變長寬比、可變分辨率和可變時長,動态掩碼輸入、在 embeddings 上添加類條件這兩個任務也已完成。
未來要做的包括:
采樣腳本
添加位置插值
在更高分辨率上微調 Video-VQVAE
合并 SiT
納入更多條件
以及最重要的:使用更多數據和更多 GPU 進行訓練
袁粒、田永鴻領銜
嚴格來説,Open Sora 計劃是北大 - 兔展 AIGC 聯合實驗室聯合發起的。
領銜者之一袁粒,為北大信息工程學院助理教授、博導,去年獲得福布斯 30 歲以下亞洲傑出人物榜單。
他分别在中國科學技術大學和新加坡國立大學獲得本科和博士學位。
研究方向為深度視覺神經網絡設計和多模态機器學習,代表性一作論文之一 T2T-ViT 被引次數 1000+。
領銜者之二田永鴻,北京大學博雅特聘教授,博士生導師,IEEE、ACM 等 fellow,兼任鵬城實驗室(深圳)人工智能研究中心副主任,曾任中科院計算所助理研究員、美國明尼蘇達大學訪問教授。
從目前公布的團隊名單來看,其餘成員大部分為碩士生。
包括袁粒課題組的林彬,他曾多次以一作或共同一作身份參與了 " 北大版多模态 MoE 模型 "MoE-LLaVA、Video-LLaVA 和多模态對齊框架 LanguageBind(入選 ICLR 2024)等工作。
兔展這邊,參與者包括兔展智能創始人、董事長兼 CEO 董少靈(他也是北大校友)。
完整名單:
誰能率先發布中文版 Sora?
相比 ChatGPT,引爆文生視頻賽道的 Sora 研發難度顯然更大。
誰能奪得 Sora 中文版的首發權,目前留給公眾的是一個大大的問号。
在這之中,傳聞最大的是字節。
今年 2 月初,張楠辭去抖音集團 CEO 一職,轉而負責剪映,就引發了外界猜測。
很快,一款叫做 "Boximator" 的視頻生成模型浮出水面。
它基于 PixelDance 和 ModelScope 兩個之前的成果上完成訓練。
不過,很快字節就辟謠這不是 " 字節版 sora":
它的效果離 Sora 還有很大差距,暫時不具備落地條件,并且至少還需 2-3 個月才能上線 demo 給大家測試。
但,風聲并未就此平息。
去年 11 月,字節剪映悄悄上線了一個 AI 繪畫工具 "Dreamina",大家的評價還不錯。
現在,又有消息稱:
Dreamina 即将上線類似 sora 的視頻生成功能(目前在内測)。
不知道,這一次是不是字節亮出的大招呢?
Open Sora 項目主頁:
https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
https://github.com/PKU-YuanGroup/Open-Sora-Plan