今天小編分享的科學經驗:清華特獎得主團隊視頻生成AI一夜刷屏!100%開源+61頁技術報告,還能無限擴展生成,網友:遊戲規則改變者,歡迎閲讀。
新國產 AI 視頻生成模型橫空出世,一夜間全網刷屏。
Magi-1,首個實現頂級畫質輸出的自回歸視頻生成模型,模型權重、代碼 100% 開源。
整整 61 頁的技術報告中還詳細介紹了創新的注意力改進和推理基礎設施設計,給人一種視頻版 DeepSeek 的感覺。
Magi-1 将視頻生成卷到了新高度,大片級品質直接鎖住大家的眼球,請看 VCR:
其主打能力,一是無限長度擴展,實現跨時間的無縫連貫叙事:
二是能将生成時長控制精确到每一 " 秒 ":
另外,Magi-1 對物理規律也有更深度的理解,Physics-IQ 基準測試 56.02%,大幅領先一眾頂流。
現在看這張圖,Sora 的時代是真的過去了。
這匹 " 黑馬 " 來自中國團隊Sand.ai,中文名聽着有點萌叫三呆科技,實力卻不容小觑。
創始人曹越,清華特獎得主、光年之外聯合創始人。
目前大夥兒可在官網免費試玩 Magi-1。GitHub 更是一晚過後狂攬 500+Star。
此次開源了從 24B 到 4.5B 參數的一系列模型,最低配置一塊 4090 就能跑。
網友們激動轉發測試,評價也是相當高,看一下這個 feel:
這絕對是令人驚嘆的工作。将自回歸擴散應用于視頻領網域不僅是研究上的一大步,更是為現實世界的創意領網域開辟了新可能。Magi-1 在生成質量和精度上樹立了新标杆。
開源特性 + 令人矚目的基準測試表現 = 遊戲規則改變者。
無限長度擴展,控制精确到每 " 秒 "
還有更多官方效果展示,先來欣賞一波~
比如漂在水面上的貓,水面自然晃動,波光粼粼:
抽着雪茄的海盜船長,頗有大
片的感 jio:
光影等細節滿滿:
網友們也都陸陸續續曬出了自己的實測效果:
畫質超清晰,VR 頭顯上的細微反光以及狗的胡須和毛發細節都栩栩如生。
還有網友生成了正在跳舞的小動物,belike:
量子位自然不能錯過,第一時間上手實測了一波。
玩法上,打開 Magi-1,主打圖生成視頻,且是以一個 " 項目 " 為部門:
上傳好圖片之後,Magi-1 像一張畫布一樣,呈現節點式的互動界面,點擊圖片側邊加号按鈕就能創建一個 " 視頻塊 "。
開始設定 prompt,支持精确調整時長,一次最長 10s,也可設定 Variations 一次性生成多個視頻:
稍等片刻,一只活蹦亂跳的吉卜力小狗就生成好了。
我們第一次嘗試就得到了下面醬嬸兒的效果,小狗的動作姿态整體比較符合物理規律,沒有離譜的扭曲以及突然出現的第五條腿(doge)。
視頻左邊還有自動改寫增強後的 prompt。
接着,對這段視頻進行擴展,小狗搖頭晃腦活蹦亂跳在表達什麼呢?
原來是在講述它今天在河裏遊泳玩耍的事情。
把這一個個鏡頭 " 組裝 " 起來,分分鍾就能打造出一部連貫的叙事短片。
另外 Magi-1 中還有 " 資產管理 " 板塊,可基于生成的視頻再創建一個新項目,進行二次加工創作。
完整模型架構、推理基礎設施公開
Magi-1 公布的技術論文足足有 61 頁之多。
Magi-1 整體架構基于 Diffusion Transformer,采用 Flow-Matching 作為訓練目标。
訓練分為多階段,第一階段固定分辨率(256 × 256,16 幀),第二階段引入可變分辨率和影像 - 視頻聯合訓練,并在推理時使用滑動視窗方法來支持任意分辨率。
其最大的特點是不把視頻當成一個整體去生成,而是通過自回歸去噪方式預測固定長度的視頻片段(chunk),每個片段固定為 24 幀。
當前一個片段達到一定去噪水平後,便開始生成下一個片段。這種流水線設計最多可同時處理四個片段,提高視頻生成的效率。
同時,這種約束早期片段噪聲水平低于後期片段的設計,确保了視頻前後的因果性,避免片段的信息影響過去,導致時間一致性差(如物體突然消失或運動軌迹斷裂)。
配合這種分片段自回歸設計,Magi-1 在 Diffusion Transformer 的基礎上融入了多項改進。
光是在注意力機制上就有多項創新。
Block-Causal Attention
片段内全注意力:每個視頻片段内的所有幀間進行全注意力計算,捕捉片段内短時序依賴(如單片段内物體的快速運動)。
片段間因果注意力:僅允許當前片段關注之前已生成的片段,禁止未來片段信息反向流入,确保因果性。
3D RoPE 位置編碼:結合空間和時間位置信息,學習可訓練的基頻參數,提升長時序建模能力。
Parallel Attention Block
傳統 DiT 架構中自注意力(處理視覺特征)和交叉注意力(處理文本條件)串行執行,需兩次 TP 通信(Tensor Parallel);并行塊将兩者的查詢投影 Q 共享,僅需一次通信,減少 GPU 間同步開銷
QK-Norm和GQA
QK-Norm 是源自視覺 Transformer 的技術,通過歸一化查詢(Q)和鍵(K)的範數,穩定注意力權重計算,避免梯度爆炸 / 消失。Magi-1 将其擴展到時空注意力和交叉注意力模塊,提升訓練穩定性,尤其在 240 億參數規模下效果顯著。
接下來的 GQA、FFN 中的三明治歸一化、SwiGLU 大家就很熟悉了。
到了具體軟硬協同層面,論文還提出了可擴展分布式注意力機制 MagiAttention。
Flex-Flash-Attention
基于 FlashAttention-3,将不規則注意力掩碼分解為多個 AttnSlice,使各種常用注意力掩碼可表示為多個 AttnSlice 的組合,從而支持靈活的注意力掩碼類型。利用英偉達 Hopper 架構的 TMA 特征,引入 Slice 級并行和原子操作,在支持靈活掩碼的同時,保持與 FlashAttention-3 相當的計算性能。
計算負載均衡
将整個掩碼沿查詢維度均勻劃分為多個 dispatch chunks,并分配到不同的上下文并行(CP)對應的 bucket 中,使每個 bucket 包含相同數量的 dispatch chunks,避免因負載不均衡導致的計算資源閒置。
零冗餘通信原語
針對現有環形點對點通信原語存在冗餘通信的問題,引入 group-cast 和 group-reduce 原語。根據注意力掩碼的需求,精準地發送和收集關鍵值(KV)及梯度(dKV)信息,避免不必要的通信,實現零冗餘通信。通過使用 all-to-all-v 原語進行原型實現,并借助内核融合減少預處理和後處理開銷。
自适應多階段重疊
為實現真正的線性擴展,引入多階段計算 - 通信重疊策略,将每個 rank 的遠程 KV/dKV 通信劃分為多個階段。
在正向傳遞中,先啓動 group-cast 内核預取下一階段的遠程 KV,然後異步執行 Flex-Flash-Attention(FFA)内核進行部分注意力計算;
在反向傳遞中,除了預取 KV,還在啓動 FFA 内核前,通過 group-reduce 内核減少上一階段的 dKV。通過引入可調節超參數 num_stages,根據不同訓練設定、微批次以及正向和反向傳遞的計算 - 通信比率,自适應地控制重疊粒度。
所有這些改動作為一個完整的 MagiAttention 項目,代碼也在 GitHub 上開源。
推理基礎設施方面,主要針對兩種場景進行設計:實時流式視頻生成和在 RTX 4090 GPU 上的經濟高效部署,以滿足不同應用需求。
在實時流式視頻生成上采用異構服務架構,将 T5(提取文本 Embedding,為視頻生成提供語義信息)和 Magi-1 部署在高性能 GPU 上,VAE 部分部署在經濟高效的硬體上,實現 Magi-1 推理和 VAE 解碼并發執行,并通過分析性能數據來分配資源,提升整體吞吐量。
針對 RTX4090 部署場景,借鑑語言模型将 KV 緩存存儲在 CPU 内存中,根據需要動态加載回 GPU。針對 RTX4090 的 PCIe 總線帶寬限制,提出 Context Shuffle Overlap(CSO)技術,優化通信與計算的重疊,提升計算資源利用率,使 4.5B 參數模型在單塊 RTX 4090 GPU 上部署時,峰值内存占用控制在 21.94GB;24B 模型在 8 塊 RTX4090 GPU 上部署時,峰值内存占用控制在 19.29GB,且最大 MFU(浮點運算數利用率)達到 58% 。
最後,評估結果分為内部人工評估、自動評估(VBench-I2V 基準)、物理理解能力評估三部分。
人類評估中 Magi-1 與海螺、騰訊混元、通義萬相 Wan2.1 相比,尤其是在指令跟随和運動質量方面有優勢,與閉源模型可靈 1.6 在視覺質量上還有一些差距。
在 VBench-I2V 基準上:MAGI-1(2 × 解碼器)以總分 89.28 排名第一,尤其在動态程度(Dynamic Degree)上有優勢,平衡運動幅度與影像質量。
曹越執掌的團隊,已完成三輪融資
Sand.AI 創始人曹越,博士畢業于清華大學軟體學院,2018 年獲清華大學特等獎學金。
讀博期間在微軟 MSRA 實習,2021 年以 Swin Transformer 共同一作身份獲 ICCV 最佳論文 " 馬爾獎 "。
2022 年,曹越與王慧文等共同創辦光年之外,後加入智源研究院領導多模态與視覺研究中心。
2023 年曹越創辦 Sand.ai,在很長一段時間保持隐身模式。
2024 年 7 月,其投資方今日資本 " 風投女王 " 徐新的一條傳聞把 Sand.ai 炸出水面。
當時有人發帖稱 " 今日資本撤離一級市場 ",徐新發朋友圈辟謠時透露,2024 年 5 月今日資本領投了 Sand.AI 的早期融資。
到現在據了解,Sand.AI 已完成三輪融資,主要參與方包括今日資本、經緯創投等。
創新工廠創始人李開復剛剛也發帖推薦了 Sand.AI 與 Magi-1,稱 " 很高興看到繼 DeepSeek 之後,又有一家 AI 公司開發出世界一流的開源模型 "。
目前 Sand.ai 具體融資金額,團隊規模等尚未可知,不過從 MAGI-1 論文附帶的貢獻者名單看,核心技術團隊至少有 36 人。
其中很多成員與曹越在工作經歷上有交集。
如創始成員方羽新,有微軟 MSRA、智源研究院實習經歷,也是光年之外創始成員之一。
兩人在智源研究院期間在大規模視覺表征預訓練模型 EVA 系列上多次合作。
核心貢獻者李凌志,也有 MSRA 實習經歷,曾擔任小紅書算法主管和阿裏巴巴集團達摩院算法專家。
多位團隊成員在個人主頁等處介紹自己現在為一家隐形初創公司工作。
現在答案已經明了,他們在 Sand AI,做 AI 視頻生成界的 DeepSeek。
在線試玩:
https://sand.ai/
參考鏈接:
[ 1 ] https://github.com/SandAI-org/MAGI-1
[ 2 ] https://static.magi.world/static/files/MAGI_1.pdf
[ 3 ] https://x.com/kaifulee/status/1914528611429966315
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見