大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

清華特獎得主團隊視頻生成AI一夜刷屏!100%開源+61頁技術報告,還能無限擴展生成,網友:遊戲規則改變者

2025-04-22 简体 HK SG TW

今天小編分享的科學經驗:清華特獎得主團隊視頻生成AI一夜刷屏!100%開源+61頁技術報告,還能無限擴展生成,網友:遊戲規則改變者,歡迎閱讀。

新國產 AI 視頻生成模型橫空出世,一夜間全網刷屏。

Magi-1,首個實現頂級畫質輸出的自回歸視頻生成模型,模型權重、代碼 100% 開源。

整整 61 頁的技術報告中還詳細介紹了創新的注意力改進和推理基礎設施設計,給人一種視頻版 DeepSeek 的感覺。

Magi-1 将視頻生成卷到了新高度,大片級品質直接鎖住大家的眼球,請看 VCR:

其主打能力,一是無限長度擴展,實現跨時間的無縫連貫叙事:

二是能将生成時長控制精确到每一 " 秒 ":

另外,Magi-1 對物理規律也有更深度的理解,Physics-IQ 基準測試 56.02%,大幅領先一眾頂流。

現在看這張圖,Sora 的時代是真的過去了。

這匹 " 黑馬 " 來自中國團隊Sand.ai,中文名聽着有點萌叫三呆科技,實力卻不容小觑。

創始人曹越,清華特獎得主、光年之外聯合創始人。

目前大夥兒可在官網免費試玩 Magi-1。GitHub 更是一晚過後狂攬 500+Star。

此次開源了從 24B 到 4.5B 參數的一系列模型,最低配置一塊 4090 就能跑。

網友們激動轉發測試,評價也是相當高,看一下這個 feel:

這絕對是令人驚嘆的工作。将自回歸擴散應用于視頻領網域不僅是研究上的一大步,更是為現實世界的創意領網域開辟了新可能。Magi-1 在生成質量和精度上樹立了新标杆。

開源特性 + 令人矚目的基準測試表現 = 遊戲規則改變者。

無限長度擴展,控制精确到每 " 秒 "

還有更多官方效果展示,先來欣賞一波~

比如漂在水面上的貓,水面自然晃動,波光粼粼:

抽着雪茄的海盜船長,頗有大

片的感 jio:

光影等細節滿滿:

網友們也都陸陸續續曬出了自己的實測效果:

畫質超清晰,VR 頭顯上的細微反光以及狗的胡須和毛發細節都栩栩如生。

還有網友生成了正在跳舞的小動物,belike:

量子位自然不能錯過,第一時間上手實測了一波。

玩法上,打開 Magi-1,主打圖生成視頻,且是以一個 " 項目 " 為部門:

上傳好圖片之後,Magi-1 像一張畫布一樣,呈現節點式的互動界面,點擊圖片側邊加号按鈕就能創建一個 " 視頻塊 "。

開始設定 prompt,支持精确調整時長,一次最長 10s,也可設定 Variations 一次性生成多個視頻:

稍等片刻,一只活蹦亂跳的吉卜力小狗就生成好了。

我們第一次嘗試就得到了下面醬嬸兒的效果,小狗的動作姿态整體比較符合物理規律,沒有離譜的扭曲以及突然出現的第五條腿(doge)。

視頻左邊還有自動改寫增強後的 prompt。

接着,對這段視頻進行擴展,小狗搖頭晃腦活蹦亂跳在表達什麼呢?

原來是在講述它今天在河裡遊泳玩耍的事情。

把這一個個鏡頭 " 組裝 " 起來,分分鍾就能打造出一部連貫的叙事短片。

另外 Magi-1 中還有 " 資產管理 " 板塊,可基于生成的視頻再創建一個新項目,進行二次加工創作。

完整模型架構、推理基礎設施公開

Magi-1 公布的技術論文足足有 61 頁之多。

Magi-1 整體架構基于 Diffusion Transformer,采用 Flow-Matching 作為訓練目标。

訓練分為多階段,第一階段固定分辨率(256 × 256,16 幀),第二階段引入可變分辨率和影像 - 視頻聯合訓練,并在推理時使用滑動視窗方法來支持任意分辨率。

其最大的特點是不把視頻當成一個整體去生成,而是通過自回歸去噪方式預測固定長度的視頻片段(chunk),每個片段固定為 24 幀。

當前一個片段達到一定去噪水平後,便開始生成下一個片段。這種流水線設計最多可同時處理四個片段,提高視頻生成的效率。

同時,這種約束早期片段噪聲水平低于後期片段的設計,确保了視頻前後的因果性,避免片段的信息影響過去,導致時間一致性差(如物體突然消失或運動軌迹斷裂)。

配合這種分片段自回歸設計,Magi-1 在 Diffusion Transformer 的基礎上融入了多項改進。

光是在注意力機制上就有多項創新。

Block-Causal Attention

片段内全注意力:每個視頻片段内的所有幀間進行全注意力計算,捕捉片段内短時序依賴(如單片段内物體的快速運動)。

片段間因果注意力:僅允許當前片段關注之前已生成的片段,禁止未來片段信息反向流入,确保因果性。

3D RoPE 位置編碼:結合空間和時間位置信息,學習可訓練的基頻參數,提升長時序建模能力。

Parallel Attention Block

傳統 DiT 架構中自注意力(處理視覺特征)和交叉注意力(處理文本條件)串行執行,需兩次 TP 通信(Tensor Parallel);并行塊将兩者的查詢投影 Q 共享,僅需一次通信,減少 GPU 間同步開銷

QK-Norm和GQA

QK-Norm 是源自視覺 Transformer 的技術,通過歸一化查詢(Q)和鍵(K)的範數,穩定注意力權重計算,避免梯度爆炸 / 消失。Magi-1 将其擴展到時空注意力和交叉注意力模塊,提升訓練穩定性,尤其在 240 億參數規模下效果顯著。

接下來的 GQA、FFN 中的三明治歸一化、SwiGLU 大家就很熟悉了。

到了具體軟硬協同層面,論文還提出了可擴展分布式注意力機制 MagiAttention。

Flex-Flash-Attention

基于 FlashAttention-3,将不規則注意力掩碼分解為多個 AttnSlice,使各種常用注意力掩碼可表示為多個 AttnSlice 的組合,從而支持靈活的注意力掩碼類型。利用英偉達 Hopper 架構的 TMA 特征,引入 Slice 級并行和原子操作,在支持靈活掩碼的同時,保持與 FlashAttention-3 相當的計算性能。

計算負載均衡

将整個掩碼沿查詢維度均勻劃分為多個 dispatch chunks,并分配到不同的上下文并行(CP)對應的 bucket 中,使每個 bucket 包含相同數量的 dispatch chunks,避免因負載不均衡導致的計算資源閒置。

零冗餘通信原語

針對現有環形點對點通信原語存在冗餘通信的問題,引入 group-cast 和 group-reduce 原語。根據注意力掩碼的需求,精準地發送和收集關鍵值(KV)及梯度(dKV)信息,避免不必要的通信,實現零冗餘通信。通過使用 all-to-all-v 原語進行原型實現,并借助内核融合減少預處理和後處理開銷。

自适應多階段重疊

為實現真正的線性擴展,引入多階段計算 - 通信重疊策略,将每個 rank 的遠程 KV/dKV 通信劃分為多個階段。

在正向傳遞中,先啟動 group-cast 内核預取下一階段的遠程 KV,然後異步執行 Flex-Flash-Attention(FFA)内核進行部分注意力計算;

在反向傳遞中,除了預取 KV,還在啟動 FFA 内核前,通過 group-reduce 内核減少上一階段的 dKV。通過引入可調節超參數 num_stages,根據不同訓練設定、微批次以及正向和反向傳遞的計算 - 通信比率,自适應地控制重疊粒度。

所有這些改動作為一個完整的 MagiAttention 項目,代碼也在 GitHub 上開源。

推理基礎設施方面,主要針對兩種場景進行設計:實時流式視頻生成和在 RTX 4090 GPU 上的經濟高效部署,以滿足不同應用需求。

在實時流式視頻生成上采用異構服務架構,将 T5(提取文本 Embedding,為視頻生成提供語義信息)和 Magi-1 部署在高性能 GPU 上,VAE 部分部署在經濟高效的硬體上,實現 Magi-1 推理和 VAE 解碼并發執行,并通過分析性能數據來分配資源,提升整體吞吐量。

針對 RTX4090 部署場景,借鑑語言模型将 KV 緩存存儲在 CPU 内存中,根據需要動态加載回 GPU。針對 RTX4090 的 PCIe 總線帶寬限制,提出 Context Shuffle Overlap(CSO)技術,優化通信與計算的重疊,提升計算資源利用率,使 4.5B 參數模型在單塊 RTX 4090 GPU 上部署時,峰值内存占用控制在 21.94GB;24B 模型在 8 塊 RTX4090 GPU 上部署時,峰值内存占用控制在 19.29GB,且最大 MFU(浮點運算數利用率)達到 58% 。

最後,評估結果分為内部人工評估、自動評估(VBench-I2V 基準)、物理理解能力評估三部分。

人類評估中 Magi-1 與海螺、騰訊混元、通義萬相 Wan2.1 相比,尤其是在指令跟随和運動質量方面有優勢,與閉源模型可靈 1.6 在視覺質量上還有一些差距。

在 VBench-I2V 基準上:MAGI-1(2 × 解碼器)以總分 89.28 排名第一,尤其在動态程度(Dynamic Degree)上有優勢,平衡運動幅度與影像質量。

曹越執掌的團隊,已完成三輪融資

Sand.AI 創始人曹越,博士畢業于清華大學軟體學院,2018 年獲清華大學特等獎學金。

讀博期間在微軟 MSRA 實習,2021 年以 Swin Transformer 共同一作身份獲 ICCV 最佳論文 " 馬爾獎 "。

2022 年,曹越與王慧文等共同創辦光年之外,後加入智源研究院領導多模态與視覺研究中心。

2023 年曹越創辦 Sand.ai,在很長一段時間保持隐身模式。

2024 年 7 月,其投資方今日資本 " 風投女王 " 徐新的一條傳聞把 Sand.ai 炸出水面。

當時有人發帖稱 " 今日資本撤離一級市場 ",徐新發朋友圈辟謠時透露,2024 年 5 月今日資本領投了 Sand.AI 的早期融資。

到現在據了解,Sand.AI 已完成三輪融資,主要參與方包括今日資本、經緯創投等。

創新工廠創始人李開復剛剛也發帖推薦了 Sand.AI 與 Magi-1,稱 " 很高興看到繼 DeepSeek 之後,又有一家 AI 公司開發出世界一流的開源模型 "。

目前 Sand.ai 具體融資金額,團隊規模等尚未可知,不過從 MAGI-1 論文附帶的貢獻者名單看,核心技術團隊至少有 36 人。

其中很多成員與曹越在工作經歷上有交集。

如創始成員方羽新,有微軟 MSRA、智源研究院實習經歷,也是光年之外創始成員之一。

兩人在智源研究院期間在大規模視覺表征預訓練模型 EVA 系列上多次合作。

核心貢獻者李凌志,也有 MSRA 實習經歷,曾擔任小紅書算法主管和阿裡巴巴集團達摩院算法專家。

多位團隊成員在個人主頁等處介紹自己現在為一家隐形初創公司工作。

現在答案已經明了,他們在 Sand AI,做 AI 視頻生成界的 DeepSeek。

在線試玩:

https://sand.ai/

參考鏈接:

[ 1 ] https://github.com/SandAI-org/MAGI-1

[ 2 ] https://static.magi.world/static/files/MAGI_1.pdf

[ 3 ] https://x.com/kaifulee/status/1914528611429966315

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們