今天小編分享的互聯網經驗:騰訊混元又又又開源了,這次想復刻一個文生視頻領網域的Flux?,歡迎閲讀。
騰訊混元大模型又開源了,這次是文生視頻模型。
自 OpenAI 發布 Sora 演示視頻以來,要做中國版 Sora 的聲音從未停止過。在國内,大廠和創業公司都紛紛推出了自己的視頻生成模型:快手的可靈、MiniMax 的海螺、生數的 Vidu 以及智譜的 CogVideoX 等,都獲得了許多開發者和用户的關注和使用。在這個競争激烈的賽道上,現在他們又多了一個選擇:騰訊混元文生視頻大模型(Hunyuan-Video),騰訊混元大模型在 12 月 3 日正式上線視頻生成能力。
同樣重要的是開源。Hunyuan-Video 已在 Hugging Face 平台及 Github 上發布,包含模型權重、推理代碼、模型算法等完整模型,可供企業與個人開發者免費使用和開發生态插件。此前,騰訊混元已開源了旗下文生文、文生圖和 3D 生成大模型。據騰訊混元相關負責人介紹,後續還有圖生視頻模型、視頻配音與配樂、驅動 2D 照片數字人技術的開源計劃。
Hunyuan-video 的參數量為 130 億,官方放出的試映片長這樣:
HunYuan-Video 的技術架構與創新特性
統一影像與視頻生成架構
HunyuanVideo 使用了基于 Transformer 的全注意力機制,用于視頻生成。并能實現主體一致的多視角鏡頭切換。與 " 分離的時空注意力機制 " 分别關注視頻中的空間特征和時間特征,相比之下,全注意力機制則更像一個純視頻模型。
它采用 " 雙流到單流 " 的混合模型架構,能夠在融合之前分别處理視頻和文本的特征信息,從而實現更高效的多模态信息融合。
雙流到單流模型是指機器學習中的一個框架,特别是在多模态數據處理的背景下,其中兩股獨立的數據流(如文本和影像)最初分别處理,然後合并成一股單一流進行進一步分析或生成。
MLLM Text Encoder MLLM
HunYuan-Video 使用具有解碼器結構的預訓練多模态大型語言模型 ( MLLM ) 作為文本編碼器。這一設計增強了圖文對齊能力,并提升了模型處理復雜指令的能力。同時,它引入了一個雙向特征優化器(bidirectional token refiner)來增強文本特征。
3D VAE 壓縮
HunYuan-Video 引入了 3D 形狀變分自編碼器(VAE),将視頻壓縮到潛在空間,大幅減少後續處理所需的 token 數量。這使得模型能夠在原始分辨率和幀率下進行訓練,同時優化了性能和效率。使得視頻生成模型在細節表現上,特别是小人臉、高速鏡頭等場景有明顯提升。
提示重寫模型
Hunyuan-Video 還配備了一個提示優化模型(Prompt Rewrite Model),用于調整用户輸入的提示詞,使其更符合模型的偏好。該模型提供兩種模式:普通模式側重于理解用户意圖,而大師模式則強化視覺質量,包括畫面構圖和光影效果等方面的表現。
指标與性能
在千題盲測的定量分析中,Hunyuan-Video 與包括 Gne3 和 Luma 在内的前五名閉源模型進行了比較,在 60 多名專業評估人員評估後,HunyuanVideo 在綜合指标上表現最好,特别是在運動質量方面表現較為突出。
運行 Hunyuan-Video 模型使用文本生成視頻的推薦配置需要 45GB 的 GPU 内存。
要扛起開源文生視頻的大旗?
騰訊混元多模态生成技術負責人凱撒在發布現場表示,文生視頻領網域目前存在 " 抽卡概率 " 的問題,普通用户大多處于嘗鮮狀态,且目前開源閉源 " 存在較大的 GAP"," 這也是我們為什麼開源 "。
他多次提到 Black Forest Labs 旗下 Flux 的開源模式。Flux 通過開源基礎模型構建開發者生态,同時保留商業版本維持競争力,已獲得包括 Andreessen Horowitz 的知名投資機構的投資。
Flux 通過開源策略與 MidJourney 競争,依托其靈活的社區參與機制、強大的定制化能力以及對用户指令的高精度響應。相比 MidJourney 的閉源運營,Flux.1 的開源特性吸引開發者共同優化模型。開源也讓 Flux.1 更容易被個人和小型團隊采用,從而擴大用户基數。這一模式結合強社區支持,為開源生态帶來了長尾效應,挑戰了 MidJourney 的市場主導地位。
" 文生圖的發展,社區給了很大的力量,很多優秀的底模出來之後學術界、很多人都可以玩起來,做插件、做優化,而不是幾家閉門造車。"
例如,Hunyuan-video 推薦配置至少需要 45GB 的 GPU 内存,這對于普通開發者而言門檻仍然偏高,但社區的力量不容小觑。另一個開源視頻模型 Mochi 1 需要 4 個 H100 才能保證效率和輸出效果,而發布之後,社區就開始嘗試解決在顯存更低的設備運行 Mochi 1,并開發 ComfyUI 插件。大量開發者提供了經過優化的插件,如動漫風格視頻轉換工具和低顯存支持模塊,進一步降低了使用門檻。
Mochi 已支持在 ComfyUI 中使用消費級 GPU 運行
當然,要讓文生視頻技術成熟,還需攻克一些客觀難題。" 高質量數據還是挺缺的。"
此外,訓練視頻生成模型繞不開的仍然是算力成本,例如,Meta 的 Movie Gen 使用了多達 6144 個 H100 GPU 進行訓練,成本高昂。
商業模式方面,Flux 通過提供付費 API 和用于商業應用的閉源模型來構建的商業模式。參考 Flux 的做法,Hunyuan-Video 未來也可以通過 API 等形式提供更高質量的服務。目前,Hunyuan-Video 暫時沒有商業化的動作,用户可以在騰訊元寶 APP 免費使用 Hunyuan-Video 的文生視頻功能。
" 我們先站出來,搞一個跟閉源水平差不多的模型,給大家用起來 ",凱撒表示," 希望跟社區一起把我們的技術早日推向影像生成領網域一樣的狀态 "。
他同時表示從混元整體技術棧的邏輯出發,做視頻模型是其必經之路," 最終就是只有一個 Model"。
無論如何,在 Meta 發布 Movie Gen 後并未提及任何開源事宜的情況下,考慮到視頻生成模型的訓練成本和難度,Hunyuan-Video 的出現無疑是開源社區希望看到的事情。
類比 SD,文生視頻現在處于類似 SD1.5 的狀态,接下來就看 Hunyuan-Video 能否進化到下一個階段了。