在線可玩！智譜開源圖生視頻模型，網友直呼Amazing！ - 大酷樂

今天小編分享的科學經驗：在線可玩！智譜開源圖生視頻模型，網友直呼Amazing！，歡迎閲讀。

剛剛，智譜把清影背後的圖生視頻模型CogVideoX-5B-I2V給開源了！（在線可玩）

一起開源的還有它的标注模型cogvlm2-llama3-caption。

在實際應用中，CogVideoX-5B-I2V 支持「一張圖」+「提示詞」生成視頻。

而 cogvlm2-llama3-caption 則是負責将視頻内容轉換成文本描述。

不過用過的網友卻對它的表現褒貶不一：

有人在用過之後直呼 Amazing。

也有人試了半天，最後還是選擇了 CogVideoX 之前的版本，還誇誇説：我最看好這個型号！

所以到底效果如何，咱們來實測一波！

實測 CogVideoX-5B-I2V

測試開始 ~ 輸入提示詞：咖啡店員握住雙手笑着對客人表示歡迎，説話時身體自然活動（依舊是老生常談的 " 手部 " 問題）

第二次實測，試了一下簡短提示詞：嗎喽颠着二郎腿打電話（效果不理想，主體還是靜态的沒有動起來）

第三次的提示詞是：" 明月圓圓，幾個人坐在河邊談心説話，舉杯高歌。" 顯示生成完成，但是到最後顯示環節卻直接 NAN 了（嗚嗚嗚）

整體效果有些一言難盡，而且生成速度有些慢。

咱們還是來看一下團隊自己發布的一些成功作品吧：

提示詞：當萬花筒般的蝴蝶在花朵中翩翩起舞時，花園變得生機勃勃，它們精致的翅膀在下面的花瓣上投下陰影。

提示詞：一位穿着西裝的宇航員，靴子上沾滿了火星的紅色塵埃，在第四顆行星的粉紅色天空下，他伸出手與一個外星人握手。

提示詞：湖岸邊長滿了柳樹，細長的枝條在微風中輕輕搖曳。平靜的湖面倒映着清澈的藍天，幾只優雅的天鵝在平靜的水面上優雅地滑翔

論文也已公開

值得一提的是，目前 CogVideoX-5B-I2V 模型的代碼均已開源，支持在抱抱臉中進行部署。

相關研究論文也已公開，縱觀論文内容，有三大技術亮點值得説道説道 ~

首先便是團隊自研了一個高效的三維變分自編碼器結構（3D VAE），将原視頻空間壓縮至 2% 大小，大大減少了視頻擴散生成模型的訓練成本及訓練難度。

模型結構包括編碼器、解碼器和潛在空間正則化器，通過四個階段的下采樣和上采樣實現壓縮。時間因果卷積确保了信息的因果性，減少了通信開銷。團隊采用上下文并行技術以适應大規模視頻處理。

在實驗中，團隊發現大分辨率編碼易于泛化，而增加幀數則挑戰較大。

因此，團隊分兩階段訓練模型：首先在較低幀率和小批量上訓練，然後通過上下文并行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判别器的 GAN 損失。

其次是專家 Transformer。

團隊使用 VAE 的編碼器将視頻壓縮至潛在空間，然後将潛在空間分割成塊并展開成長的序列嵌入 z_vision。

同時，他們使用 T5，将文本輸入編碼為文本嵌入 z_text，然後将 z_text 和 z_vision 沿序列維度拼接。拼接後的嵌入被送入專家 Transformer 塊堆棧中處理。

最後，團隊反向拼接嵌入來恢復原始潛在空間形狀，并使用 VAE 進行解碼以重建視頻。

最後的亮點，便是在于數據了。

團隊開發了負面标籤來識别和排除低質量視頻，如過度編輯、運動不連貫、質量低下、講座式、文本主導和螢幕噪音視頻。

通過 video-llama 訓練的過濾器，他們标注并篩選了 20000 個視頻數據點。同時，計算光流和美學分數，動态調整阈值，确保生成視頻的質量。

視頻數據通常沒有文本描述，需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短，無法全面描述視頻内容。

為此，團隊還提出了一種從影像字幕生成視頻字幕的管道，并微調端到端的視頻字幕模型以獲得更密集的字幕。

這種方法通過 Panda70M 模型生成簡短字幕，使用 CogView3 模型生成密集影像字幕，然後使用 GPT-4 模型總結生成最終的短視頻。

他們還微調了一個基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕數據進行訓練，以加速視頻字幕生成過程。

One more thing

值得一提的是，CogVideoX 近來這一個月也沒有閒着，化身勤更達人碼出了一堆更新！

2024 年 9 月 17 日，提供了 SAT 權重的推理和微調代碼和安裝依賴的命令，使用 GLM-4 優化了提示詞

鏈接：https://github.com/THUDM/CogVideo/commit/db309f3242d14153127ffaed06a3cf5a74c77062

2024 年 9 月 16 日，用户可以利用本地開源模型 +FLUX+CogVideoX，實現自動化生成高質量視頻。

鏈接：https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

2024 年 9 月 15 日，CogVideoX 的 LoRA 微調權重已成功導出，并在 diffusers 庫中成功通過測試。

鏈接：https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

2024 年 8 月 29 日，在 CogVideoX-5B 的推理代碼中加入了 pipe.enable_sequential_cpu_offload ( ) 和 pipe.vae.enable_slicing ( ) 功能，使顯存占用降至 5GB。

2024 年 8 月 27 日，CogVideoX-2B 模型的開源協定已修改為 Apache 2.0 協定 .

當天，智譜 AI 開源了更大規模的 CogVideoX-5B 模型，顯著提升了視頻生成的質量與視覺效果。這個模型優化了推理性能，允許用户在 RTX 3060 等桌面顯卡上進行推理，降低了硬體的要求。

2024 年 8 月 20 日，VEnhancer 工具已支持對 CogVideoX 生成的視頻進行增強，提升視頻分辨率和質量。

2024 年 8 月 15 日，CogVideoX 依賴的 SwissArmyTransformer 庫更新至 0.4.12 版本，微調不再需要從源代碼安裝該庫。同時，引入了 Tied VAE 技術以優化生成效果。

而這次 CogVideoX-5B-I2V 的開源，也代表着 CogVideoX 系列模型已經支持文生視頻、視頻延長、圖生視頻三種任務。

相關鏈接已附上，感興趣的朋友們可以圍觀一波 ~

在線試玩：https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space

開源地址：https://github.com/THUDM/CogVideo

論文地址：https://arxiv.org/pdf/2408.06072

— 完 —

評選征集中

「2024 人工智能年度評選」

量子位 2024 人工智能年度評選已開啓報名通道，評選從企業、人物、產品三大維度設立了 5 類獎項。

歡迎掃碼報名評選！評選結果将于 12 月MEET2025 智能未來大會公布，期待與數百萬從業者共同見證榮譽時刻。

點這裏關注我，記得标星哦～

一鍵三連「點贊」、「分享」和「在看」

科技前沿進展日日相見 ~

>