今天小編分享的科學經驗:在線可玩!智譜開源圖生視頻模型,網友直呼Amazing!,歡迎閱讀。
剛剛,智譜把清影背後的圖生視頻模型CogVideoX-5B-I2V給開源了!(在線可玩)
一起開源的還有它的标注模型cogvlm2-llama3-caption。
在實際應用中,CogVideoX-5B-I2V 支持「一張圖」+「提示詞」生成視頻。
而 cogvlm2-llama3-caption 則是負責将視頻内容轉換成文本描述。
不過用過的網友卻對它的表現褒貶不一:
有人在用過之後直呼 Amazing。
也有人試了半天,最後還是選擇了 CogVideoX 之前的版本,還誇誇說:我最看好這個型号!
所以到底效果如何,咱們來實測一波!
實測 CogVideoX-5B-I2V
測試開始 ~ 輸入提示詞:咖啡店員握住雙手笑着對客人表示歡迎,說話時身體自然活動(依舊是老生常談的 " 手部 " 問題)
第二次實測,試了一下簡短提示詞:嗎喽颠着二郎腿打電話(效果不理想,主體還是靜态的沒有動起來)
第三次的提示詞是:" 明月圓圓,幾個人坐在河邊談心說話,舉杯高歌。" 顯示生成完成,但是到最後顯示環節卻直接 NAN 了(嗚嗚嗚)
整體效果有些一言難盡,而且生成速度有些慢。
咱們還是來看一下團隊自己發布的一些成功作品吧:
提示詞:當萬花筒般的蝴蝶在花朵中翩翩起舞時,花園變得生機勃勃,它們精致的翅膀在下面的花瓣上投下陰影。
提示詞:一位穿着西裝的宇航員,靴子上沾滿了火星的紅色塵埃,在第四顆行星的粉紅色天空下,他伸出手與一個外星人握手。
提示詞:湖岸邊長滿了柳樹,細長的枝條在微風中輕輕搖曳。平靜的湖面倒映着清澈的藍天,幾只優雅的天鵝在平靜的水面上優雅地滑翔
論文也已公開
值得一提的是,目前 CogVideoX-5B-I2V 模型的代碼均已開源,支持在抱抱臉中進行部署。
相關研究論文也已公開,縱觀論文内容,有三大技術亮點值得說道說道 ~
首先便是團隊自研了一個高效的三維變分自編碼器結構(3D VAE),将原視頻空間壓縮至 2% 大小,大大減少了視頻擴散生成模型的訓練成本及訓練難度。
模型結構包括編碼器、解碼器和潛在空間正則化器,通過四個階段的下采樣和上采樣實現壓縮。時間因果卷積确保了信息的因果性,減少了通信開銷。團隊采用上下文并行技術以适應大規模視頻處理。
在實驗中,團隊發現大分辨率編碼易于泛化,而增加幀數則挑戰較大。
因此,團隊分兩階段訓練模型:首先在較低幀率和小批量上訓練,然後通過上下文并行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判别器的 GAN 損失。
其次是專家 Transformer。
團隊使用 VAE 的編碼器将視頻壓縮至潛在空間,然後将潛在空間分割成塊并展開成長的序列嵌入 z_vision。
同時,他們使用 T5,将文本輸入編碼為文本嵌入 z_text,然後将 z_text 和 z_vision 沿序列維度拼接。拼接後的嵌入被送入專家 Transformer 塊堆棧中處理。
最後,團隊反向拼接嵌入來恢復原始潛在空間形狀,并使用 VAE 進行解碼以重建視頻。
最後的亮點,便是在于數據了。
團隊開發了負面标籤來識别和排除低質量視頻,如過度編輯、運動不連貫、質量低下、講座式、文本主導和螢幕噪音視頻。
通過 video-llama 訓練的過濾器,他們标注并篩選了 20000 個視頻數據點。同時,計算光流和美學分數,動态調整阈值,确保生成視頻的質量。
視頻數據通常沒有文本描述,需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短,無法全面描述視頻内容。
為此,團隊還提出了一種從影像字幕生成視頻字幕的管道,并微調端到端的視頻字幕模型以獲得更密集的字幕。
這種方法通過 Panda70M 模型生成簡短字幕,使用 CogView3 模型生成密集影像字幕,然後使用 GPT-4 模型總結生成最終的短視頻。
他們還微調了一個基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕數據進行訓練,以加速視頻字幕生成過程。
One more thing
值得一提的是,CogVideoX 近來這一個月也沒有閒着,化身勤更達人碼出了一堆更新!
2024 年 9 月 17 日,提供了 SAT 權重的推理和微調代碼和安裝依賴的命令,使用 GLM-4 優化了提示詞
鏈接:https://github.com/THUDM/CogVideo/commit/db309f3242d14153127ffaed06a3cf5a74c77062
2024 年 9 月 16 日,用戶可以利用本地開源模型 +FLUX+CogVideoX,實現自動化生成高質量視頻。
鏈接:https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py
2024 年 9 月 15 日,CogVideoX 的 LoRA 微調權重已成功導出,并在 diffusers 庫中成功通過測試。
鏈接:https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md
2024 年 8 月 29 日,在 CogVideoX-5B 的推理代碼中加入了 pipe.enable_sequential_cpu_offload ( ) 和 pipe.vae.enable_slicing ( ) 功能,使顯存占用降至 5GB。
2024 年 8 月 27 日,CogVideoX-2B 模型的開源協定已修改為 Apache 2.0 協定 .
當天,智譜 AI 開源了更大規模的 CogVideoX-5B 模型,顯著提升了視頻生成的質量與視覺效果。這個模型優化了推理性能,允許用戶在 RTX 3060 等桌面顯卡上進行推理,降低了硬體的要求。
2024 年 8 月 20 日,VEnhancer 工具已支持對 CogVideoX 生成的視頻進行增強,提升視頻分辨率和質量。
2024 年 8 月 15 日,CogVideoX 依賴的 SwissArmyTransformer 庫更新至 0.4.12 版本,微調不再需要從源代碼安裝該庫。同時,引入了 Tied VAE 技術以優化生成效果。
而這次 CogVideoX-5B-I2V 的開源,也代表着 CogVideoX 系列模型已經支持文生視頻、視頻延長、圖生視頻三種任務。
相關鏈接已附上,感興趣的朋友們可以圍觀一波 ~
在線試玩:https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space
開源地址:https://github.com/THUDM/CogVideo
論文地址:https://arxiv.org/pdf/2408.06072
— 完 —
評選征集中
「2024 人工智能年度評選」
量子位 2024 人工智能年度評選已開啟報名通道,評選從企業、人物、產品三大維度設立了 5 類獎項。
歡迎掃碼報名評選!評選結果将于 12 月MEET2025 智能未來大會公布,期待與數百萬從業者共同見證榮譽時刻。
點這裡關注我,記得标星哦~
一鍵三連「點贊」、「分享」和「在看」
科技前沿進展日日相見 ~
>