大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

在線可玩!智譜開源圖生視頻模型,網友直呼Amazing!

2024-09-20 简体 HK SG TW

今天小編分享的科學經驗:在線可玩!智譜開源圖生視頻模型,網友直呼Amazing!,歡迎閲讀。

剛剛,智譜把清影背後的圖生視頻模型CogVideoX-5B-I2V給開源了!(在線可玩)

一起開源的還有它的标注模型cogvlm2-llama3-caption。

在實際應用中,CogVideoX-5B-I2V 支持「一張圖」+「提示詞」生成視頻。

而 cogvlm2-llama3-caption 則是負責将視頻内容轉換成文本描述。

不過用過的網友卻對它的表現褒貶不一:

有人在用過之後直呼 Amazing。

也有人試了半天,最後還是選擇了 CogVideoX 之前的版本,還誇誇説:我最看好這個型号!

所以到底效果如何,咱們來實測一波!

實測 CogVideoX-5B-I2V

測試開始 ~ 輸入提示詞:咖啡店員握住雙手笑着對客人表示歡迎,説話時身體自然活動(依舊是老生常談的 " 手部 " 問題)

第二次實測,試了一下簡短提示詞:嗎喽颠着二郎腿打電話(效果不理想,主體還是靜态的沒有動起來)

第三次的提示詞是:" 明月圓圓,幾個人坐在河邊談心説話,舉杯高歌。" 顯示生成完成,但是到最後顯示環節卻直接 NAN 了(嗚嗚嗚)

整體效果有些一言難盡,而且生成速度有些慢。

咱們還是來看一下團隊自己發布的一些成功作品吧:

提示詞:當萬花筒般的蝴蝶在花朵中翩翩起舞時,花園變得生機勃勃,它們精致的翅膀在下面的花瓣上投下陰影。

提示詞:一位穿着西裝的宇航員,靴子上沾滿了火星的紅色塵埃,在第四顆行星的粉紅色天空下,他伸出手與一個外星人握手。

提示詞:湖岸邊長滿了柳樹,細長的枝條在微風中輕輕搖曳。平靜的湖面倒映着清澈的藍天,幾只優雅的天鵝在平靜的水面上優雅地滑翔

論文也已公開

值得一提的是,目前 CogVideoX-5B-I2V 模型的代碼均已開源,支持在抱抱臉中進行部署。

相關研究論文也已公開,縱觀論文内容,有三大技術亮點值得説道説道 ~

首先便是團隊自研了一個高效的三維變分自編碼器結構(3D VAE),将原視頻空間壓縮至 2% 大小,大大減少了視頻擴散生成模型的訓練成本及訓練難度。

模型結構包括編碼器、解碼器和潛在空間正則化器,通過四個階段的下采樣和上采樣實現壓縮。時間因果卷積确保了信息的因果性,減少了通信開銷。團隊采用上下文并行技術以适應大規模視頻處理。

在實驗中,團隊發現大分辨率編碼易于泛化,而增加幀數則挑戰較大。

因此,團隊分兩階段訓練模型:首先在較低幀率和小批量上訓練,然後通過上下文并行在更高幀率上進行微調。訓練損失函數結合了 L2 損失、LPIPS 感知損失和 3D 判别器的 GAN 損失。

其次是專家 Transformer。

團隊使用 VAE 的編碼器将視頻壓縮至潛在空間,然後将潛在空間分割成塊并展開成長的序列嵌入 z_vision。

同時,他們使用 T5,将文本輸入編碼為文本嵌入 z_text,然後将 z_text 和 z_vision 沿序列維度拼接。拼接後的嵌入被送入專家 Transformer 塊堆棧中處理。

最後,團隊反向拼接嵌入來恢復原始潛在空間形狀,并使用 VAE 進行解碼以重建視頻。

最後的亮點,便是在于數據了。

團隊開發了負面标籤來識别和排除低質量視頻,如過度編輯、運動不連貫、質量低下、講座式、文本主導和螢幕噪音視頻。

通過 video-llama 訓練的過濾器,他們标注并篩選了 20000 個視頻數據點。同時,計算光流和美學分數,動态調整阈值,确保生成視頻的質量。

視頻數據通常沒有文本描述,需要轉換為文本描述以供文本到視頻模型訓練。現有的視頻字幕數據集字幕較短,無法全面描述視頻内容。

為此,團隊還提出了一種從影像字幕生成視頻字幕的管道,并微調端到端的視頻字幕模型以獲得更密集的字幕。

這種方法通過 Panda70M 模型生成簡短字幕,使用 CogView3 模型生成密集影像字幕,然後使用 GPT-4 模型總結生成最終的短視頻。

他們還微調了一個基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕數據進行訓練,以加速視頻字幕生成過程。

One more thing

值得一提的是,CogVideoX 近來這一個月也沒有閒着,化身勤更達人碼出了一堆更新!

2024 年 9 月 17 日,提供了 SAT 權重的推理和微調代碼和安裝依賴的命令,使用 GLM-4 優化了提示詞

鏈接:https://github.com/THUDM/CogVideo/commit/db309f3242d14153127ffaed06a3cf5a74c77062

2024 年 9 月 16 日,用户可以利用本地開源模型 +FLUX+CogVideoX,實現自動化生成高質量視頻。

鏈接:https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/tools/llm_flux_cogvideox/llm_flux_cogvideox.py

2024 年 9 月 15 日,CogVideoX 的 LoRA 微調權重已成功導出,并在 diffusers 庫中成功通過測試。

鏈接:https://github.com/THUDM/CogVideo/blob/CogVideoX_dev/sat/README_zh.md

2024 年 8 月 29 日,在 CogVideoX-5B 的推理代碼中加入了 pipe.enable_sequential_cpu_offload ( ) 和 pipe.vae.enable_slicing ( ) 功能,使顯存占用降至 5GB。

2024 年 8 月 27 日,CogVideoX-2B 模型的開源協定已修改為 Apache 2.0 協定 .

當天,智譜 AI 開源了更大規模的 CogVideoX-5B 模型,顯著提升了視頻生成的質量與視覺效果。這個模型優化了推理性能,允許用户在 RTX 3060 等桌面顯卡上進行推理,降低了硬體的要求。

2024 年 8 月 20 日,VEnhancer 工具已支持對 CogVideoX 生成的視頻進行增強,提升視頻分辨率和質量。

2024 年 8 月 15 日,CogVideoX 依賴的 SwissArmyTransformer 庫更新至 0.4.12 版本,微調不再需要從源代碼安裝該庫。同時,引入了 Tied VAE 技術以優化生成效果。

而這次 CogVideoX-5B-I2V 的開源,也代表着 CogVideoX 系列模型已經支持文生視頻、視頻延長、圖生視頻三種任務。

相關鏈接已附上,感興趣的朋友們可以圍觀一波 ~

在線試玩:https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space

開源地址:https://github.com/THUDM/CogVideo

論文地址:https://arxiv.org/pdf/2408.06072

—  完  —

評選征集中

「2024 人工智能年度評選」

量子位 2024 人工智能年度評選已開啓報名通道,評選從企業、人物、產品三大維度設立了 5 類獎項。

歡迎掃碼報名評選!評選結果将于 12 月MEET2025 智能未來大會公布,期待與數百萬從業者共同見證榮譽時刻。

點這裏關注我,記得标星哦~

一鍵三連「點贊」、「分享」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們