今天小編分享的科學經驗:克蘇魯高清AI視頻爆火,背後模型已開源,Demo在線可玩,前特斯拉AI總監也來圍觀,歡迎閱讀。
可生成1024 × 576高清分辨率視頻的大模型,開源了!
無論是在海草間遊動的小魚:
還是精細到眼珠子的神秘克蘇魯影像:
全部以前所未有的清晰感呈現出來,讓網友直呼 "san 值狂掉 "。
這個視頻生成模型開源即爆火,不僅在推特和 Reddit 上收獲一眾熱度,就連前特斯拉 AI 總監Andrej Karpathy 也來圍觀了一波:
現在,Hugging Face 工程師已經搞出了試玩 demo,不少網友直接線上開炫,例如生成《星球大戰》達斯 · 維德在水上衝浪的珍貴影像:
效果看起來也不錯,所以它究竟是怎麼訓練的?
基于 17 億參數大模型改造
Zeroscope 的 " 原型 ",是達摩院 ModelScope(魔搭)社區開源的 17 億參數文生視頻大模型。
這一版大模型由文本特征提取、文本特征到視頻隐空間擴散模型、視頻隐空間到視頻視覺空間 3 個子網絡組成。
其中,擴散模型采用 Unet3D 結構,通過從純高斯噪聲視頻中迭代去噪過程,最終實現視頻生成。
不過在 ModelScope 社區中開源的這版大模型,生成視頻的效果還不能說是高清:
為此,ZeroScope 設計了兩個階段,先通過文生視頻、再通過視頻生視頻提升分辨率,最終生成 1024 × 576 分辨率的視頻:
第一步,文生視頻,基于 ZeroScope_v2_576w 來生成 576 × 320 分辨率的視頻;
第二步,視頻生視頻,基于 ZeroScope_v2_XL 來生成 1024 × 576 分辨率的視頻片段。
訓練上,ZeroScope 采用了 9923 個 1024 × 576 分辨率的視頻片段,每個片段包含 24 幀畫面,其中有 3 幀被打上标記,加起來一個是 29769 個标記幀(tagged frames)。
不過,生成高清視頻,需要的硬體要求也會更高一些。
要想生成 576 × 320 分辨率、幀率 30 的視頻,至少需要 7.9GB 的 VRam(顯存的一種);如果要生成 1024 × 576 分辨率、幀率 30 的視頻,則至少需要 15.3GB 的 VRam。
有網友感到高興:
又一個足以與 Gen-2 競争的文生視頻模型出現了!
甚至有網友認為,這個模型的出現已經說明,人們沒必要為了 Runway 搞出來的 Gen-2 付錢了,畢竟後者效果也沒有那麼好。
無論如何,文生視頻 AI 領網域的 " 新攪局者 " 都已經出現。
在線試玩 Demo 已出
模型一開源,Hugging Face 上就已經出現了試玩 Demo。
這裡我們試着生成 " 和愛因斯坦打高爾夫球 "。
效果還不錯,雖然不知道為什麼愛因斯坦打着打着蹲下了(手動狗頭)
從提示詞類型來看,不僅可以輸入比較精細的描述:
例如 " 一個男人在行駛的火車上睡覺,窗外物體飛速移動 "(A man is sleeping in his seat, inside a train running, background behind the window is moving fast)
也可以只輸入簡單的一句話,像是 " 巨型皮卡丘大戰哥斯拉 "(Giant Pikachu versus Godzilla fight)
除此之外,也有不少網友分享了自己的作品。
例如這是 " 愛因斯坦大笑着開星球大戰裡的飛梭賽車 ":
還有網友 @Callimiya 生成了 " 達斯維德在課室跳舞 " 的神奇視頻,似乎還有小孩子在陪他一起跳:
不過,由于試玩人數比較多,導致它有時會出 bug。這時候只要不停地提交,還是可以衝進隊列中的。
當然,如果你覺得這一版的 Demo 可控性不夠好,還可以嘗試另一版,無論是seed (便于生成相似内容)還是推理次數都可手動調整:
怎麼樣,想好用它生成什麼新視頻了嗎?
簡單版試玩:
https://huggingface.co/spaces/fffiloni/zeroscope
可控版進階試玩:
https://huggingface.co/spaces/hysts/zeroscope-v2
參考鏈接:
[ 1 ] https://twitter.com/_akhaliq/status/1672650155743408133
[ 2 ] https://www.reddit.com/r/aivideo/comments/14hbiql/announcing_zeroscope_v2_xl_a_new_1024x576_video/
[ 3 ] https://twitter.com/fffiloni/status/1673644193967747072