爆火「視頻版ControlNet」開源了！靠提示詞精準換畫風，全華人團隊出品 - 大酷樂

今天小編分享的科學經驗：爆火「視頻版ControlNet」開源了！靠提示詞精準換畫風，全華人團隊出品，歡迎閲讀。

" 視頻版 ControlNet" 來了！

讓藍衣戰神秒變迪士尼公舉：

視頻處理前後，除了畫風以外，其他都不更改。

女孩説話的口型都保持一致。

正在插劍的姜文，也能 " 下一秒 " 變猩球崛起了。

這就是由全華人團隊打造的最新視頻處理算法CoDeF，發布才幾天，迅速在網上爆火。

網友們看了直呼：

這一天天的，虛實分辨越來越難了！

只需要自己拍點東西，然後覆蓋上去，就能變成各種各樣的動畫了。

有人説，只需給它一年時間，就能被用在電影制作上了。

這馬上引來其他人的肯定：技術發展真的非常瘋狂、非常快。

目前，團隊已将這一方法在 GitHub 上開源。

姿勢不變，畫風 " 皮套 " 随便換

之所以會被稱為是 " 視頻版 ControlNet"，主要原因在于 CoDeF 能夠對原視頻做到精準控制。

（ControlNet 實現了根據提示詞精準控制影像元素改變，如人物動作、影像結構等）

根據給到的提示詞，它僅改變視頻的畫風，而且是針對完整視頻。

比如輸入 "Chinese ink painting"，風景紀錄片能秒變國風水墨大作。

包括水流也能很好跟蹤，整個流體動向都沒有被改變。

甚至一大片穗子，在原視頻裏怎麼擺動，改變畫風後頻率和幅度也如出一轍。

在畫風改變上，CoDeF 也做了很多細節處理，讓效果更加逼真合理。

" 由春入冬 " 後，原本有漣漪的河流靜止了，天空中的雲彩被換成了太陽，更加符合冬日景象。

黴黴變成魔法少女後，耳環被換成了發光寶石，手裏的蘋果也換成了魔法球。

這樣一來，讓電影角色一鍵變老也簡單了許多。

皺紋可以 " 悄無聲息 " 上臉，其他一切都沒有變化。

所以，CoDeF 是怎麼實現的呢？

可跟蹤水和煙霧，跨幀一致性更強

CoDeF 是英文 "the content deformation field" 的縮寫，即作者在此提出了一種叫做内容形變場的新方法，來用于視頻風格遷移任務。

比起靜态的影像風格遷移，這種任務的復雜點在于時間序列上的一致性和流暢度。

比如處理水、煙霧這種元素，兩幀畫面之間的一致性非常重要。

在此，作者 " 靈機一動 "，提出用圖片算法來直接解決視頻任務。

他們只在一張影像上部署算法，再将影像 - 影像的轉換，提升為視頻 - 視頻的轉換，将關鍵點檢測提升為關鍵點跟蹤，而且不需要任何訓練。

這樣一來，相較于傳統方法，能夠實現更好的跨幀一致性，甚至跟蹤非剛性物體。

具體而言，CoDeF 将輸入視頻分解為2D 内容規範場（canonical content field）和3D 時間形變場（temporal deformation field）：

前者用于聚合整個視頻中的靜态内容；後者則負責記錄影像沿時間軸的每個單獨幀的轉換過程。

利用 MLP（多層感知器），每個場都用多分辨率 2D 或 3D 哈希表來表示。

在此，作者特意引入了正則化，來保證内容規範場能夠繼承原視頻中的語義信息（比如物體的形狀）。

如上圖所示，這一系列設計使得 CoDeF 可以自動支持各種影像算法直接應用于視頻處理——

也就是只需利用相應算法提取出來一張規範影像，然後通過時間形變場沿着時間軸傳播結果即可。

比如，給 CoDeF" 套上 " 本用于圖片處理的 ControlNet，就可以完成視頻風格的 " 翻譯 "（也就是我們開頭和第一段看的那一堆效果）：

" 套上 " 分割一切算法 SAM，我們就能輕松做到視頻的對象跟蹤，完成動态的分割任務：

" 套上 "Real-ESRGAN，則給視頻做超分也是信手拈來……

整個過程非常輕松，不需要對待操作視頻進行任何調整或處理。

不僅能處理，還能保證效果，即良好的時間一致性和合成質量。

如下圖所示，相比去年誕生的 Layered neural atlas 算法，CoDeF 能夠呈現非常忠于原視頻的細節，既沒有變形也無破壞。

而在根據文本提示修改視頻風格的任務對比中，CoDeF 全部表現突出，不僅最匹配所給要求，也有着更高的完成度。

跨幀一致性則如下圖所示：

一位一作剛本科畢業

這項研究由香港科技大學、螞蟻團隊、浙江大學 CAD&CG 實驗室共同帶來。

共同一作有三位，分别是歐陽豪、Yujun Shen 和 Yuxi Xiao。

其中歐陽豪為港科大博士，師從陳啓峰（本文通訊作者之一）；本科導師為賈佳亞。曾在 MSRA、商湯、騰訊優圖實驗室實習過，現在正在谷歌實習。

另一位是 Yujun Shen，也是通訊作者之一。

他是螞蟻研究所的高級研究科學家，主管互動智能實驗室，研究方向為計算機視覺和深度學習，尤其對生成模型和 3D 視覺效果感興趣。

第三位一作為 Yuxi Xiao 才剛剛從武大本科畢業，今年 9 月開始在浙大 CAD&CG 實驗室讀博。

他以一作身份發表的論文 Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces，被 CVPR2023 接收。

論文地址：

https://arxiv.org/abs/2308.07926

項目地址：

https://qiuyu96.github.io/CoDeF/

參考鏈接：

https://twitter.com/LinusEkenstam/status/1692492872392626284