今天小編分享的科學經驗:爆火「視頻版ControlNet」開源了!靠提示詞精準換畫風,全華人團隊出品,歡迎閱讀。
" 視頻版 ControlNet" 來了!
讓藍衣戰神秒變迪士尼公舉:
視頻處理前後,除了畫風以外,其他都不更改。
女孩說話的口型都保持一致。
正在插劍的姜文,也能 " 下一秒 " 變猩球崛起了。
這就是由全華人團隊打造的最新視頻處理算法CoDeF,發布才幾天,迅速在網上爆火。
網友們看了直呼:
這一天天的,虛實分辨越來越難了!
只需要自己拍點東西,然後覆蓋上去,就能變成各種各樣的動畫了。
有人說,只需給它一年時間,就能被用在電影制作上了。
這馬上引來其他人的肯定:技術發展真的非常瘋狂、非常快。
目前,團隊已将這一方法在 GitHub 上開源。
姿勢不變,畫風 " 皮套 " 随便換
之所以會被稱為是 " 視頻版 ControlNet",主要原因在于 CoDeF 能夠對原視頻做到精準控制。
(ControlNet 實現了根據提示詞精準控制影像元素改變,如人物動作、影像結構等)
根據給到的提示詞,它僅改變視頻的畫風,而且是針對完整視頻。
比如輸入 "Chinese ink painting",風景紀錄片能秒變國風水墨大作。
包括水流也能很好跟蹤,整個流體動向都沒有被改變。
甚至一大片穗子,在原視頻裡怎麼擺動,改變畫風後頻率和幅度也如出一轍。
在畫風改變上,CoDeF 也做了很多細節處理,讓效果更加逼真合理。
" 由春入冬 " 後,原本有漣漪的河流靜止了,天空中的雲彩被換成了太陽,更加符合冬日景象。
黴黴變成魔法少女後,耳環被換成了發光寶石,手裡的蘋果也換成了魔法球。
這樣一來,讓電影角色一鍵變老也簡單了許多。
皺紋可以 " 悄無聲息 " 上臉,其他一切都沒有變化。
所以,CoDeF 是怎麼實現的呢?
可跟蹤水和煙霧,跨幀一致性更強
CoDeF 是英文 "the content deformation field" 的縮寫,即作者在此提出了一種叫做内容形變場的新方法,來用于視頻風格遷移任務。
比起靜态的影像風格遷移,這種任務的復雜點在于時間序列上的一致性和流暢度。
比如處理水、煙霧這種元素,兩幀畫面之間的一致性非常重要。
在此,作者 " 靈機一動 ",提出用圖片算法來直接解決視頻任務。
他們只在一張影像上部署算法,再将影像 - 影像的轉換,提升為視頻 - 視頻的轉換,将關鍵點檢測提升為關鍵點跟蹤,而且不需要任何訓練。
這樣一來,相較于傳統方法,能夠實現更好的跨幀一致性,甚至跟蹤非剛性物體。
具體而言,CoDeF 将輸入視頻分解為2D 内容規範場(canonical content field)和3D 時間形變場(temporal deformation field):
前者用于聚合整個視頻中的靜态内容;後者則負責記錄影像沿時間軸的每個單獨幀的轉換過程。
利用 MLP(多層感知器),每個場都用多分辨率 2D 或 3D 哈希表來表示。
在此,作者特意引入了正則化,來保證内容規範場能夠繼承原視頻中的語義信息(比如物體的形狀)。
如上圖所示,這一系列設計使得 CoDeF 可以自動支持各種影像算法直接應用于視頻處理——
也就是只需利用相應算法提取出來一張規範影像,然後通過時間形變場沿着時間軸傳播結果即可。
比如,給 CoDeF" 套上 " 本用于圖片處理的 ControlNet,就可以完成視頻風格的 " 翻譯 "(也就是我們開頭和第一段看的那一堆效果):
" 套上 " 分割一切算法 SAM,我們就能輕松做到視頻的對象跟蹤,完成動态的分割任務:
" 套上 "Real-ESRGAN,則給視頻做超分也是信手拈來……
整個過程非常輕松,不需要對待操作視頻進行任何調整或處理。
不僅能處理,還能保證效果,即良好的時間一致性和合成質量。
如下圖所示,相比去年誕生的 Layered neural atlas 算法,CoDeF 能夠呈現非常忠于原視頻的細節,既沒有變形也無破壞。
而在根據文本提示修改視頻風格的任務對比中,CoDeF 全部表現突出,不僅最匹配所給要求,也有着更高的完成度。
跨幀一致性則如下圖所示:
一位一作剛本科畢業
這項研究由香港科技大學、螞蟻團隊、浙江大學 CAD&CG 實驗室共同帶來。
共同一作有三位,分别是歐陽豪、Yujun Shen 和 Yuxi Xiao。
其中歐陽豪為港科大博士,師從陳啟峰(本文通訊作者之一);本科導師為賈佳亞。曾在 MSRA、商湯、騰訊優圖實驗室實習過,現在正在谷歌實習。
另一位是 Yujun Shen,也是通訊作者之一。
他是螞蟻研究所的高級研究科學家,主管互動智能實驗室,研究方向為計算機視覺和深度學習,尤其對生成模型和 3D 視覺效果感興趣。
第三位一作為 Yuxi Xiao 才剛剛從武大本科畢業,今年 9 月開始在浙大 CAD&CG 實驗室讀博。
他以一作身份發表的論文 Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces,被 CVPR2023 接收。
論文地址:
https://arxiv.org/abs/2308.07926
項目地址:
https://qiuyu96.github.io/CoDeF/
參考鏈接:
https://twitter.com/LinusEkenstam/status/1692492872392626284