今天小編分享的科技經驗:阿裡版“馬良神筆”來了,輕輕一抹讓蒙娜麗莎對你微笑,歡迎閱讀。
作者 | 王怡寧
編輯 | 鄧詠儀
近半年來,文生視頻、圖生視頻類的工具層出不窮,讓人眼花缭亂。但不少實際體驗過的用戶一定會感受到,腦中的想法轉化為語言尚且不易,而人類的語言復雜而精妙,想要再找到準确的提示詞,讓 AI 正确理解我們的意圖,繼而轉換為圖片和視頻,實在是太難了。
為了把用戶和 AI 都從這種 " 詞不達意 " 的困境中解救出來,開發者們做了很多有趣的探索。
比如阿裡雲科研智算團隊近期開源的圖生視頻模型 Animate Anything,就開發了運動筆刷功能,就像用了 " 馬良神筆 " 一般讓圖片一抹即動。
不僅要動起來,還要準确和真實
一個簡單好用的圖生視頻工具應該長什麼樣?最近,阿裡雲科研智算團隊給出了他們的答案:高保真 + 高可控性。
Animate Anything 是阿裡雲科研智算團隊從去年 7 月就着手研究的圖生視頻項目。當時,雖然已經有不少文生圖領網域的公司如 Midjourney、Stability AI 等走紅,但圖生視頻領網域的研究都還非常少,更别說有成熟可用的模型了。
Animate Anything 的開發團隊就開始探索通過什麼技術讓圖片動起來既精準、又連貫。
以往 AI 生成視頻的一個常見問題是精細度受損——圖片在生成視頻的過程中,常常容易出現原圖被扭曲變形的問題,尤其是在人物面部特征和皮膚紋理這些細節上,導致生成視頻很容易就有 " 一眼假 " 人工感,甚至在幾秒内就讓人 " 改頭換面 "。
就像以下這張馬斯克的經典圖片一樣,經過 Gen-2 的 " 巧手 ",簡直是本人來了都不敢相認的程度。
圖源:X
但是,Animate Anything 通過技術手段提高了生成視頻對原影像的保真度。團隊在阿裡 VideoComposer 模型的基礎上做了微調,清理過濾了千萬量級 HD- VILA-100M 數據集,從中挑選出了 20 萬個視頻片段。在訓練過程中,算法工程師通過保留每一個視頻的第一幀,往剩下幀上加入噪聲的方法,讓網絡學習并預測出完整視頻。這種方式讓圖片在 " 動 " 起來的同時,還能對原圖的畫面保持較高的還原度。
可控性的提高也提升了生成視頻的良品率。也就是說,以往用戶可能需要生成 10 個視頻,才有 1 個符合要求。但現在,用戶可以在兩三次嘗試後就得到一個滿意的視頻,這有助于用戶體驗感的提升。
圖源:Animate Anything
在圖生視頻工具的使用中,另一個常常讓用戶體驗大打折扣的點在于,如何讓 AI 準确地理解文字提示詞。特别是當一張圖片所呈現的内容豐富且復雜時,如何能夠實現僅僅只讓前景或後景的一部分動起來呢?
Animate Anything 提供了一種能夠精确控制部分區網域動起來的工具 " 運動筆刷 "(motion brush),即使畫面繁復如張擇端的《清明上河圖》,也只要在圖上輕輕一抹,就能實現車水馬龍的自然流動感。
圖源:Animate Anything
據開發團隊介紹,這一功能主要是通過在圖片上添加「運動圖層」(motion mask)來實現的。
簡單來說,在訓練模型時,算法工程師從真實的視頻素材中生成了只有指定區網域運動的視頻,将這部分區網域标記為可動區網域圖層,再引導網絡學習可動區網域圖層與真實視頻之間的運動關系。
最後,當用戶輸入圖片與指定的運動圖層以後,網絡就可以實現讓圖片特定區網域動起來的效果。
圖源:Animate Anything
以上圖為例,用戶塗抹紅色和綠色部分以後,模型結合以往基于在真實視頻中添加運動圖層的訓練,就可以預測行人和遊船的動态效果。用戶輸入圖片以後,模型識别到需要動态化的區網域,疊加運動圖層,就可以讓紅色區網域的行人走動起來,讓綠色區網域的船穿行水上,實現精準地動态視頻生成效果。
除了讓圖片動起來以外, Animate Anything 團隊引入了「運動強度」(motion strength)這一标準,來衡量物體的運動速度,讓物體的運動更符合用戶的體感。此外,Animate Anything 還提供了更多參數調整的設定,比如可以控制動作的幅度、強度等。
以官方放出的視頻為例,運動強度從 4 增強至 20,可以讓圖中的兔子實現從雙耳晃動到全身跳躍的姿态變化。
圖源:Animate Anything
圖源:Animate Anything
圖源:Animate Anything
Animate Anything 開發團隊告訴智能湧現,「運動筆刷」和「運動強度」兩個功能的引入,頗受合作商的青睐。尤其是對于一些從事傳統出版業務的合作夥伴,在數字化過程中,如何解決讓以往教科書中的圖 " 動起來 " 是關鍵問題,而運動筆刷和運動強度的控制,為他們提供了一種操作難度更低的選擇。
現在,Animate Anything 也已經被集成到了阿裡雲内部的 " 數字出版 Copilot" 工具中,AI 工具 + 傳統編輯器 = 更好用的 Saas 服務,從一線業務出發的導向也讓 Animate Anything 早早走通了商業化之路。
構建高質量數據集是技術難點
2023 年是大語言模型的浪潮席卷全球的一年,也是多模态模型不斷湧現的一年。
除了 Animate Anything 以外,阿裡在去年還發布了多個多模态模型。
比如,阿裡在去年 11 月發布的 Animate Anyone,只需一張人物照片,結合骨骼動畫,就能生成人體動畫視頻。
圖源:Animate Anything
目前,基于 Animate Anyone 技術開發的全民舞王已經在通義千問 App 内正式上線。用戶只需要上傳一張真人或動漫全身照即可生成熱舞視頻,并且現在支持科目三、秧歌舞、蒙古舞等多種類型。
兵馬俑跳 " 科目三 "
不過,這一賽道的競争也是相當激烈。事實上,就在阿裡推出 Animate Anyone 後幾天,字節就緊随其後發布了 Magic Animate,還搶先一步實現了開源。
放眼矽谷,競争同樣激烈,Midjourney、Runway 等不斷迭代優化,大廠們如 OpenAI 和 Google 也蓄勢待發,不斷優化着自研模型。
不過,如果說文字領網域的 GPT 模型已經迭代到 GPT-4 時代,那麼在 AI 生成式視頻領網域則還處在更早期。不少業内從業者都表示,如今的 AI 生成式視頻,技術發展階段大概在 GPT-2 時代——也就是說,這一領網域的 "ChatGPT 時刻 " 還沒到來。
從現狀看,當前文生 / 圖生領網域的技術路線尚未收斂,各家廠商都還在技術探索期。Animate Anything 開發團隊也表示,圖生視頻領網域還有很多技術難點沒有解決。
比如,最大的問題是清晰度受限,以及生成視頻時間較短(普遍在 2-3 秒左右)的問題。就算能夠拉長視頻時長到十來秒,但其中的動作細節、清晰度也無法達到理想水平。
而如果要讓視頻更長、更清晰,海量高質量的視頻訓練素材必不可少。所以,如何構建高質量的訓練數據集,是未來這一領網域的模型構建要解決的關鍵問題。Animate Anything 開發團隊直言:
" 如果構建了高質量的數據集,就已經成功了一半了。"
近期,Stability AI 開源了它們的 AI 視頻大模型 Stable Video Diffusion,吸引了更多團隊進入 AI 視頻生成領網域。目前,各家的訓練路線還都比較接近,也意味着未來一兩年内,這一賽道可能會迎來較為激烈的競争。
不過,Animate Anything 對後續的產品更新迭代有較為明确的想法,希望增加模型參數和訓練視頻的規模。此外,團隊還計劃在目前的基礎上進一步加入視頻編輯功能,在提升可用性的同時,讓這個產品在商業上有更多的想象力。