今天小編分享的科學經驗:騰訊混元最新圖生視頻模型!想動哪裡點哪裡,諸葛青睜眼原來長這樣,歡迎閱讀。
單擊畫面中的火箭,輸入 " 發射 "prompt,瞬間起飛!
就連想要回收火箭,也只需要輸入 "Launch down",再輕輕一點擊:
馬斯克看了都要自我懷疑一下,這火箭發射這麼簡單,自家星艦成功進入太空怎麼那麼難(開個小玩笑)??
以上效果來自一個新的圖生視頻模型Follow-Your-Click,由騰訊混元、清華大學和香港科技大學聯合推出。
食用方法非常友好:
任意一張照片輸入模型,只需要點擊對應區網域,加上少量簡單的提示詞,就可以讓圖片中原本靜态的區網域動起來,一鍵轉換成視頻。
就連《一人之下》的諸葛青和《唐伯虎點秋香》裡的星爺也……
相關研究論文已經挂上了 arXiv,GitHub 上也放出代碼,首日就小有戰績,攬星 280+。
想動哪裡點哪裡,so easy
注意看這個樓梯上的動畫小鼠形象,只需單擊小鼠腹部,再輸入 " 跳舞 ",它就能瞬間扭動起來。
同時,畫面的其他部分保持原有的靜止狀态。
不只是人物、卡通形象可以控制,圖片的其餘部分,通過點擊和輸入簡短提示詞,也能動起來。
進一步測試,是可以實際感知到 Follow-Your-Click 對畫面動态部分的精準控制的。
同樣是鳥圖,點擊小鳥,輸入 " 動動腦袋 ":
輸入 " 扇扇翅膀 ":
輸入 " 跳個舞吧 ":
輸入 " 不如搖擺 ":
總結,就是想要哪裡動,就點哪裡。
研究團隊還将 Follow-Your-Click 和其他視頻生成模型進行了同題對比,以下是實驗效果:
一鍵點,萬物動
此前圖生視頻模型的生成方法,一般都需要用提示詞描述運動區網域,并提供運動指令的詳細描述。
從生成效果來看,過往技術在指定影像移動部分缺乏控制,往往是讓整個場景動起來,而不是具體到影像上的某個區網域。
為了解決這些問題,騰訊混元大模型團隊、清華和港科大聯合項目提出了更實用和可控的影像到視頻生成模型 Follow-Your-Click。
實現方式上,Follow-Your-Click 首先整合了影像語義分割工具 Segment-Anything,将用戶點擊轉換為二進制區網域 Mask,将其作為網絡條件之一。
其次,為了更好地正确學習時間相關性,團隊還引入了一種有效的首幀掩模策略。
這種方式對模型生成的視頻質量有較大的性能提升,不論是在畸變還是首幀的重構效果上都有很大的幫助。
此外,為了實現簡短提示詞的文字驅動能力,研究團隊構建了一個名為 WebVid-Motion 的數據集——利用大模型來過濾和注視視頻标題,并強調人類情感、動作和常見物體的運動,通過數據集提升模型對動詞的響應和識别能力。
聯合研究團隊還設計了一個運動增強模塊,主要用途一方面是更好地适應數據集,一方面用來增強模型對運動相關詞語的響,同時理解簡短提示指令。
在視頻中,不同類型的物體可能表現出不同的運動速度。
以往的工作中,每秒幀數(FPS)主要作為全局的動作幅度控制參數,間接調整多個物體的運動速度。然而,它無法有效控制移動物體的速度。
舉個,一個展示雕塑的視頻可能具有很高的 FPS,但是沒有物體的運動速度。
為了實現對運動速度的準确學習,研究團隊提出了一種基于光流的運動幅度控制,使用光流模長作為新的視頻運動幅度控制參數。
以上這些新提出的方法,加上各模塊的組合,Follow-Your-Click 大大提升了可控圖生視頻的效率和可控性,最終實現了用簡單文本指令來實現影像局部動畫。
One More Thing
小道消息!
Follow-Your-Click 聯合項目組中的騰訊混元大模型團隊,正努力研究和探索多模态技術。
此前,該團隊已經作為技術合作夥伴,支持了《人民日報》的原創視頻《江山如此多嬌》。
該說不說,2024 年,一定是多模态卷到爆炸的一年……
項目主頁:https://follow-your-click.github.io/
論文鏈接:https://arxiv.org/pdf/2403.08268.pdf
GitHub:https://github.com/mayuelala/FollowYourClick