騰訊混元最新圖生視頻模型！想動哪裡點哪裡，諸葛青睜眼原來長這樣

今天小編分享的科學經驗：騰訊混元最新圖生視頻模型！想動哪裡點哪裡，諸葛青睜眼原來長這樣，歡迎閱讀。

單擊畫面中的火箭，輸入 " 發射 "prompt，瞬間起飛！

就連想要回收火箭，也只需要輸入 "Launch down"，再輕輕一點擊：

馬斯克看了都要自我懷疑一下，這火箭發射這麼簡單，自家星艦成功進入太空怎麼那麼難（開個小玩笑）？？

以上效果來自一個新的圖生視頻模型Follow-Your-Click，由騰訊混元、清華大學和香港科技大學聯合推出。

食用方法非常友好：

任意一張照片輸入模型，只需要點擊對應區網域，加上少量簡單的提示詞，就可以讓圖片中原本靜态的區網域動起來，一鍵轉換成視頻。

就連《一人之下》的諸葛青和《唐伯虎點秋香》裡的星爺也……

相關研究論文已經挂上了 arXiv，GitHub 上也放出代碼，首日就小有戰績，攬星 280+。

想動哪裡點哪裡，so easy

注意看這個樓梯上的動畫小鼠形象，只需單擊小鼠腹部，再輸入 " 跳舞 "，它就能瞬間扭動起來。

同時，畫面的其他部分保持原有的靜止狀态。

不只是人物、卡通形象可以控制，圖片的其餘部分，通過點擊和輸入簡短提示詞，也能動起來。

進一步測試，是可以實際感知到 Follow-Your-Click 對畫面動态部分的精準控制的。

同樣是鳥圖，點擊小鳥，輸入 " 動動腦袋 "：

輸入 " 扇扇翅膀 "：

輸入 " 跳個舞吧 "：

輸入 " 不如搖擺 "：

總結，就是想要哪裡動，就點哪裡。

研究團隊還将 Follow-Your-Click 和其他視頻生成模型進行了同題對比，以下是實驗效果：

一鍵點，萬物動

此前圖生視頻模型的生成方法，一般都需要用提示詞描述運動區網域，并提供運動指令的詳細描述。

從生成效果來看，過往技術在指定影像移動部分缺乏控制，往往是讓整個場景動起來，而不是具體到影像上的某個區網域。

為了解決這些問題，騰訊混元大模型團隊、清華和港科大聯合項目提出了更實用和可控的影像到視頻生成模型 Follow-Your-Click。

實現方式上，Follow-Your-Click 首先整合了影像語義分割工具 Segment-Anything，将用戶點擊轉換為二進制區網域 Mask，将其作為網絡條件之一。

其次，為了更好地正确學習時間相關性，團隊還引入了一種有效的首幀掩模策略。

這種方式對模型生成的視頻質量有較大的性能提升，不論是在畸變還是首幀的重構效果上都有很大的幫助。

此外，為了實現簡短提示詞的文字驅動能力，研究團隊構建了一個名為 WebVid-Motion 的數據集——利用大模型來過濾和注視視頻标題，并強調人類情感、動作和常見物體的運動，通過數據集提升模型對動詞的響應和識别能力。

聯合研究團隊還設計了一個運動增強模塊，主要用途一方面是更好地适應數據集，一方面用來增強模型對運動相關詞語的響，同時理解簡短提示指令。

在視頻中，不同類型的物體可能表現出不同的運動速度。

以往的工作中，每秒幀數（FPS）主要作為全局的動作幅度控制參數，間接調整多個物體的運動速度。然而，它無法有效控制移動物體的速度。

舉個，一個展示雕塑的視頻可能具有很高的 FPS，但是沒有物體的運動速度。

為了實現對運動速度的準确學習，研究團隊提出了一種基于光流的運動幅度控制，使用光流模長作為新的視頻運動幅度控制參數。

以上這些新提出的方法，加上各模塊的組合，Follow-Your-Click 大大提升了可控圖生視頻的效率和可控性，最終實現了用簡單文本指令來實現影像局部動畫。

One More Thing

小道消息！

Follow-Your-Click 聯合項目組中的騰訊混元大模型團隊，正努力研究和探索多模态技術。

此前，該團隊已經作為技術合作夥伴，支持了《人民日報》的原創視頻《江山如此多嬌》。

該說不說，2024 年，一定是多模态卷到爆炸的一年……

項目主頁：https://follow-your-click.github.io/

論文鏈接：https://arxiv.org/pdf/2403.08268.pdf

GitHub：https://github.com/mayuelala/FollowYourClick