今天小編分享的科學經驗:字節視頻生成新突破!Phantom搞定多人物/主體一致性,歡迎閱讀。
視頻生成模型當中已經不缺強者了,但保持多主體一致性依然是一項重大挑戰。
字節智能創作團隊專門針對這個問題,推出了主體一致性視頻生成模型Phantom(" 幻影 ")。
Phantom 在主體一致性保持方面取得了突破性進展,不僅支持多主體,還能同時保持主體的完整性。
無論是人物、物品、服裝、動物,還是充滿奇幻色彩的虛拟角色,它都能精準抓取其關鍵特征,并自然地融入生成的視頻中。
比如下面這段視頻當中," 幻影 " 就結合了場景、服裝、配飾等要素,原創出了 " 歌劇魅影 " 的片段:
精準抓取關鍵特征,視頻融合更自然身份保持視頻生成
借助面部參考影像,Phantom 生成的視頻不僅能嚴格鎖定主體的身份特征,還能依據豐富多樣的提示詞,演繹出各種精彩内容。
例如,上傳一張人物照片,模型會以此為藍本,生成該人物在不同場景下說話、行動的視頻。
人物的面部輪廓、五官細節以及獨特的表情神态,都能被高度還原,仿佛照片中的人物 " 活 " 了過來,在螢幕上真實地演繹着各種故事。
單參考主體視頻生成
只需一張參考影像,無論是可愛小動物的萌态瞬間,還是時尚服裝的獨特魅力,亦或是神秘虛拟角色的奇幻冒險,Phantom 都能精準捕捉主體的細節,将其生動地呈現在視頻中。
還有下面的小狗照片,Phantom 可以呈現它在溫馨的房間裡歡快奔跑的可愛模樣,柔軟的毛發、靈動的眼神和俏皮的神态,都被細膩地刻畫出來,讓人仿佛能感受到活潑與快樂。
多參考主體視頻生成
Phantom 支持同時上傳多張參考影像,這一強大功能使得復雜互動場景的視頻生成成為可能。
在群體場景創作中,只需上傳多個人物的照片,就能讓他們在視頻中自然地聊天。
在一些產品展示的場景,結合產品圖片和相關場景圖片,Phantom 能生成非常具有吸引力的產品展示視頻,将產品的特點和優勢完美呈現,為產品推廣注入強大動力。
在虛拟試穿場景,只需上傳服裝和人物照片,就能看到人物身着該服裝的動态效果,這有望為電商行業帶來全新的營銷模式,讓消費者的購物體驗更加直觀和有趣。
總之,Phantom 在和一眾領先的商業化工具對比中,從視頻質量,文本響應,主體一致性等多個維度處于優勢,尤其在人臉 ID 一致性方面的評估領先。
基于主體的 DiT 視頻生成方案
目前,基礎視頻生成模型主要集中在兩個主要任務——文本生成視頻(Text-to-Video,T2V)和影像生成視頻(Image-to-Video,I2V)。
視頻生成 T2V 利用語言模型來理解輸入文本指令,并生成描述預期角色、動作和背景的視覺内容。
盡管它允許創造性和富有想象力的内容組合,但由于固有的随機性,往往難以生成一直符合預期的結果。
另一方面,I2V 通常是提供影像的首幀以及可選的文本描述,以将靜态影像轉化為動态視頻。
雖然更具可控性,但内容的豐富度往往受到首幀 " 復制粘貼 " 性質的限制。通過從影像中捕捉主體并根據文本提示靈活生成視頻。
Phantom 是一個基于 DiT 的視頻生成框架,它的主要意圖是實現主體到視頻的生成 ( Subject-to-video,S2V ) 。
其本質在于平衡文本和影像這兩種模式的提示,要求模型同時對齊文本指令和參考影像内容。
從而既滿足 T2V 所發揮創造性的優勢,又不像 I2V 生成的視頻限制為輸入圖的延展。
具體來說,數據層面 Phantom 通過構建文本 - 圖片 - 視頻三元組數據,讓模型學習不同模态之間的對齊。
為了緩解類似 I2V 生成視頻 " 復制粘貼 " 輸入圖的問題,通過匹配不同視頻中的主體元素,并過濾掉具有高度視覺相似性的對象來構建交叉配對數據。
交叉配對數據可以來自同一長視頻的不同片段,也可以來自數據庫中檢索參考對象。這些主體元素主要包括人、動物、物體、背景等等。
此外,多個元素之間的互動可以進一步對場景進行分類,例如多人互動、人與寵物互動、人與物體互動。
模型層面,Phantom 繼承自 MMDiT 的架構。
在輸入頭部分,視頻編碼器和文本編碼器分别繼承自基模權重,将輸入視頻和文本 prompt 分别編碼得到相應的 latent feature。
為了不影響 MMDiT 本身的結構,參考圖被特定視覺編碼器編碼,然後分别與視頻特征和文本特征拼接,并分别輸入到 MMDiT 的 vision branch 和 text branch 進行計算。
團隊簡介
智能創作團隊是字節跳動 AI& 多媒體技術中台,通過建設領先的計算機視覺、音視頻編輯、特效處理等技術,支持抖音、剪映、即夢等公司内眾多產品線;
同時通過火山引擎為外部 ToB 合作夥伴提供業界最前沿的智能創作能力與行業解決方案。
文中示例僅為展示模型效果。如有侵權或冒犯,請聯系論文作者,将及時删除。
E-mail:[email protected]
論文鏈接:
https://arxiv.org/abs/2502.11079
項目網站:
https://phantom-video.github.io/Phantom/
代碼網址:
https://github.com/Phantom-video/Phantom
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
一鍵關注 點亮星标
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!