今天小編分享的科學經驗:微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”,歡迎閲讀。
AI 偽造真人視頻,門檻再次降低。
微軟發布一張圖生成數字人技術VASA-1,網友看過直呼 " 炸裂級效果 ",比 "AI 劉強東還真 "。
話不多説,直接上一分鍾演示視頻:
做到以假亂真效果,不用針對特定人物訓練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行。
比如可以讓蒙娜麗莎唱 Rap,模仿安妮海瑟薇即興吐槽狗仔隊名場面。
或者讓素描人像念華強台詞。
在項目主頁還有更多 1 分鍾視頻,以及更更多 15 秒視頻可看。
不同性别、年齡、種族的數字人,用着不同的口音在説話。
根據團隊在論文中的描述,VASA-1 擁有如下特點:
唇形與語音的精準同步
這是最基本的,VASA-1 在定量評估中也做到了頂尖水平。
豐富而自然的面部表情
不光做到讓照片 " 開口説話 ",眉毛、眼神、微表情等也跟着協調運動,避免顯得呆板。
人性化的頭部動作
説話時适當的點頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有説服力。
總得來説,仔細看的話眼睛還有一些破綻,但已經被網友評為" 迄今為止最佳演示 "。
然而更恐怖的是,整個系統推理速度還是實時級的。
生成 512x512 分辨率的視頻,使用一塊英偉達 RTX4090 顯卡就能跑到 40fps。
那麼,Vasa-1 是如何做到這些的呢 ?
3 大關鍵技術,Sora 同款思路
一句話概括:
不是直接生成視頻幀,而是在潛空間中生成動作編碼,再還原成視頻。
是不是和 Sora 的思路很像了?
其實 VASA-1 的模型架構選擇 Diffusion Transformer,也與 Sora 核心組件一致。
據論文描述,背後還有 3 大關鍵技術 :
人臉潛編碼學習,這部分是高度解耦的。
團隊從數百萬個真實的説話視頻中,學習到一個理想的人臉特征空間。
把身份、外觀、表情、姿态等因素在隐空間裏剝離開。這樣一來,同一個動作就能驅動不同的臉,換成誰都很自然。
頭部運動生成模型,這部分又是高度統一的。
不同于之前的方法分别建模嘴唇、眼神、眉毛、頭部姿态等局部動作,VASA-1 把所有面部動态統一編碼,用 Diffution Transfromer 模型,也就是 SORA 同款核心組件,來建模其概率分布。
這樣既能生成更協調自然的整體動作,又能借助 transformer 強大的時序建模能力,學習長時依賴。
比如給定一組原始序列(下圖第一列),最終可以做到:
用原始頭部姿态,改變面部表情(第二列)
用原始面部表情,改變頭部姿态(第三列)
用原始面部表情,生成全新的頭部姿态(第四列)
最後是高效率推理。
為了實現秒實時合成,團隊對擴散模型的推理過程進行了大量優化。
此外,Vasa-1 還允許用户輸入一些可選的控制信号,比如人物的視線方向、情緒基調等,進一步提升了可控性。
AI 造假成本越來越低了
被 VASA-1 效果震驚過後,很多人開始思考,把 AI 數字人做到如此逼真,發布這樣一個技術真的合适嗎?
畢竟用 AI 偽造音頻視頻詐騙的例子,我們已經見過太多。
就在 2 個多月前,還有一起的案件發生。
微軟團隊也意識到了這一問題,并作出如下聲明:
我們的研究重點是為數字人生成視覺情感,旨在實現積極的應用。無意創建用于誤導或欺騙的内容。
然而,與其他相關内容生成技術一樣,它仍然可能被濫用于模仿人類。
我們反對任何創造真實人物的誤導性或有害内容的行為,并且有興趣應用我們的技術來推進偽造檢測……
目前 VASA-1 只發布了論文,看來短時間内也不會發布 Demo 或開源代碼了。
微軟表示,該方法生成的視頻仍然包含可識别的痕迹,數值分析表明,距離真實視頻的真實性仍有差距。
不上專業評估手段,肉眼看的話,仔細挑刺或直接對比真人視頻,确實也能發現目前 VASA-1 演示視頻中的一些瑕疵。
比如牙齒偶爾會變形。
以及眼神還不像真人那麼豐富。(眼睛确實是心靈的窗户啊)
但是以"AIGC 一天,人間一年 "的進步速度來看,修復這些瑕疵恐怕也不用很久。
以及你能保證每時每刻都保持警惕分辨視頻真假麼?
眼見不再為實。默認不相信任何視頻,成了很多人今天做出的選擇。
不管怎麼樣,正如一位網友總結。
我們無法撤銷已經完成的發明,只能擁抱未來。
論文地址:
https://arxiv.org/abs/2404.10667
參考鏈接:
[ 1 ] https://www.microsoft.com/en-us/research/project/vasa-1/
[ 2 ] https://x.com/bindureddy/status/1780737428715950460
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>