今天小編分享的科學經驗:AI視頻又炸了!照片+聲音變視頻,阿裡讓Sora女主唱歌小李子說rap,歡迎閱讀。
Sora 之後,居然還有新的 AI 視頻模型,能驚豔得大家狂轉狂贊!
有了它,《狂飙》大反派高啟強化身羅翔,都能給大夥兒普法啦(狗頭)。
這就是阿裡最新推出的基于音頻驅動的肖像視頻生成框架,EMO(Emote Portrait Alive)。
有了它,輸入單張參考影像,以及一段音頻(說話、唱歌、rap 均可),就能生成表情生動的 AI 視頻。視頻最終長度,取決于輸入音頻的長度。
你可以讓蒙娜麗莎——這位 AI 屆效果體驗的老選手,朗誦一段獨白:
年輕俊美的小李子來段快節奏的 rap 才藝秀,嘴形跟上完全沒問題:
甚至粵語口型也能 hold 住,這就讓哥哥張國榮來首陳奕迅的《無條件》:
總之,不管是讓肖像唱歌(不同風格的肖像和歌曲)、讓肖像開口說話(不同語種)、還是各種 " 張冠李戴 " 的跨演員表演,EMO 的效果,都讓咱看得一愣一愣的。
網友大感嘆:" 我們正在走進一個新的現實!"
(2019 版《小醜》說 2008 版《蝙蝠俠黑暗騎士》的台詞)
甚至已經有網友開始對 EMO 生成視頻開始了拉片,逐幀分析效果究竟怎麼樣。
如下面這段視頻,主角是Sora 生成的 AI 女士,本次為大家演唱的曲目是《Don ’ t Start Now》。
推友分析道:
這段視頻的一致性,比以往更上一層樓了!
一分多鍾的視頻裡,Sora 女士臉上的墨鏡幾乎沒有亂動,耳朵、眉毛都有獨立的運動。
最精彩的是 Sora 女士的喉嚨好像真的有呼吸哎!她唱歌的過程中身體還有微顫和移動,我直接大震驚!
話說回來,EMO 是熱門新技術嘛,免不了拿來與同類對比——
就在昨天,AI 視頻生成公司Pika也推出了為視頻人物配音,同時 " 對口型 " 的唇形同步功能,撞車了。
具體效果怎麼樣呢,我們直接擺在這兒
評論區網友對比過後得出的結論是,被阿裡吊打了。
EMO 公布論文,同時宣布開源。
但是!雖說開源,GitHub 上仍然是空倉。
再但是!雖然是空倉,标星數已經超過了 2.1k。
惹得網友們真的是好着急,有吉吉國王那麼急。
與 Sora 不同架構
EMO 論文一出,圈内不少人松了口氣。
它與 Sora 技術路線不同,說明復刻 Sora 不是唯一的路。
EMO 并不是建立在類似 DiT 架構的基礎上,也就是沒有用 Transformer 去替代傳統 UNet,其骨幹網絡魔改自 Stable Diffusion 1.5。
具體來說,EMO 是一種富有表現力的音頻驅動的肖像視頻生成框架,可以根據輸入視頻的長度生成任何持續時間的視頻。
該框架主要由兩個階段構成:
幀編碼階段
部署一個稱為 ReferenceNet 的 UNet 網絡,負責從參考影像和視頻的幀中提取特征。
擴散階段
首先,預訓練的音頻編碼器處理音頻嵌入,人臉區網域掩模與多幀噪聲相結合來控制人臉影像的生成。
随後是骨幹網絡主導去噪操作。在骨幹網絡中應用了兩種注意力,參考注意力和音頻注意力,分别作用于保持角色的身份一致性和調節角色的運動。
此外,時間模塊被用來操縱的時間維度,并調整運動的速度。
在訓練數據方面,團隊構建了一個包含超過 250 小時視頻和超過 1500 萬張影像的龐大且多樣化的音視頻數據集。
最終實現的具體特性如下:
可以根據輸入音頻生成任意持續時間的視頻,同時保證角色身份一致性(演示中給出的最長單個視頻為 1 分 49 秒)。
支持各種語言的交談與唱歌(演示中包括普通話、廣東話、英語、日語、韓語
支持不同畫風(照片、傳統繪畫、漫畫、3D 渲染、AI 數字人)
在定量比較上也比之前的方法有較大提升取得 SOTA,只在衡量口型同步質量的 SyncNet 指标上稍遜一籌。
與其他不依賴擴散模型的方法相比,EMO更耗時。
并且由于沒有使用任何顯式的控制信号,可能導致無意中生成手等其他身體部位,一個潛在解決方案是采用專門用于身體部位的控制信号。
EMO 的團隊
最後,來看看 EMO 背後的團隊有那些人。
論文顯示,EMO 團隊來自阿裡巴巴智能計算研究院。
作者共四位,分别是 Linrui Tian,Qi Wang,Bang Zhang 和 Liefeng Bo。
其中,薄列峰(Liefeng Bo),是目前的阿裡巴巴通義實驗室 XR 實驗室負責人。
薄列鋒博士畢業于西安電子科技大學,先後在芝加哥大學豐田研究院和華盛頓大學從事博士後研究,研究方向主要是 ML、CV 和機器人。其谷歌學術被引數超過 13000。
在加入阿裡前,他先是在亞馬遜西雅圖總部任首席科學家,後又加入京東數字科技集團 AI 實驗室任首席科學家。
2022 年 9 月,薄列峰加入阿裡。
EMO 已經不是第一次阿裡在 AIGC 領網域出圈的成果了。
有 AI 一鍵換裝的OutfitAnyone。
還有讓全世界小貓小狗都在跳洗澡舞的AnimateAnyone。
就是下面這個:
如今推出 EMO,不少網友在感嘆,阿裡是有些技術積累在身上的。
如果現在把所有這些技術結合起來,那效果……
不敢想,但好期待。
總之,我們離 " 發給 AI 一個劇本,輸出整部電影 " 越來越近了。
One More Thing
Sora,代表文本驅動的視頻合成的斷崖式突破。
EMO,也代表音頻驅動的視頻合成一個新高度。
兩者盡管任務不同、具體架構不同,但還有一個重要的共性:
中間都沒有加入顯式的物理模型,卻都在一定程度上模拟了物理規律。
因此有人認為,這與 Lecun 堅持的 "通過生成像素來為動作建模世界是浪費且注定要失敗的 "觀點相悖,更支持了 Jim Fan 的" 數據驅動的世界模型 "思想。
過去種種方法失敗了,而現在的成功,可能真就來自還是強化學習之父 Sutton 的《苦澀的教訓》,大力出奇迹。
讓 AI 能夠像人們一樣去發現,而不是包含人們發現的内容
突破性的進展最終通過擴大計算規模來實現
論文:
https://arxiv.org/pdf/2402.17485.pdf
GitHub:
https://github.com/HumanAIGC/EMO
參考鏈接:
[ 1 ] https://x.com/swyx/status/1762957305401004061