字節AI版小李子一開口：黃風嶺，八百裏 - 大酷樂

今天小編分享的科學經驗：字節AI版小李子一開口：黃風嶺，八百裏，歡迎閲讀。

字節和浙大聯合研發的項目Loopy火了！

只需一幀影像，一段音頻，就能生成一段非常自然的視頻！

研究團隊還放出了 Loopy 和同類應用的對比視頻：

網友下場齊誇誇：

Loopy 背後的技術有點牛哦！感覺互動媒體有新未來了！

前途無量奧！

真這麼牛？咱們一起來看一下！

Loopy 的生成效果

研究團隊放出了一些 DEMO 視頻，内容腦洞跨度有點大！

比如讓小李子唱《黑神話》靈吉菩薩的陝北説書（高音時還會皺眉）：

讓兵馬俑滿口英倫腔：

蒙娜麗莎張口説話：

梅梅自帶 Bgm 説古裝台詞（甚至還有挑眉的小動作）：

狼叔的側顏照也難不倒它：

嘆息聲的細節也能處理得很好：

真人肖像的效果也很自然（甚至説話時眼睛還會順勢看向其他方向）：

Loopy 如何 " 告别割裂感 "？

看完這些毫無違和感 DEMO 視頻，咱們來研究一下 Loopy 是如何生成這類視頻的：

總的來説，Loopy 是一個端到端的音頻驅動視頻生成模型。

它的框架可以由四部分構成，分别是：

ReferenceNet：一個額外的網絡模塊，它復制了原始 SD U-Net 的結構，以參考影像的潛在表示作為輸入，來提取參考影像的特征。

DenoisingNet：一個去噪的 U-Net，負責從噪聲輸入生成最終的視頻幀。

在 DenoisingNet 的空間注意力層中，ReferenceNet 提取的參考影像特征會與 DenoisingNet 的特征在 token 維度上進行拼接。

這樣做是為了讓 DenoisingNet 能夠選擇性地吸收 ReferenceNet 中與當前特征相關的影像信息，從而在生成過程中保持影像的視覺一致性。

簡單來説，通過結合這兩個網絡的特征，DenoisingNet 能夠更好地利用參考影像的細節，提升生成結果的質量和連貫性。

Apperance：Loopy 的外觀模塊，主要接收參考影像和運動幀影像，然後将它們壓縮成特殊的數字編碼 ( 潛在向量 ) 。

運動幀的潛在向量經過 " 時間序列模塊 " 處理，與參考影像的潛在向量拼在一起。這樣就融合了參考信息和動作信息。

然後将拼接後的潛在向量輸入 ReferenceNet 模塊中，生成一張特征圖，标注着重要的視覺信息，方便供後續去噪模塊使用。

Audio：Loopy 的音頻模塊。模型先是使用 Wav2Vec 網絡提取音頻特征，并将每層的特征連接起來，形成多尺度音頻特征。

然後對于每一幀視頻，将前兩幀和後兩幀的音頻特征連接，形成一個包含 5 幀音頻特征的序列，作為當前幀的音頻信息。

最後在每個殘差塊中，使用 " 交叉注意力 " 機制，将音頻特征與視覺特征結合，計算出一個關注的音頻特征，并将其與視覺特征相加，生成新的特征。

值得一提的是，模型中也涉及到了一個 Audio2Latent 模塊，這個模塊可以将音頻信息映射到共享的運動潛在空間，進一步幫助模型理解音頻與視頻中人物動作之間的關系。

研究團隊的實驗結果如下：

One more thing

值得一提的是，在 Loopy 之前，字節和浙大就已經聯合研發出了一款類似的項目CyberHost。

但與 Loopy 不同的是，CyberHost 是一個端到端音頻驅動的人類動畫模型。

團隊同樣也放出了 DEMO 視頻：

Loopy 和 CyberHost 的相關鏈接都已附上，感興趣的小夥伴們可以了解一下 ~

Loopy 論文地址：arxiv.org/pdf/2409.02634

Loopy 項目地址：https://loopyavatar.github.io/

CyberHost 論文地址：https://arxiv.org/pdf/2409.01876

CyberHost 項目地址：https://cyberhost.github.io/