阿裡EMO模型，一張照片就能造謠

今天小編分享的互聯網經驗：阿裡EMO模型，一張照片就能造謠，歡迎閱讀。

出品｜虎嗅科技組

作者｜齊健

編輯｜王一鵬

頭圖｜EMO

2 月 28 日，阿裡巴巴智能計算研究所發布了一款全新的生成式 AI 模型 EMO（Emote Portrait Alive）。EMO 僅需一張人物肖像照片和音頻，就可以讓照片中的人物按照音頻内容 " 張嘴 " 唱歌、說話，且口型基本一致，面部表情和頭部姿态非常自然。

EMO 不僅能夠生成唱歌和說話的視頻，還能在保持角色身份穩定性的同時，根據輸入音頻的長度生成不同時長的視頻。

您目前設備暫不支持播放角色：張頌文飾演的高啟強

聲樂來源：法律考試在線課程

您目前設備暫不支持播放

角色：Audrey Kathleen Hepburn-Ruston

聲樂來源：Ed Sheeran - Perfect. Covered by Samantha Harvey

您目前設備暫不支持播放

角色：來自 SORA 的 AI Lady

聲樂來源：Where We Go From Here with OpenAI's Mira Murati

您目前設備暫不支持播放

角色：蔡徐坤

聲樂來源：Eminem - Rap God

角色：張國榮

聲樂來源：陳奕迅 - Eason Chan - Unconditional. Covered by AI ( 粵語 )

EMO 的工作過程分為兩個主要階段：首先，利用參考網絡（ReferenceNet）從參考影像和動作幀中提取特征；然後，利用預訓練的音頻編碼器處理聲音并嵌入，再結合多幀噪聲和面部區網域掩碼來生成視頻。該框架還融合了兩種注意機制和時間模塊，以确保視頻中角色身份的一致性和動作的自然流暢。

這個過程相當于，AI 先看一下照片，然後打開聲音，再随着聲音一張一張地畫出視頻中每一幀變化的影像。

EMO 的技術報告中稱：實驗結果表明，EMO 不僅能夠產生令人信服的說話視頻，還能生成各種風格的歌唱視頻，顯著優于現有的先進方法，如 DreamTalk、Wav2Lip 和 SadTalker，無論是在表現力還是真實感方面。

目前，研究團隊認為該模型的潛在應用方向将集中在：提高數字媒體和虛拟内容生成技術水平，特别是在需要高度真實感和表現力的場景中。

然而在另一些人看來，EMO 模型卻很可能成為别有用心的人手中的犯罪工具。

AI 生成視頻日益危險

事實上，與 EMO 類似的多數研究，對于技術濫用的可能性讨論的都相對較少。EMO 的技術報告中也沒有直接提及 EMO 模型是否可能被用于非法用途。

然而，基于深度學習和生成模型的技術，如 EMO，确實存在被濫用的風險，例如生成虛假内容、侵犯隐私或個人形象權等。

生成式 AI 技術的快速發展，在刺激全社會正向發展的同時也給很多黑色、灰色產業提供了新技術。

LLaMA 等開源大語言模型剛剛興起時，就有一些不法分子利用 AI 生成詐騙腳本。某互聯網金融機構專家告訴虎嗅，AI 生成的詐騙腳本内容更多變，在一定程度上增加了利用技術手段甄别詐騙的難度。

不過語言模型即便對于不法分子來說，也并不容易找到應用場景。DeepFake（深度偽造）的 " 主戰場 " 目前仍在圖片和視頻生成領網域。

深度偽造技術是通過 AI 創建或修改圖片、視頻和音頻内容，使之看起來像是真實的，但實際上是虛構的。這種技術的高度真實性和易于獲取的特點，使其應用範圍廣泛，但同時也帶來了一系列道德和法律上的挑戰。

距離今天最近的 DeepFake 案件就是 2024 年 1 月下旬 AI 合成 Taylor Swift 色情圖片事件。這些圖片在社交媒體平台 4chan 和 X（以前稱為 Twitter）上大量傳播，據外媒報道，其中一篇帖子在最終被删除之前已被浏覽超過 4700 萬次。有人認為斯威夫特的影響力可能會導致關于制作深度偽造色情内容的新立法。

除了著名歌星之外，深度偽造技術也曾被應用在一些危險的政治鬥争中。美國非黨派倡導組織 RepresentUs 曾利用深度偽造技術發布廣告，偽造普京和金 X 恩的講話，暗指普京正在操縱美國大選。雖然這兩則視頻都以 " 這段視頻不是真實的，但威脅是真實的 "這樣的免責聲明結尾，但對于辨别能力較弱的普通民眾來說，如果這樣的偽造視頻大規模傳播，仍是有可能造成嚴重的後果。

雖然多數生成式 AI 技術開發的目的都是用于創新和教育，但其在法律方面的潛在負面影響，尤其是在侵犯個人隐私、扭曲信息真相和影響政治過程方面，需要得到社會、立法機構和技術公司的足夠重視。

如何規避 DeepFake 風險？

目前，開發和應用此類技術時，研究者和開發者需考慮到這些潛在風險，并采取适當的措施來減輕這些風險，例如通過加入水印、制定使用準則等方式。

為了應對深度偽造視頻和影像的挑戰，目前已經開發了很多技術和法律手段，來識别偽造内容，并限制技術使用範圍，包括加水印，制定嚴格的使用準則等方式。

Nature 在 2023 年 5 月刊登的一篇論文中，介紹了一種通過機器學習（ML）和深度學習（DL）技術來檢測和分類深度偽造影像的方法。這個框架利用預處理方法找到錯誤級别分析（ELA），然後使用深度 CNN 架構提取深層特征，這些特征随後通過 SVM 和 KNN 進行分類，準确率達到了 89.5%。

MIT Media Lab 也在積極研究相關項目，一項名為 Detect DeepFakes 的項目，可以通過識别 AI 生成的錯誤信息的微妙迹象來對抗誤導信息。該項目組認為，深度偽造視頻有一些細微的标志，比如面部的不自然平滑或陰影位置不正确等，可以幫助人們識别出深度偽造内容。

很多科技巨頭也針對 DeepFake 推出了一些檢測技術。Intel 就研發了一款名為 FakeCatcher 的實時深度偽造檢測器，該技術可以在毫秒級返回結果，準确率高達 96%。FakeCatcher 通過評估視頻像素中的微妙 " 血流 " 變化來尋找真實視頻的線索，然後使用深度學習即時檢測視頻是真實還是偽造。

Google 的 Assembler 實驗平台，則可以幫助記者和事實核查員快速驗證影像。雖然 Assembler 是一個積極的步驟，但它不涵蓋視頻的許多其他現有操縱技術，技術解決方案本身并不足以解決數字偽造的所有挑戰。

此外，也有一些專門的機構在提供這方面的服務。Sentinel 是一家基于 AI 的保護平台，用戶可以通過其網站或 API 上傳數字媒體，系統将自動分析媒體是否為 AI 偽造，并提供操縱的可視化表示。

然而，道高一尺魔高一丈。生成式 AI 技術的快速發展，或許很快就會使這些檢測技術和工具中的一部分失效。

例如 EMO 模型，即使在缺乏明顯線索的情況下，也能創建出逼真的視頻。另一方面，如果視頻内容的復雜性過高，或視頻質量過低，也可能會大大影響檢測工具的準确性。

EMO 技術報告解讀

EMO 模型的訓練數據集使用了超過 250 小時的視頻和超過 1.5 億張影像。這個數據集包含了廣泛的内容，包括演講、電影和電視剪輯以及歌唱表演，涵蓋了多種語言，如中文和英文。這确保了訓練材料能夠捕捉到人類表達和聲音風格的廣泛光譜。

在模型架構方面，EMO 采用了與 Stable Diffusion 相似的 UNet 結構，其中包含了用于視頻幀生成的時間模塊。

訓練分為三個階段，影像預訓練、視頻訓練和速度層訓練。在影像預訓練階段，網絡以單幀影像為輸入進行訓練。在視頻訓練階段，引入時間模塊和音頻層，處理連續幀。速度層訓練專注于調整角色頭部的移動速度和頻率。

使用了大約 250 小時的 talking head 視頻，來自互聯網和 HDTF 以及 VFHQ 數據集，VFHQ 數據集在第一階段訓練時使用，因為它不包含音頻。

視頻剪輯被重置和裁剪到 512×512 的分辨率。在第一訓練階段，批處理大小設定為 48。在第二和第三訓練階段，生成視頻長度設定為 f=12，運動幀數設定為 n=4，訓練的批處理大小為 4。

學習率在所有階段均設定為 1e-5。在推理時，使用 DDIM 的采樣算法生成視頻剪輯，為每一幀生成指定一個恒定的速度值。生成一批（f=12 幀）的時間大約為 15 秒。

這些詳細信息提供了對 EMO 模型訓練和其參數配置的深入了解，突顯了其在處理廣泛和多樣化數據集方面的能力，以及其在生成富有表現力和逼真肖像視頻方面的先進性能。

EMO 模型有如下特點：

直接音頻到視頻合成：EMO 采用直接從音頻合成視頻的方法，無需中間的 3D 模型或面部标志，簡化了生成過程，同時保持了高度的表現力和自然性。

無縫幀過渡與身份保持：該方法确保視頻幀之間的無縫過渡和視頻中身份的一致性，生成的動畫既生動又逼真。

表達力與真實性：實驗結果顯示，EMO 不僅能生成令人信服的說話視頻，而且還能生成各種風格的歌唱視頻，其表現力和真實性顯著超過現有的先進方法。

靈活的視頻時長生成：EMO 可以根據輸入音頻的長度生成任意時長的視頻，提供了極大的靈活性。

面向表情的視頻生成：EMO 專注于通過音頻提示生成表情豐富的肖像視頻，特别是在處理說話和唱歌場景時，可以捕捉到復雜的面部表情和頭部姿态變化。

這些特點共同構成了 EMO 模型的核心競争力，使其在動态肖像視頻生成領網域表現出色。

EMO 模型的工作原理

預訓練音頻編碼器：EMO 使用預訓練的音頻編碼器（如 wav2vec）來處理輸入音頻。這些編碼器提取音頻特征，這些特征随後用于驅動視頻中的角色動作，包括口型和面部表情。

參考網絡（ReferenceNet）：該網絡從單個參考影像中提取特征，這些特征在視頻生成過程中用于保持角色的身份一致性。ReferenceNet 與生成網絡（Backbone Network）并行工作，輸入參考影像以獲取參考特征。

骨幹網絡（Backbone Network）：Backbone Network 接收多幀噪聲（來自參考影像和音頻特征的結合）并嘗試将其去噪為連續的視頻幀。這個網絡采用了類似于 Stable Diffusion 的 UNet 結構，其中包含了用于維持生成幀之間連續性的時間模塊。

注意力機制：EMO 利用兩種形式的注意力機制——參考注意力（Reference-Attention）和音頻注意力（Audio-Attention）。參考注意力用于保持角色身份的一致性，而音頻注意力則用于調整角色的動作，使之與音頻信号相匹配。

時間模塊：這些模塊用于操縱時間維度并調整動作速度，以生成流暢且連貫的視頻序列。時間模塊通過自注意力層跨幀捕獲動态内容，有效地在不同的視頻片段之間維持一致性。

訓練策略：EMO 的訓練分為三個階段：影像預訓練、視頻訓練和速度層訓練。在影像預訓練階段，Backbone Network 和 ReferenceNet 在單幀上進行訓練，而在視頻訓練階段，引入時間模塊和音頻層，處理連續幀。速度層的訓練在最後階段進行，以細化角色頭部的移動速度和頻率。

去噪過程：在生成過程中，Backbone Network 嘗試去除多幀噪聲，生成連續的視頻幀。去噪過程中，參考特征和音頻特征被結合使用，以生成高度真實和表情豐富的視頻内容。

EMO 模型通過這種結合使用參考影像、音頻信号、和時間信息的方法，能夠生成與輸入音頻同步且在表情和頭部姿勢上富有表現力的肖像視頻，超越了傳統技術的限制，創造出更加自然和逼真的動畫效果。