字節連發兩款AI視頻工具，一句話完成換臉、編輯，網友直呼Runway不香了！

今天小編分享的互聯網經驗：字節連發兩款AI視頻工具，一句話完成換臉、編輯，網友直呼Runway不香了！，歡迎閱讀。

文｜尚恩

編輯｜鄧詠儀

字節正在跑步 AI 化，產品側剛剛宣布對外測試AI 對話產品豆包，又接連一口氣在 Github 上發布兩個 AI 視頻項目。一個主多模态動畫生成，另一個則專注文本導向的視頻編輯。

目前在 Github 上，兩個項目加起來已經拿到 1000+ 星。

來源：公開網絡

不僅如此，還引來大批網友圍觀，有人就直接表示：" 一直想在 TikTok 火，有了 AI 這下可好辦了 "！

來源：Dave Villalva 推特

目前，字節的這倆項目雖已上傳 GitHub 和 arxiv，但還沒有公開代碼，所以想上手玩還得稍等等了。

對此就有不少網友已經等不及，在線求代碼中…

來源：Don Jose Valle 推特

話不多說，來具體看看這倆 AI 視頻生成項目的細節。

AI 捕捉運動信号，一鍵生成視頻

MagicAvatar 由字節跳動開發，是一款主打多模态輸入生成的多模态框架，可以将文本、視頻和音頻等不同輸入方式轉化為動作信号，從而生成和動畫化一個虛拟人物。

具體來說，通過簡單的文本提示就能創建虛拟人物，也可以根據源視頻生成跟随給定動作生產，還能對特定主題的虛拟人物進行動畫化。

比如，輸入 " 一個在火山裡踢踏舞的宇航員 " 就能生成一個相應的虛拟形象。

來源：MagicAvatar

或者直接提供一個源視頻，然後 AI 就會創建一個跟随給定動作的形象。

看過生成效果，不少網友驚呼，Runway 的 Gen-1、Gen-2 不香了！

來源：推特

根據字節團隊的解釋，相比以往直接從多模态輸入生成視頻，MagicAvatar 獨特之處主要是将視頻生成明确分解為兩個階段。

第一階段，主要将多模态輸入（文本、視頻、語音等）轉換為表示運動的信号，如人體姿态、深度信息、DensePose 等。第二階段，則是将第一階段生成的運動信号與外觀描述一起輸入到模型，然後生成視頻。

這裡提一嘴，DensePose 是一種計算機視覺技術，用于将人體在影像上的姿态信息與一個 3D 人體模型進行關聯。

比如，我們想生成一個 " 女子交叉手臂在舞池跳舞 " 的視頻，直接把提示詞投喂給 AI，AI 會先識别生成交叉手臂的動作，然後再生成目标形象。

這樣做的好處優勢在于降低了學習難度，不同模态之間不僅可以使用獨立的數據進行訓練，且不需要所有模态都同時存在的數據集。

另外，MagicAvatar 還支持用戶上傳目标人物的圖片，來為特定人物生成動畫，實現個性化需求。

未來研究團隊表示，還将推出音頻引導形象生成的功能，到時候用戶只用通過音頻輸入就能創建形象，比如說話、唱歌。

三階段訓練，AI 高保真編輯

MagicEdit 是一個文生視頻的編輯工具。用戶只需要自然語言提示，就能輕松地改變視頻的風格、場景甚至替換視頻裡的對象或添加元素，同時保持原視頻的動作和外觀一致，還可以通過視頻混合功能創造出新穎的概念。

比如，把左邊這只小兔子變成一個像兔子的老虎，直接提示 Tiger就搞定。

OS：（雖然看着有點怪，不過意思是到了…）

來源：MagicEdit

具體來說，MagicEdit 可以清晰地分離視頻對象的外觀和動作并進行學習，實現了高質量和時間連貫的視頻編輯。它能夠獨立地處理和優化這兩個方面，然後再将它們合成到一個新的完整的視頻中。這樣做的好處是，編輯過程更加靈活和高效，同時也能保證視頻的質量和時間連貫性。

比如，你正在編輯一個視頻，其中有一個人在跳舞，外觀就是這個人的衣服、發型、臉型等，而動作就是他跳舞的動作。

簡單來說，MagicEdit 就像是一個聰明的導演，它能分别調整這個人的衣服和跳舞動作，然後再把這兩者完美地結合在一起，按照不同個性化需求生成新的視頻。

新視頻可能背景、場景和風格不一樣了，但是保持了原視頻的人物外觀和動作，同時整個視頻看起來既漂亮又流暢。

目前，MagicEdit 支持多種編輯應用，包括視頻風格化、局部編輯、視頻混合（Video-MagicMix 等功能。視頻風格化就是能夠将源視頻轉換成具有特定風格，創建具有不同主題和背景的新場景，比如現實、卡通等。

局部編輯則允許用戶對視頻進行局部修改，同時保持其他區網域不變。視頻混合（Video-MagicMix）就類似于 MagicMix，可以在視頻領網域内混合兩個不同的概念，以創建一個新的概念。

除此以外，MagicEdit 還支持視頻擴展功能，可以在不重新訓練的情況下進行視頻擴展任務。

按照以前的邏輯，視頻擴展通常需要針對此任務特别訓練模型或微調，靈活性比較差。

因此研究團隊，通過在去噪過程中靈活注入反向潛碼（inverse latent）和随機噪聲，這樣可以保證已知區網域不變，未知區網域生成新的内容，然後無需重新訓練就可以直接生成符合提示的新内容，極大提高了視頻擴展比例的魯棒性。

字節海外出品

根據論文顯示，這兩個 AI 視頻項目都是由字節的科學家共同發表，其中五位作者中有四人來自中國，且都曾在字節實驗室做過研究或實習。

通訊作者嚴漢書（Hanshu YAN）是字節跳動新加坡的研究科學家，致力于視頻 / 影像生成模型。

他本科畢業于北京航空航天大學電氣工程專業，碩士和 PhD 都在新加坡國立大學，曾在新加坡海洋人工智能實驗室（Sea AI Lab）實習。

來源：Hanshu YAN

Jun Hao Liew 是字節跳動新加坡的計算機視覺科學家，他本科畢業于英國倫敦大學學院（UCL）的電子電氣工程專業，碩士和 PhD 則是在新加坡國立大學就讀，曾在 Adobe 實習。據 Google Scholar 顯示，目前其論文引用量已經有 1400 多。

來源：GoogleScholar

其他幾位作者，也都是在新加坡讀博，并在字節跳動新加坡參與科研。

加速布局 AI 視頻

2023 年的字節跳動在 AI 領網域的布局，确實可以用加速跑來形容。

從近期大模型雲雀獲批，到剛剛對外測試 AI 對話產品的豆包，以及 6 月字節跳動旗下火山引擎發布大模型服務平台 " 火山方舟 "，面向企業提供模型精調、評測、推理等全方位的平台服務。

來源：火山引擎

而作為一家以短視頻起家的互聯網公司，除了深耕 TikTok、抖音等平台外，視頻一直是字節的強關注領網域。

比如今年 4 月字節就在美國上架了一款以照片、視頻為主的應用程式 Lemon8，類似于海外的 Instagram 和 Pinterest 的混合體。除此以外，字節跳動旗下的另一款視頻編輯工具 "CapCut"，在蘋果應用商店中被列為美國最受歡迎的應用軟體之一。

雖然短視頻業務市場占有率不低，但要論擁抱 AI 的速度，字節确實說不上快。對比之下，前段時間美圖發布 2023 上半年财報，得益于 AI 視頻、繪圖等 AIGC 功能的推出，總收入 12.61 億人民币，同比增長了 29.8%。

The Information 此前報道表示，字節跳動 2022 年總收入達到了 850 億美元，同比增長 38%，主要收入來自 TikTok、視頻遊戲和企業軟體等，AI 還未能給字節帶來任何巨大收益。

長按添加「智湧」小助手入群，備注：公司 + 職務