免費AI“神器”系列第14彈：Sora競品可生成2分鍾視頻；谷歌Vlogger能讓影像説話 - 大酷樂

今天小編分享的财經經驗：免費AI“神器”系列第14彈：Sora競品可生成2分鍾視頻；谷歌Vlogger能讓影像説話，歡迎閲讀。

近期，生成式人工智能（AIGC）領網域又湧現出多款創意十足的新應用。

今天，钛媒體 AGI 梳理了免費 AI " 神器 " 系列第十四彈，共五款，其中不少產品再一次拓寬了我們對 AI 的想象力。

120 秒超長 AI 視頻模型—— StreamingT2

即插即用的視頻轉視頻框架—— AnyV2V

谷歌圖生視頻模型—— Vlogger

文本轉視頻模型—— Hotshot ACT-1

AI 視頻生成模型—— Motion-I2V

1、120 秒超長 AI 視頻模型—— StreamingT2

產品信息：StreamingT2 是由 Picsart AI Research、UT Austin 和 Shi Labs 的研究團隊共同開發的一款文生視頻模型，該模型突破了以往 AI 視頻長度限制，可生成長達 2 分鍾的長視頻。StreamingT2 的發布将視頻生成技術推向了新高度，也被稱為 Sora 的強勁對手。

產品功能： StreamingT2V 可以根據用户的文字提示生成長達 120 秒的長視頻，同時，StreamingT2V 将條件注意力模塊（CAM）和外觀保持模塊 ( APM ) 核心構架結合，使得生成的視頻與文本描述緊密相關且動态連續，展現高動态效果和時間一致性。

此外，StreamingT2V 的實現方法分為初始化、Streaming T2V 生成和 Streaming Refinement 三個階段，保證了視頻生成的高質量和高分辨率，并且 StreamingT2V 的高效能并不局限于特定的模型，這意味着随着技術的進步，視頻質量還有進一步提升的空間。

項目及演示：https://streamingt2v.github.io

論文地址：https://arxiv.org/abs/2403.14773

2、即插即用的視頻轉視頻框架—— AnyV2V

產品信息：AnyV2V 是一款無需訓練，即插即用的 AI 視頻編輯框架，該框架由滑鐵盧大學、Vector Institute 和 Harmony.AI 團隊共同開發，旨在幫助用户簡化視頻創作流程，提高視頻制作效率。

產品功能：AnyV2V 不僅支持對源視頻進行深度編輯與修改，還能按照輸入文本提示，主題或風格等，生成對應新視頻。

具體來看，AnyV2V 将視頻編輯簡化為了兩個主要步驟：首先，AnyV2V 可以插入任何現有的影像編輯工具，從而支持多個視頻編輯任務。其次，AnyV2V 可以插入任何現有的影像視頻模型，執行 DDIM 反轉和中間特征注入，從而保持與源視頻的外觀和運動一致性。

此外， AnyV2V 還可以支持視頻編輯任務，包括基于參考的風格轉換、主題驅動編輯和身份處理。

項目地址：https://tiger-ai-lab.github.io/AnyV2V/

論文地址：https://huggingface.co/papers/2403.14468

3、谷歌圖生視頻模型—— Vlogger

產品信息：Vlogger 是谷歌推出的一款圖生視頻技術框架，該框架是基于 MENTOR 數據庫訓練而來，數據庫中包含超過 80 萬名人物肖像，以及累計超過 2200 小時的影片，使得 VLOGGER 可以生成不同種族、不同年齡、不同穿着、不同姿勢的人物視頻。

產品功能：用户只需上傳一張人物圖片＋音頻檔案，就能實現讓人物開口説話，生成一段人像與音頻完美貼合且流暢的視頻，并能做到視頻中人物面部表情及肢體動作都相當自然且生動。

團隊成員表示，和業内此前的同類方法相比，VLOGGER 最大的優勢體現在不需要對每個人進行訓練、也不依賴于面部檢測和裁剪，并且生成的視頻很完整（既包括面部和唇部，也包括肢體動作）等等。此外，Vlogger 還具有視頻編輯和翻譯等應用，能夠讓人物閉嘴、閉眼，甚至進行視頻翻譯。

項目地址：https://enriccorona.github.io/vlogger

4、文本轉視頻模型—— Hotshot ACT-1

產品信息：Hotshot - ACT 1 是一款由 Hotshot Research 開發的文本生成視頻模型，該模型基于大規模高分辨率文本視頻語料庫訓練，注重空間對齊、時間對齊和審美質量，旨在為視頻創作者提供高質量的視頻創作體驗。

產品功能：用户只需輸入文本描述，即可生成動畫風格的視頻。同時可以根據自身需求選擇不同的寬高比和分辨率輸出，定制化自己的視頻内容。

體驗地址：https://hotshot.co/act-one

5、AI 視頻生成模型—— Motion-I2V

產品信息： Motion-I2V 是一款 AI 視頻生成模型，能夠根據一張靜态圖片生成連貫且可控制的視頻。

產品功能：能實現影像到視頻的自動轉換，能夠将靜态影像自動轉換成連貫的動态視頻，通過模拟影像中對象的自然運動，使靜态影像動起來。同時支持用户精确控制視頻中的運動軌迹和運動區網域，使得生成的視頻不僅流暢連貫，而且用户可以通過簡單的操作控制視頻内容。

此外，基于其先進的運動增強和時間注意力技術，無需額外的訓練樣本，Motion-I2V 就能實現視頻風格轉換，比如從現實風格轉換成漫畫風格。

項目主頁：https://xiaoyushi97.github.io/Motion-I2V/

論文地址：https://huggingface.co/papers/2401.15977

（本文首發于钛媒體 APP，作者 | 章橙，編輯 | 林志佳）