AI生成視頻：有點驚豔，有點離譜

今天小編分享的科技經驗：AI生成視頻：有點驚豔，有點離譜，歡迎閲讀。

AIGC 的最後一塊拼圖，要拼上了？

定焦（dingjiaoone）原創

作者 | 黎明

編輯 | 魏佳

AI 生成的視頻，正在入侵互聯網。

此前，我們已經見識了完全由 AI 制成的科幻預告片《Trailer：Genesis》，以及用 AI 合成的《芭比海默》預告片。這兩部腦洞大開的片子，讓我們見識了 AI 的神奇。

現在，越來越多 AI 視頻工具正在被開發出來，批量制造短視頻和電影片段，其生成效果讓人驚嘆，使用門檻卻低到 " 令人發指 "。

比如用 Pika 生成的這個：

用 Runway Gen-2 生成的這個：

以及用 Neverends 生成的這個：

不需要復雜的代碼，也不需要深奧的指令，只需要一句話，或者一張圖片，AI 就能自動生成動态視頻。如果想修改，同樣只需要一句話，指哪改哪。喜歡做視頻的同學，再也不用四處找素材、熬夜剪輯了。

在創投圈，視頻生成類 AI 正在取代大語言模型，成為近期最熱門的賽道。前段時間出圈的 Pika，給這團火又添了一把柴。

AI 視頻這陣風，能吹多久？

AI 生成視頻，這次有點東西

用 AI 生成一段視頻不是什麼難事，區别在于生成什麼樣的視頻。

經常剪視頻的人可能知道 " 一鍵成片 "，在剪映等視頻工具裏輸入腳本，系統可直接生成與腳本匹配的視頻；在一些數字人平台上傳一張照片，AI 生成一個數字人，在口播時能自動對口型。

這是 AI，但不是我們今天讨論的 AI。

本文提到的 AI 生成視頻，指的是生成有連續邏輯的視頻，内容之間有關聯性與協同性。它不是根據腳本把圖片素材拼接成視頻形式，也不是用程式驅動數字人 " 動手動嘴 "。它更接近于 " 無中生有 "，實現難度更高。

比如以下這段視頻，就靠一句指令生成：

視頻中的汽車、樹葉、光影，是 AI 靠自己的知識儲備和經驗 " 畫 " 出來的，或者説是 " 瞎編 " 的。當然，是根據用户的要求 " 瞎編 "。

再看以下這段視頻，就靠一張靜态圖片，AI 自動拓展成視頻。

圖片中的人物、船只、水流本來都是靜止的，AI 将它們變成了動态。

AI 還可以對原視頻進行擴充，把場景 " 補 " 齊，比如從只有上半身擴充到全身，以及構造出人物背後的全景。這跟最近很火的 AI 擴圖有點像，AI 根據自己的理解，以小見大，以樹木見森林。

以上三種生成視頻的方式，就是現在流行的AI 視頻 " 三件套 "：文生視頻、圖生視頻、視頻生視頻。簡言之，無論是文字、圖片還是視頻，都能作為原始素材，通過 AI 生成新的視頻。

從技術角度，這依托跨模态大模型。在輸入端，輸入自然語言、影像、視頻等形式的指令，最後都能在輸出端以視頻的形式呈現。

生成只是第一步，後續還能用 AI 修改。

請看 X 網友發布的一段視頻：

這個視頻體現了兩個重要的功能：一鍵換裝，一鍵增減物品。這也是 Pika 在 1.0 版本上線時重點介紹的功能。在 Pika 的宣傳片中，只需要一句話輸入指令，就能給猩猩戴上墨鏡，給一位行走中的女士換裝。

這其中的厲害之處不在換裝，而在換裝的方式——用自然語言的方式下指令，且整個過程非常絲滑，毫無違和感。通過 AI，人們能夠輕松編輯并重構視頻的場景。

AI 還能改變視頻風格，動漫、卡通、電影，通通不在話下，比如将現實中的實拍鏡頭轉換為卡通世界，它的效果跟 P 圖軟體的濾鏡有點像，但更高級。

現在用 AI 生成的視頻，已經能達到以假亂真的效果，國内還有一批公司在研發更新的技術。

這兩排人物，每排的六個人動作都一模一樣，就像 " 一個模子裏刻出來的 "。沒錯，它們就是通過人物靜态圖片，綁定骨骼動畫生成的。

這是阿裏研究院正在進行的一個項目，叫 Animate Anyone，它能讓任何人動起來。除了阿裏，字節跳動等公司也在研發類似技術，且技術迭代很快。

效果很好，但别高興太早

用簡單的自然語言讓 AI 生成定制化的視頻，給行業帶來的興奮跟去年的 ChatGPT 差不多。

文生視頻的原理與文生影像類似，但由于視頻是連續的多幀影像，所以相當于在影像的基礎上增加了時間維度。這就像快速翻動一本漫畫書，每頁靜止的畫面連起來，人物和場景就 " 動 " 起來了，形成了時間連續的人像動畫。

華創資本投資人張金對「定焦」分析，視頻是一幀一幀構成的，比如一幀有 24 張圖片，那麼 AI 就要在很短時間内生成 24 張圖片，雖然有共同的參數，但圖片之間要有連貫性，過渡要自然還是很有難點。

目前主流的文生視頻模型，主要依托 Transformer 模型和擴散模型。通過 Transformer 模型，文本在輸入後能夠被轉化為視頻令牌，進行特征融合後輸出視頻。擴散模型在文生圖基礎上增加時間維度實現視頻生成，它在語義理解、内容豐富性上有優勢。

現在很多廠商都會用到擴散模型，Runway 的 Gen2、Meta 的 Make-A-Video，都是這方面的代表。

不過，跟任何技術一樣，剛開始產品化時讓人眼前一亮，同時也會有一些漏洞。

Pika、Runway 等公司，在宣傳片中展示的效果非常驚豔，我們相信這些展示是真實的，也的确有人在測試中達到類似的效果，但問題也很明顯——輸出不穩定。

不論是昨日明星 Gen-2，還是當紅炸子雞 Pika，都存在這個問題，這幾乎是所有大模型的通病。在 ChatGPT 等大語言模型上，它體現為胡説八道；在文生視頻模型上，它讓人哭笑不得。

瀚皓科技 CEO 吳傑茜對「定焦」説，可控性是文生視頻當前最大的痛點之一，很多團隊都在做針對性的優化，盡量做到生成視頻的可控。

張金表示，AI 生成視頻确實難度比較大，AI 既要能理解用户輸入的語義，圖與圖之間還要有語義連貫性。

AI 生成視頻的評估标準，通常有三大維度。

首先是語義理解能力，即 AI 能不能精準識别用户的指令。你讓它生成一個少女，它生成一個阿姨，你讓一只貓坐飛機，它讓一只貓出現在飛機頂上，這都是理解能力不夠。

提示詞為 A cat flying a plane,Cartoon style

其次是視頻生成效果，如畫面流暢度、人物穩定性、動作連貫性、光影一致性、風格準确性等等。之前很多生成的視頻會有畫面抖動、閃爍變形、掉幀的問題，現在技術進步有所好轉，但人物穩定性和一致性還有待提高。我們把一張馬斯克的經典照片輸入給 Gen-2，得到的視頻是這樣的：

馬斯克的臉怎麼變得這麼有棱角了？還有，這個手是怎麼回事 ......

另外，畫面主體的動作幅度一大，就很容易 " 露餡 "，比如轉動身體的少女一會兒是瓜子臉一會兒是大餅臉，或是奔跑中的馬甩出 " 無影腿 "。

還有一點是產品易用度。AI 生成視頻最大的變革之一，是大幅降低了使用門檻，只用輸入很少的信息就能實現豐富的效果，過去視頻工作者用 PR、AE 制作視頻，要在復雜的操作界面點擊各種按鈕，調節大量參數，現在你只用打字就可以了。

產品是否易用，是技術能否大規模普及的一個重要前提。AI 擴圖最近被人們 " 玩壞 "，也是因為操作簡單，但效果感人。當普通小白也能像 P 圖一樣 P 視頻，那離爆款產品誕生就不遠了。

就當前而言，以上三項指标已有很大進步，尤其是剛上線不久的 Pika1.0，各方面表現均衡。但輸出不穩定依然是共性問題。

視頻時長也是一大限制。現在主流的文生視頻產品，正常生成的視頻時長一般在 3 到 4 秒，最長的沒有超過 30 秒。生成視頻的時間越長，對 AI 的理解、生成能力要求越高，露餡的概率也越大。

因此很多人不得不使用 " 續杯 " 的方式，同時還得結合其他素材，才能實現理想效果。而在《芭比海默》《Trailer：Genesis》這兩部預告片中，作者用到了 Midjourney（處理影像）、Gen-2（處理視頻）、CapCut（剪輯視頻）等多種工具。

吳傑茜表示，當前市面上的 AI 文生視頻產品，生成的視頻時長最多也就十多秒，瀚皓科技即将推出的產品試圖做到生成任意時長，比如 15 秒短視頻、1 分鍾左右的短劇，這也能成為一個差異化的特色。

所以就當前而言，想靠 AI 直接生成一整部大片，還有點早。

争搶 AIGC 的最後一塊拼圖

在 AIGC 的各大細分賽道中，AI 文生視頻被認為是最後一塊拼圖，是 AI 創作多模态的 " 聖杯 "。整個行業的熱潮，已經逐步從文生文、文生圖，轉向了文生視頻領網域。

成立于 2018 年的美國公司 Runway，一度引領 AI 生成視頻浪潮。它在 2023 年 2 月推出的 Gen-1，主打視頻轉視頻，能改變視頻風格；3 月推出的 Gen-2，實現了用文字、影像或視頻片段生成新視頻。

Gen-2 将生成視頻的最大長度從 4 秒提升到了 18 秒，還能控制 " 鏡頭 "，用 " 運動筆刷 " 随意指揮移動，一度是文生視頻領網域最先進的模型。

Runway 的創始團隊有很強的影視、藝術背景，因而客户主要是電影級視頻編輯和特效制作者，他們的技術被用在了好萊塢大片《瞬息全宇宙》中。2023 年下半年，Runway 完成一筆過億美元的融資，公司估值超過 15 億美元。

最新玩家是 Pika，這家公司由兩個在美國讀書的華人女博士退學創辦，公司成立僅 8 個月，員工 4 人。Pika 進展神速，11 月底發布的全新文生視頻工具 Pika 1.0，在各大社交媒體迅速走紅。再加上創始人爽文大女主的人設，被國内媒體瘋狂報道。

一位 AI 創業者對「定焦」説，Pika 采用了差異化的打法，主打動畫生成，規避了 AI 生成視頻在逼真度和真實性方面的缺陷。另外 Pika 在正式推出 1.0 版本之前，已經在 discord 積累了一定數量的用户。

除了這兩家公司，AI 視頻領網域的玩家還有 Stability AI，它最知名的產品是文生圖應用 Stable Diffusion，11 月剛發布了自己的首個文生視頻模型 Stable Video Diffusion；Meta 發布了 Make-A-Video；Google 推出了 Imagen Video、Phenaki。