Pika爆火，但AI視頻還沒到「GPT時刻」

今天小編分享的互聯網經驗：Pika爆火，但AI視頻還沒到「GPT時刻」，歡迎閲讀。

圖片來源 @視覺中國

文 | 硅基研究室，作者 | 山核桃

今年 10 月，《時代》雜志發布了一份「2023 最佳發明」榜單，為了呼應 AI 浪潮，《時代》從去年開始就特别設定了「AI 單元」。在今年入選的十幾個應用中，排在老牌軟體巨頭 Adobe 和屠龍少年 OpenAI 之後的就是大火的文生視頻應用—— Runway Gen-2。

作為橫掃奧斯卡獎項的電影《瞬息全宇宙》背後的技術公司，Runway 聯合創始人兼 CEO Crist ó bal Valenzuela 在聊起自己對 AI 的期待時，走的也是滿滿的文藝風路線——「AI 是一種新的攝像頭，它将永遠地重塑講故事的方式，引領我們走向完全靠生成的電影長片。」

但對國内用户而言，真正讓 Runway 等 AI 視頻公司走入人們視野的關鍵性事件還要數斯坦福華人博士休學創業的項目 Pika。

自 Pika 爆火以來，短時間内，一大波 AI 視頻測評随之湧來，也出現了明顯的口碑分化。一時間，有人高呼："AI 視頻大年來了 "。有樂觀者認為，從文生圖到文生視頻，視頻生成模型也迎來了屬于自己的 GPT 時刻。不久前，「AI 女神」李飛飛的斯坦福團隊也和谷歌合作，推出了用于生成逼真視頻的擴散模型 W.A.L.T。

但也有人對此表示理性，AI 視頻的技術能力與商業化還有很長的路要走。Pika 聯合創始人兼 CTO Chenlin Meng 在接受采訪時就坦言：" 我覺得目前視頻生成處于類似 GPT-2 的時刻。"

文生視頻一直被視為多模态 AIGC「聖杯」，梳理當下的 AI 視頻賽道，盡管有着炫酷的 demo。類似參與制作奧斯卡電影的實戰，諸多參與競争的行業玩家，但行業所面臨的挑戰依舊有很多。

本文我們将主要聊聊關于文生視頻的三個關鍵問題：

1、文生視頻背後的技術路線是什麼？

2、為什麼説 AI 視頻還沒到真正的 GPT 時刻？

3、目前的行業競争中，誰有領先優勢？

01 「聖杯」背後的兩條技術路線

説起 AI 視頻，所有的行業玩家還是要感謝他們的「老大哥」——谷歌。

市面上的文生視頻模型背後其實有兩條技術路線：一條從文本及影像生成中得到廣泛應用的，基于 Transformer 模型的技術路線，另一條則是基于擴散模型（Diffusion model）。

關于第一種路線是如何誕生的，除了要感謝那篇《Attention Is All You Need》論文外，還多虧了 OpenAI。

受到 OpenAI 基于 Transformer 架構和對文本數據進行大規模預訓練的啓發，在文生視頻領網域，谷歌的 Phenaki、智鋪 AI 和清華團隊發布的 Cog Video 等都沿着這一技術路線，利用 Transformer 模型編碼，将文本轉化為視頻 tokens，進行特征融合後輸出視頻。

谷歌很早之前就已通過 Phenaki 開始講述 AI 視頻的故事了，當時的網友發出了「AI 什麼時候獲奧斯卡」的感嘆。

但基于 Transformer 架構的文生視頻模型，缺點也非常明顯，從 OpenAI 此前的「暴力美學」就能看出，無論從訓練成本，還是從配對數據集的需求來説，都對各家提出了非常大的挑戰。比如，Phenaki 的研究人員在當時除了用文本和影像進行訓練外，還使用了 1.4 秒、幀率 8FPS 的短視頻文本。

而随着影像生成領網域擴散模型的野蠻生長，研究人員又逐漸嘗試将擴散模型拓展到視頻領網域。這之中，我們也看到，在這一波基于擴散模型而飛黃騰達的公司，也沒有錯過下一輪的視頻生成浪潮，比如開發出了經典的文生圖模型 Stable Diffusion 的公司 tability.ai，以及和 Stability.ai 關系密切的 Runway。

在這條技術路徑上，科技大廠和創業派可謂是百花齊放。大廠如 Meta 的 Make-A-Video 和 Emu Video，英偉達的 Video LDM、微軟的 NUWA-XL，創業派如 Stable AI 和 Runway，都是這樣的邏輯。

兩條技術交替，目前擴散模型占據主流，但沒有優劣之分，但從技術迭代背後，我們可以觀察到明顯的三大趨勢。

一是，從參與玩家的數量來看，整體是科技大廠居多，并沒有出現如文生圖模型一樣的「百家争鳴」的現象，背後的原因在于從難度來看，文本 > 影像 > 視頻，文生視頻的門檻較高。

二是，從數據層來看，AI 視頻訓練數據集的規模越來越大，種類也越來越豐富。以 Runway Gen-2 為例，其訓練數據包括了 2.4 億張圖片、640 萬個視頻剪輯片段以及數億個學習示例。

三是，大多數的模型廠商，在文生視頻上都選擇走了閉源路線。背後的原因在于，文生視頻對算力以及模型的工程化能力都很高。香港大學教授、徐圖智能 CEO 徐東在近期的一次采訪中也提到：" 文生視頻不是誰都能做的，開源社區可能也不太可行，因為算力要求太高了，開源社區做文生影像還可以，做文生視頻可能是不實際的。"

02 AI 視頻遠沒到「GPT 時刻」

Pika 聯合創始人兼 CTO Chenlin Meng 在近期接受采訪時就坦言：" 我覺得目前視頻生成處于類似 GPT-2 的時刻。"

換句話説，在炫酷的 demo 背後，AI 視頻真正融入視頻生產工作流，滿足大眾更廣泛的視頻類需求，還有一段距離。

首先，從目前文生視頻模型產出的生成效果來看，有限的時長、較低的分辨率與生成内容的不合理依舊掣肘使用的頻率。

有網友曬出了用 Pika 重制《泰坦尼克号》的片段，從效果來看仍存在不少細節問題

這背後的核心原因，依舊逃不開視頻場景的復雜性。

一方面，在數據端，對比收集文生圖高質量數據的場景，文本生成視頻模型需要通過大量數據來學習字幕、幀照片寫實感和時間動态。同時，由于視頻的長度是不等的，而在訓練過程中将視頻切成固定幀數的片段，又會破壞文本和時間之間的「對齊」，影響模型的訓練。

另一方面，在視頻場景中，除了要考慮空間地點信息，還需要考慮時間信息，因此如果想要具備高質量的視頻生成能力，需要極強的計算與推理能力。從當下一些文生視頻模型的生成表現來看，對視頻對象運動連貫性的理解、對日常與非日常場景的變化等維度來看，都亟待提升。

其次，從商業模式來看，文生視頻應用當前的商業模式與圖片生成趨同，開啓商業化的應用如 Runway Gen-2 也是主要按照生成量來定價。如果對照文生圖應用早期商用化的進程，Runway 們也還有很長一段路要走。

最後，在復雜的視頻生產工作流上，行業玩家 knowhow 也有待提高。 視頻生產過程一般分為前期和後期，前期包括了劇本創作、分鏡設計、素材的拍攝與整理；而後期則是包括了粗剪、音樂、特效、調色與字幕等流程。在不同的環節，AI 發揮不同的作用，模型廠商也能通過建立相關的工具鏈幫助創作者提質增效。

但不同環節，競争門檻是不同的。門檻較低的如字幕添加，門檻更高則是一些視頻編輯類功能，如鏡頭細調等。不同的視頻創作者有着不同的工作流程，因此目前很難做到一家通吃。

此前出圈的《芭本海默》，創作者主要用了 Midjourney+Runway Gen-2

這也是為什麼，目前我們在市面上成熟或出圈的 AI 視頻作品背後并不是依靠一個模型或應用就能單獨完成，而是多個模型 + 多個工具（比如 ChatGPT+Midjourney+Runway）組合創造。

03 誰能吃到 AI 視頻紅利？

從文生圖到文生視頻，多模态能力的更新帶來了新一輪 AI 視頻的能力。但正如上文所説，當前 AI 視頻還未迎來自己的 GPT 時刻，因此競争尚在早期。

參考文生圖模型的迭代路徑，盡管出現不少諸如 Midjourney 類的獨角獸企業通過前期積累用户規模，快速商業化，實現營收，而建立起一定的壁壘。

因此，視頻領網域的競争也會類似大語言模型的競争格局。Pika 的聯創也提到：" 我認為未來在視頻領網域也會是一家公司領先一到兩年、在衝鋒，其他公司在追趕。"

而在這樣一個充滿不确定的早期市場，較早出圈的也基本都是呈現極強 PMF（Product-market fit，產品市場契合度）的玩家。

這之中，無論是專注在短視頻内容 AI 口型匹配和翻譯的 HeyGen，抑或是如今爆火的 Pika 所呈現出的可編輯性和電影級效果，本質上也都是迅速找到與自己產品契合的市場。

僅用 7 個月時間達到了 100 萬美元的 ARR 的 HeyGen CEO& 聯合創始人徐卓在近期的分享文章中提到：" 如果沒有 PMF 時，技術都無關緊要。"

HeyGen 用 7 個月時間達到了 100 萬美元的 ARR

某種程度上，這其實反映出了一個趨勢：比起文生圖的競争，在更高門檻的 AI 視頻，創業公司尋求商業化的意願更強烈。

產生上述焦慮的原因也并不難理解。

一是算力的掣肘，視頻領網域對算力需求更高。 Pika 聯創就曾舉過一個例子：" 對于 Stable Diffusion，有人可能用 8 張 A100 就能從頭開始學習，并得到不錯的結果。但對于視頻模型，用 8 張 A100 可能不夠了，可能無法訓練出一個好的模型。"

她甚至坦言，開源社區可能沒有足夠的算力來訓練新的視頻模型，除了一些大公司開源模型外，普通開源社區很難進行探索性工作。

二是競争環境的激烈。 在 AI 視頻產品層面，一方面正如上文所梳理的，頭部科技巨頭基本都已入局，只是產品尚未全面公測。另一方面，也包括了如 Adobe 此類面向專業級用户的老牌軟體巨頭和如已有先發優勢的 Runway。

還有一類則是 HeyGen、Descript、CapCut 類的輕量化視頻制作產品。

大型科技公司具備算力優勢，特别在是目前尚未有巨頭明确開源路線（只有 Stability AI 發布了開源生成式視頻模型 Stable Video Diffusion）。而 Adobe 此類企業的優勢在于 AI 視頻功能和原有業務形成有力的協同，形成更高頻的使用。Adobe 此前也收購了一家 AI 視頻領網域的初創公司 Rephrase.ai。

而輕量化的視頻制作產品本身面向的是非專業人群，這意味着能否以差異化優勢快速圈中人群，占據心智成為關鍵。

套用一句老生常談，人們對技術的态度永遠是高估短期，低估長期，AI 視頻也并不例外。

參考資料

1、國盛證券：《AI 文生視頻：多模态應用的下一站》

2、國海證券：《AIGC 專題報告：從文生圖到文生視頻 ——技術框架與商業化》

3、光大證券：《探讨 AIGC 視頻的核心痛點與未來趨勢，Pika 1.0 能否帶來新變化？》

4、HeyGen：《AI 創業，我們如何在 7 個月内達到 100 萬美元收入》

5、Hugging Face ：《文生視頻 : 任務、挑戰及現狀》

6、海外獨角獸：《Runway：AI Native Tools 工廠，視頻生成領網域的字節跳動》《專訪 Pika Labs 創始人：視頻模型技術路線尚未确定，明年會迎來 AI 視頻的 GPT 時刻》