視頻生成賽道内卷成風

今天小編分享的财經經驗：視頻生成賽道内卷成風，歡迎閱讀。

圖片來源：視覺中國

藍鲸新聞 8 月 19 日訊（記者朱俊熹）今年 2 月，一段短視頻在全網爆紅：熙熙攘攘的東京街頭，一位戴着墨鏡的時尚女性正緩步行走，身後是炫目的霓虹燈——一句話就可描述完視頻的内容，但裡面的人物表情、環境光照都極為真實，如果不逐幀細看，很難分辨出這其實并非實拍視頻，而是人工智能明星公司 OpenAI，用其視頻生成模型 Sora 生成的 AI 視頻示例。

OpenAI 在 2022 年底通過發布 ChatGPT 掀起了此輪 AI 浪潮，而今年年初發布的包括東京女性在内的這幾段 AI 視頻，不僅在時長上倍超其他已有模型，視頻質量也實現了飛躍。但直到如今，曾震撼業界的視頻生成模型 Sora 仍處于期貨狀态，未向公眾開放。

然而，其他 AI 公司和科技界從業者們看到了 OpenAI 探索出的道路，在無窮的想象空間面前，它們決定立刻躬身如今到視頻生成模型的潮水中。在這半年時間内，多家公司開始奮起直追，紛紛發布基于各自優勢的視頻生成模型，以填補 Sora 的空位。

國外方面，Runway、Luma AI 等一批初創企業均推出了最新的視頻生成模型，并全面開放給所有用戶。在國内，字節跳動旗下文生視頻產品 " 即夢 AI" 8 月上架蘋果和安卓應用商店；快手在更早的 6 月就推出了可靈視頻生成大模型，上線兩個月總申請人數超百萬；智譜 AI、生數科技、愛詩科技等創企也都在上個月集中發布了自己的 AI 視頻大模型。

AI 生成的視頻簡單、快速、便宜，這一願景似乎不再可望不可及。

但第一批使用 AI 生成視頻的用戶很快也發現，目前的實際體驗與理想中的一鍵生成仍有較遠差距。對已經押注 AI 視頻模型的科技巨頭、初創企業來說，雖然未來将導向怎樣的商業化路徑還不明确，但仍然前仆後繼地加入了這條賽道。

先入局，對 AI 公司而言或許更重要。

理想和現實的差距

自打 Sora 開了個頭，每當新的視頻生成模型面世時，" 效果炸裂 "、" 颠覆行業 " 等媒體标籤總是緊随其後。但在 AI 視頻創作者 Ryan 看來，距離視頻模型完全取代人力還 " 差得十萬八千裡遠 "。Ryan 的本職工作是一位攝影師，他發現用 AI 制作視頻很難完全實現實拍的效果，最主要的問題就在于無法精準控制。

Ryan 告訴藍鲸新聞，在理想狀态下，視頻生成模型應當具有良好的可控性。這體現在許多方面，首先是人物的可控性，其動作和表情能夠符合創作者的要求。其次是鏡頭運動的可控性，視頻模型可以識别專業的鏡頭語言描述，根據創作者想要的角度進行變換。但現有視頻生成模型在這些方面仍存在局限。

而正因為無法精準控制，要想得到相對滿意的視頻畫面，創作者們需要不斷地 " 抽卡 "，讓 AI 根據提示詞随機生成相關畫面，就像在遊戲中抽取卡牌一樣。每段視頻需要的 " 抽卡 " 次數并不确定，Ryan 通常會抽 20 到 30 遍。以快手可靈為例，每生成一個 5 秒的視頻，用戶需要在電腦前等待 3 分鍾，然後根據生成效果來調整提示詞，再等待 3 分鍾，如此循環，這個過程會耗費大量時間。

7 月，智譜 AI CEO 張鵬在發布 AI 生成視頻模型 " 清影 " 時曾表示，生成視頻的可控性強烈依賴于模型能否準确理解指令。将來絕大部分視頻生成内容都是由人類通過語言控制的，如何從文字或簡圖轉換為視頻語言，實現真正的可控，是技術層面的事情。

全職從事 AI 視頻創作的秋和告訴藍鲸新聞，在商用 AI 視頻的制作過程中，視頻生成模型發揮的作用有限，主要用于生成視頻素材。但腳本創作、人物設計、聲音特效、剪輯等其他環節依然高度依賴人力，以及 PS、AE 等傳統工具。

今年以來湧現的視頻生成模型無疑為創作者提供了更多的選擇。除快手可靈支持生成 2 分鍾視頻外，其他視頻模型的生成時長大多在 30 秒内。秋和表示，不會局限于只使用某一個模型，一般會将不同模型生成的片段組合起來。" 效果優先，每家模型各有所長，要根據自己的需求來選擇工具。"

在表現中國風方面，創作者大多反映國内模型的效果要優于 Runway Gen-3 Alpha 等國外模型。生數科技在推出 Vidu 時表示，作為中國自研的視頻大模型，它能夠理解中國元素，生成熊貓、龍等特有的畫面。背靠快手的可靈在處理人物表情，以及生成與吃有關的畫面時表現突出。6 月可靈還推出了 " 復活老照片 " 等項目，因賦予原本靜态的人物惟妙惟肖的表情，迅速積累了較高的熱度。

但各個視頻模型各有所長，沒有哪家擁有絕對優勢。秋和此前需要生成一些宏大的黑白場景，以鳥瞰的鏡頭呈現車水馬龍的街道。但多數模型的結果都不盡人意，會出現人物畸變或無中生有，最後她發現剛上線的智譜清影效果是最優的。而據智譜 AI 此前介紹，其視頻訓練數據除了來自公開的數據集外，還來源于電視台、影視公司、視頻平台等合作夥伴。

" 這些可能跟各公司在訓練時的數據占比有關。數據的數量、質量和分類，都會影響到不同模型擅長的能力不同。" 秋和表示。

商業前景忽明忽暗

盡管 AI 視頻生成模型距離理想狀态還有很遠，一些 AI 創作者們卻已經發現了這個新興風口中的商機。

秋和最初是在社交媒體上分享自己的 AI 作品，漸漸就有企業帶着商單找來，想讓她用 AI 制作商品廣告片或行業宣傳片。

秋和認為，對這些 B 端客戶而言，AI 視頻既是吸引流量的噱頭，通過眩目的畫面博人眼球，同時也能夠降本增效。以多地推出的 AI 文旅宣傳片為例，實地拍攝耗時耗力，還受限于天氣、光線等環境條件。而借助 AI 技術，只需要幾張當地的照片素材，秋和曾經最快只用 4 天的時間就能完成一條高質量的片子。

AI 視頻創作者一旦有了訂單和收益，就有動力去選擇性能更優的視頻生成模型，并願意為之付費。

和絕大部分仍免費的 C 端 AI 智能助理產品不同，許多視頻模型產品由于成本巨大，在上線後不久就跟進了付費模式。可靈、即夢、Vidu 等都推出了會員訂閱模式，每月費用在 30 多元到 700 多元不等，可享有無水印、優先體驗新功能等服務。智譜清影依然支持不限次數的免費使用，同時推出了付費加速服務，花費 5 元即可解鎖一天的高速權益，縮短等待時間。

圖片來源：快手官方

但相較于這些公司投入到視頻生成模型上的巨額成本，這些收費不過九牛一毛。據投資機構 Factorial Funds 估算，Sora 在訓練環節就需要大量計算能力，一個月需要 4200 到 10500 塊英偉達 H100 GPU。到了應用層面，視頻模型的推理成本更是會比大語言模型高出多個數量級，且随着視頻模型的廣泛部署，推理計算消耗将多于訓練計算消耗。假設 TikTok、YouTube 等平台大量采用 AI 視頻生成，推理階段的計算峰值需求将達約 72 萬塊英偉達 H100 GPU，相當于英偉達預估 2024 年全年產能的一半。

高昂的成本可能也是 Sora 尚未向公眾開放的原因。OpenAI 首席技術官 Mira Murati 3 月在接受采訪時表示，Sora 的運行成本要比現有的生成式 AI 系統貴得多，公司希望能将其成本壓縮至接近文生圖模型 DALL-E 才對外發布。矽谷科技媒體 The Information 此前報道稱，OpenAI 今年或将面臨 50 億美元的虧損。

與大語言模型一樣，To B 是另一種商業路徑，盡管也并未驗證成功。智譜 AI 在推出清影時，将其 API 同步上線到大模型開放平台，供企業和開發者調用。Vidu 在官方網站上提供了 API 内測申請，稱正在尋找第一批種子用戶來測試 API 服務的穩定性，" 以便更快向全部開發者推出。" 另一 AI 視頻創企愛詩科技則表示要聚焦 C 端，而字節即夢和快手可靈都未對外提供 API。有接近快手人士曾向媒體透露，可靈目前暫無商業化計劃。

智譜 AI CEO 張鵬在清影發布時坦承道，" 從現在這個階段來說，無論是 To C 還是 To B，純粹走向大規模商業化還比較早期。" 他表示，智譜同時面向 C 端和 B 端開放視頻模型，是想看市場和用戶的反饋，後期再及時調整。考慮到生成視頻的高成本，能 " 稍稍收回來一點點也是好事 "。

但用戶并未做好為視頻生成模型付費的準備。快手可靈剛發布時因其免費内測吸引了很多創作者，但一位 AI 創作者小鹿告訴藍鲸新聞，一個月之後，可靈突然要收費了，" 官方群裡都炸了，都出來罵 "。随後，一些用戶發現可靈國際版還未收費，于是不斷地用新郵箱注冊可靈國際版，每天換着賬号領積分，來免費使用可靈做 AI 視頻。

" 你覺得合理嗎？平台如果全靠訂閱來收費，絕對虧本。"小鹿說。

不管結果如何，先入場再說

AI 浪潮發展至今，FOMO（Fear of Missing Out）的情緒已經裹挾着整個科技行業，無論是巨頭、創企還是投資者。玩家們害怕的不只是失去當下的良機，更是将來的領先優勢。

東吳證券 8 月發布的一份研究報告指出，在這場視頻生成技術競賽中，互聯網大廠很可能将繼續扮演引領者的角色。分析師表示，視頻生成模型的核心競争要素依然在于數據、場景和用戶。其中，數據是訓練高質量模型的關鍵，而場景決定了產品的市場适應性和商業潛力，互聯網大廠在這三個維度均占優勢。

這與行業内的意見一致。智譜 AI CEO 張鵬曾表示，視頻生成高度依賴于數據，智譜 AI 雖然在文字數據方面積累了多年時間，但視頻數據是這幾年才起步的。他解釋稱，對視頻數據的質量要求極高，并不是在短視頻網站上随便抓取就能進行訓練，還要對數據進行清洗、篩選，配上相應的字幕和描述。

快手可靈在推出後獲得較多好評與較高熱度也與訓練數據豐富有關系。一位快手數據團隊成員此前告訴科技媒體 " 矽星人 Pro"，快手植根視頻領網域多年，最大的優勢就在，" 數據都被‘洗’得很幹淨，整整齊齊地放在那裡，做模型的時候可以直接拿過來用。"

快手視覺生成與互動中心負責人萬鵬飛在一場活動中介紹稱，為确保可靈訓練數據的質量，快手通過高度自動化的視頻數據平台和精細的視頻标籤體系，篩掉那些不合适、低質、不符合要求的數據。

目前，激戰多年的抖音和快手已然相遇在 AI 視頻模型的新戰場上，雙方都密切關注着這條與其主營業務生态息息相關的賽道。據矽星人 Pro 此前報道，快手将可靈視為公司戰略級項目，快手創始人兼首席執行官程一笑曾親自發話 " 可靈要大做 "，高級副總裁蓋坤也表示公司将全力支持可靈，包括提供充分的 GPU 芯片。而字節内部将 AI 大模型設為集團最高優先級的 P0 級别，抖音、剪映等内部多個團隊都在研發 AI 視頻模型應用。

創作者小鹿向藍鲸新聞分析道，在大模型落地方面，大廠的常見策略是從内部做起，将 AI 接入原有業務。他認為，抖音即夢、快手可靈這樣的 AI 視頻應用首先可以作為公司前端的技術展示，更重要的是如何将視頻生成模型嵌入到已有的業務中，如抖音、快手的内容或電商生态。這樣即便無法直接通過 AI 應用直接實現盈利，" 整體能把賬算平就可以了 "。

對視頻生成領網域的初創企業而言，從大廠中突圍或許難度重重，但他們仍然保有希望。愛詩科技創始人兼 CEO 王長虎曾擔任字節跳動視覺技術負責人，參與了抖音、TikTok 等產品及字節視覺大模型的建設。在 Sora 發布前一年，王長虎決定離開大廠開始創業，聚焦于 AI 視覺領網域，并推出了 PixVerse 視頻生成產品。

今年 6 月，王長虎在與科技媒體極客公園的對談中坦言，沒有人能在一開始就回答視頻生成最終将導向工具還是平台。" 誰不想做成平台？如果前面有兩條路、兩個機會，一個是工具剪映，一個是平台抖音，我想很多人都會選抖音。"

王長虎回溯了抖音和快手的崛起歷程，指出它們早期都只是工具。但在移動互聯網時代下，内容生成方式、人與信息的互動方式發生了變革，推動抖音和快手成長為成功的平台。而 AI 技術同樣會為這兩個層面帶來更新，因此他判斷在 AIGC 時代也存在平台性的機會，只是無法确定具體是什麼。" 打敗微信的一定不會是另外一個微信，可能是從另一個賽道來的東西。"王長虎稱。

而視頻生成模型的競賽也不過才剛剛打響了發令槍，誰都有機會成功，但同樣地，沒有人能保證自己一定會活到最後。無論大廠還是創業公司，現在能做的，就是先入場，以後的事以後再說。