2024年，每一個大模型都躲不過容嬷嬷和紫薇

今天小編分享的科技經驗：2024年，每一個大模型都躲不過容嬷嬷和紫薇，歡迎閲讀。

文｜鄧詠儀

編輯｜蘇建勳

連最積極搞 AI 的李彥宏，在這件事上也遲疑了。

" 百度不碰 Sora 類的視頻生成方向。" 李彥宏在近期的 2024 年 Q3 總監會上説道。原因在于，10 年、20 年都可能難以商業化應用。

從 OpenAI Sora 橫空出世，再到 6 月的快手可靈全量上線，視頻生成成為 2024 年最火熱的 AI 話題。

廠商們紛紛開始你追我趕。從 4 月至今，視頻生產模型如同雨後春筍一般——除了快手、字節、阿裏等大廠，頭部大模型公司如智譜、MiniMax，以及生數科技、智象未來等垂類廠商，均發布了視頻生成模型。

國内視頻模型的湧現，也讓 " 容嬷嬷和紫薇 " 的鬼畜形象再次翻紅，她倆活在不同的視頻模型 demo 和網友二創中，考驗着不同模型的效果：

△圖源：可靈，來自公開網絡

△圖源：即夢 AI，智能湧現制圖

行業對 " 超級應用 " 的渴望溢于言表，甚至影響到了如今大模型的路線——到底做不做視頻大模型，影響國内 " 大模型六小虎 "（智譜、月之暗面、MiniMax、百川智能、階躍星辰、零一萬物）走勢的關鍵決策。

不過，對于做不做視頻模型，國内大模型廠商仍未達成共識，而是抽成了截然不同的幾派：

有廠商迅速跟進。7 月，智譜就推出了類 Sora 的視頻生成模型 " 智譜清影 "；8 月，MiniMax 發布視頻模型 Video-01。

而階躍星辰發布新影像模型，也在今年 7 月的上海世界人工智能大會上，做了少量的視頻生成嘗試。

也有旗幟鮮明的反對者。" 百川不會做 Sora。" 今年 5 月，百川智能 CEO 王小川就在《智能湧現》的專訪中就表示。他認為，Sora 并不在 AGI（通用人工智能），即提升模型智力水平的主線上。

也有在探索後暫緩的廠商。最受關注的月之暗面，6 月被媒體報道在海外試水兩個新應用——角色扮演應用 Ohai，以及 AI 音樂 / 視頻生成應用 Noisse。據《智能湧現》了解，這兩個應用因為效果不達預期，後來并沒有被單獨立項，停留在試驗階段。

而在近期的 "Kimi 探索版 " 上線後，月之暗面還将發布多模态相關能力。不過，還不确定是否會有視頻生成相關功能。

直到國慶前後，視頻生成領網域迎來兩位重磅玩家：9 月 24 日，字節跳動低調甩出了 Seaweed 和 Pixeldance 兩款產品。

而緊接着的 10 月 5 日，Meta 放出的系列模型 Movie Gen，則又一次炸場。

△圖注：2024 上半年，全球已湧現了不少視頻模型和產品，在中國尤其熱鬧。

在語言模型迭代放緩的當下，視頻生成模型似乎成了那個更有希望的 AI 應用新方向——大廠也還沒形成壟斷。對初創公司而言，這更是一次重要選擇——到底要不要做 Sora？

分叉路，要選哪條？

首先需要厘清的一個概念是，大廠、創業公司如今普遍标配的 " 多模态能力 "（影像、語音等模态），以及類 Sora 的視頻生成模型，并不是同樣的東西。

" 多模态能力，相當于是讓模型能夠理解影像、音頻、視頻等形式，但還是基于大語言模型延伸的能力。" 一位大模型從業者對《智能湧現》分析，" 将視頻、圖片、語音輸入到大模型裏，是基于大語言模型做‘理解’；但生成視頻，則是依靠視頻模型的能力。"

" 類 Sora" 產品所依靠的視頻生成模型，借鑑了大語言模型（LLM）中 Transformer 架構等技術思路，但和大語言模型（LLM）是兩種不同的事物。

這意味着，如果要做一個視頻生成模型，相當于另起爐灶，從 0 到 1 重新搭模型。

可以肯定的是，要做視頻生成模型，當前還注定是少數人的遊戲。

再造一個 "Sora"，成本高昂。

據 Meta 的數據，Movie Gen 用了 6144 張 H100 進行訓練，視頻模型參數達到 30B（300 億）。在國内，擁有此等訓練資源的廠商，本就不多。

而眼下，國内大模型廠商基本都已經上齊了多模态能力，至于是否做視頻生成方向，還處于搖擺狀态。

對擁有短視頻相關業務的大廠，如抖音、快手等，視頻生成是不能輸的方向。據硅星人報道，對可靈的大力投入，一個重要動力是為了服務于快手的内容生态—— 2023 年，首次在快手發布短視頻的創作者就有 1.38 億。

另外，快手做可靈，也意在服務快手的電商生态，比如為 MCN、電商商家提供商品相關的 AI 内容生成衣務。

但對初創玩家來説，在 AI 應用方向不明朗的當下，大家都在忐忑地摸着石頭過河。

有玩家早早堅定了自己選擇的道路。一開始打定不做 Sora 的百川，在 2024 年全力落地醫療場景，并推出了自己的醫療 AI 助手。

專門做視頻生成的垂類廠商，也拿到了階段性的結果，比如生數科技旗下的 Vidu，在 8 月上線後，兩個月内，VIdu 的月訪問量就已經達到 552 萬。

但能不能把新故事講成自己的，還得看各家的真本事。視頻生成領網域的技術路線尚未收斂，市面上的頂級視頻生成模型幾乎都選擇了閉源。

這意味着，玩家們需要投入真金白銀去試錯——選什麼技術路線和應用場景，才決定 AGI 大潮退去後，誰能真正留在岸上。

文本太卷，Agent 太遠，視頻生成剛剛好？

OpenAI 的 Sora 尚且沒有放開使用，為什麼視頻生成如今成了國内的香饽饽？

以 GPT-4 作為參考标杆，國内頭部的大模型廠商和大廠，在今年上半年都已慢慢接近 GPT-4 的水平，在 OpenAI 後續發布 GPT-4o 後，廠商也都陸續跟進了多模态能力。

但 GPT-5 遲遲未出，意味着在語言模型上，國内大模型的廠商基本難以拉開代際差距。

另一方面，大模型跑了一年多，其落地和商業化成果還未讓市場信服。

在國内，大部分的 AI 應用方向都陷入叫好不叫座的困境。細數這兩年火過的 AI 應用方向—— ChatBot/ 情感陪伴等類 ChatGPT 產品、文生圖、AI 音樂、AI 搜索，都迅速陷入同質化競争的局面。

以國内頭部的 AI 應用舉例，豆包、Kimi 等在今年上半年經歷了激烈的投流競争，用户數最高已達千萬級别，但商業化情況并不理想。

不少從業者認為，應用難以商業化，很大程度要歸結到文本模型迭代放緩，能力提升變慢。這也讓一些更遙遠的，能完成更多復雜任務的方向——比如 Agent（智能體），越發模糊。

《智能湧現》了解到的一個例證是，字節旗下的 AI 開發平台扣子的 Agent 業務，在今年就經歷了一輪縮減。

而近期圈内熱切讨論的放棄大模型的預訓練階段，意味着不少廠商要走下追求的牌桌，轉向 AI 應用落地，繼續活下去。

廠商們需要新故事，視頻生成方向則剛好站在中間點：既有足夠技術和開發壁壘，但壁壘不會高到玩家摸不着，前景也足夠大。

" 語言模型的商業化就不提了，初創公司至少還要想象力。如果頭部初創公司不轉其他應用方向，就什麼都沒有，怎麼撐起這麼高的估值？" 一位從業者直言。

2023 年，不少做視頻生成的創業者都對《智能湧現》表示，如今的視頻生成領網域可類比處在 GPT-2 到 GPT3 階段。這意味着比 ChatGPT 的效果稍稍略落後，比語言模型所處的發展階段早很多。

但 Sora 發布後，視頻生成領網域已經看到了 GPT-3.5 階段的曙光。" 這個階段意味着，讓你看到這個賽道的巨大潛力，市場願意投入。" 一位從業者對《智能湧現》表示。

共識搖擺的背後，源于賽道仍處發展早期，還有不少探索機會。比如，剛剛發布的 Meta Movie Gen。在 Transformer 架構基礎上，使用了 Flow Matching（流匹配技術），這就與 Sora 的路線有很大不同，也意味着整個賽道的技術路線尚未收斂。

在國内，這個方向上也有得天獨厚的短視頻生态，視頻生成方向的模型探索，也因此站在全球前沿。

6 月爆火的快手視頻模型 " 可靈 "，就是典型例子——在大廠中，快手并不是 AI 人才、資源的制高點，但經歷短短數月攻堅，快手可靈僅憑 20 多人的小團隊，硬是在一眾大模型廠商中闖出一條路，可靈憑借懷舊照片等一系列策劃，熱度一度傳到大洋彼岸的硅谷。

△ Stability.ai 創始人轉發可靈產品，評論 " 中國在 AI 上有着巨大優勢 " 來源：X

并且，視頻生成方向還處在早期，算力成本仍處高位，一旦開始商業化，付費已是必選項。

在海外，視頻生成已經走出了不同路線——頭部的視頻廠商 Runway 和 Pika 都專注做 B 端的生產力工具，Runway 甚至已經打入好萊塢，達成了不少影視界的合作。在國内，可靈、Minimax 等廠商也早早開始了付費嘗試。

歸根結底，很少人願意錯過這個方向。畢竟，視頻已經取代文字，成為互聯網上流量占比最高的信息内容。據 Sandvine《2023 全球互聯網現象報告》，2022 年全球互聯網視頻服務，就占到總流量的 65.93%。

随着視頻生成技術不斷成熟，這也許不會只是大廠的遊戲。初創公司可以結合技術，以及巧妙的運營手段，快速闖出一條自己的道路。

△來源：Pika

硅谷視頻生成明星初創 Pika，就摸到了不少流量密碼：一出道，就選擇先在開發者聚集的 Discord 運營，并且迅速獲得 50 萬用户。

到了今年 10 月，Pika 新發布的 1.5 模型中，還帶來了更多社交運營玩法：内置了充氣、融化、爆炸、捏揉、壓扁等模板，引來全球網友 " 整活兒 "，伺服器甚至因為湧入的用户太多而崩潰——有網友就不禁回憶起當年：與早期的 TikTok 冷啓動時期如出一轍。

本文來自微信公眾号" 智能湧現 "，作者：鄧詠儀，36 氪經授權發布。