今天小編分享的科技經驗:争造AI時代剪映:國產Sora的生态暗戰與商業黎明,歡迎閲讀。
文 | 正見 TrueView,作者 | 劉萍,編輯 | 一白
當 DeepSeek 用 1/10 算力實現 GPT-4 級别性能時,這個信号值得所有文生視頻從業者深思:中國 AI 創新不應趨于技術復刻,而是要構建原創技術範式。真正的破局點或在于 " 場景定義技術 " 的創新路徑。當技術研發深度融入產業需求時,中國公司完全可能開辟出超越 Sora 範式的新賽道。正如大模型領網域湧現的 MoE 架構創新,文生視頻的下一輪突破,或誕生于技術與產業需求的化學反應之中。
今年春節,DeepSeek 火遍全球。上一次大模型引發如此震動,還是 OpenAI 發布 Sora 時。
2024 年 2 月 15 日,OpenAI 的文生視頻模型 Sora 橫空出世,憑借其逼真的效果、復雜的鏡頭轉換、以及最長可達 1 分鍾的視頻生成時長,瞬間在全球引發熱潮。這一突破也引得國内廠商緊急入場,快手可靈、字節即夢、阿裏通義萬相、騰訊混元等文生視頻模型接踵而至,背後亟待開掘的是如剪映般超 8 億月活和近百億營收的商業空間。
然而卷了一年後,廠商們依舊是互聯網時代 " 小步快跑,試錯迭代 " 的產品思維。近期快手可靈發布 1.6 版本,語義理解、文本響應度等功能有所提升,收費規則沒變;時隔一月,阿裏雲發布通義萬相 2.1,在大幅度復雜運動、物理規律遵循、藝術表現等層面全面提升,首創生成漢字視頻……
DeepSeek 只用少量 GPU 和低廉的部署成本實現媲美 OpenAI 效果的解題思路,或許能為文生視頻廠商提供解決困局和改變競争維度的樣本參考。
如果説 2024 年,文生視頻廠商完成了從 0 到 1 的初步探索,在 AIGC 技術日新月異的發展節奏與大廠激烈競逐的浪潮中,2025 年将背負的是從 1 到 10 乃至 100 的期待。誰将成為引領新一輪文生視頻風潮的先鋒?誰又将出現在自家大廠失敗產品的盤點名單之上?
技術路線共識下的創新困境,追趕者難破時長魔咒
當 OpenAI 在 2024 年 2 月 15 日向世界展示 Sora 時,這個能生成 60 秒高質量視頻的 AI 模型不僅重新定義了文生視頻的行業标準,更在無意間為中國 AI 賽道劃定了技術追趕的坐标系。
傳統 U-Net 架構需要完整影像的前後向傳播,而 Sora 基于 Transformer 的 patch 訓練機制可将計算成本降低 40% 以上。這種效率提升讓國内廠商在算力受限的環境下看到了希望——正如 DeepSeek 用 1/3 的 GPU 資源實現 GPT-4 水平的語言模型,文生視頻領網域似乎也存在類似的 " 捷徑 "。
從快手可靈到阿裏通義萬相,從字節即夢到騰訊混元,國内廠商集體開啓了一場名為 " 復刻 Sora" 的技術軍備競賽。
可是,雖然國内廠商已掌握 Sora 的技術核心 DiT 架構(Diffusion+Transformer)的基礎原理,但這并不意味着他們能順利復制出國產 Sora,關鍵差距在于技術體系的完整性。畢竟技術路線以外,Sora 未披露的技術細節,諸如參數規模、算法設計等關鍵技術環節仍存在代際差距。
相比難以突破的算力、算法和數據三大核心難關,國内各廠商的主要比拼指标圍繞時長、視頻的分辨率等展開。
而這場始于技術路線模仿的追逐戰,也在經歷近一年的發展後,逐漸顯露出更深層的創新困境。清華系 AI 公司瑞萊智慧 RealAI、螞蟻集團和百度聯合孵化的生數科技,去年 4 月底就攜文生視頻模型 Vidu 亮相,号稱能生成最長為 16 秒的視頻,但 7 月末正式上線時,視頻時長卻僅有 4 秒和 8 秒兩種選擇。
智譜 AI 在去年 7 月發布了文生視頻清影(Ying),底層技術也沿用了 DiT 架構,可生成的視頻最長僅有 6 秒,11 月增加至 10 秒。從清華系 RealAI 的 16 秒承諾縮水至實際 8 秒輸出,到智譜 AI 清影模型從 6 秒艱難爬升至 10 秒,國產模型始終困在 " 秒級 " 競技場。
即便頭部玩家快手可靈通過 " 續寫 " 功能實現 3 分鍾拼接視頻,其單次生成仍停留在 10 秒門檻。這種困境在 Sora Turbo 正式版發布後更顯諷刺—— OpenAI 主動将時長壓縮至 20 秒,暗示首秀的 1 分鍾視頻實為精心剪輯之作。
在生成式 AI 領網域,技術路線的透明度與實現能力之間存在巨大鴻溝,也揭示了一個殘酷現實:單純的技術路線模仿難以突破物理模拟、時空連續性等核心難題。就像當年國產芯片遭遇的 " 制程追趕悖論 ",文生視頻領網域同樣面臨 " 參數堆砌效率遞減 " 的困局。
而當整個行業陷入同質化競争的泥潭時,所謂技術突破往往淪為參數調優的數字遊戲。
數據荒與技術倫理,構建生态壁壘的雙重挑戰
如果説技術路線是看得見的戰場,那麼數據争奪就是水面下的暗戰。2024 年 9 月愛奇藝起訴 MiniMax 的版權糾紛,揭開了大模型訓練的暗箱—— " 數據荒 "。
算法、算力和數據是支撐 AI 文生視頻模型運行的核心三要素,也是決定技術突破的基礎。
數據是模型訓練的原材料,訓練數據越多,模型越強大。沒有穩定的數據來源,大模型的訓練無從談起。經過 " 百模大戰 ",高質量數據已變得越發昂貴且稀缺。
強如 OpenAI 也難逃 " 數據荒 " 的困境。
2023 年,OpenAI 因擅自使用媒體數據,惹惱了歐美主流媒體,最終拿錢消災,與 Politico、《時代》、《金融時報》等籤訂了付費協定。同年 5 月,OpenAI 首席執行官奧特曼公開承認,AI 公司在不久的将來會耗盡互聯網上所有的數據。
去年 8 月,OpenAI 被超過 100 位 YouTube 主播集體訴訟,指控其擅自轉錄數百萬個 YouTube 視頻來訓練大模型。OpenAI 的前任 CEO Mira 在采訪中被問及是否拿 YouTube 的視頻訓練 Sora,Mira 拒絕了回答。
當互聯網公開數據即将耗盡,擁有私有數據池的平台便擁有了護城河。相信這也是快手、字節、阿裏、騰訊等擁有長短視頻平台產品的廠商,争相入局的原因之一。
快手、抖音這樣的短視頻平台,天然擁有數據資源禀賦,多年來積攢了巨量、豐富的視頻數據;阿裏旗下的優酷,為國内三大視頻平台之一,坐擁高質量的視頻資源。
谷歌的文生視頻模型 Veo2 被認為比 Sora 還強大,暫且不分析復雜的技術問題,光是谷歌湧有 YouTube,就比 OpenAI 少了許多數據來源煩惱。
當技術水平尚處于統一競争維度,都未能打破算力、算法和數據禁锢,文生視頻賽道的競争也開始演變為平台級生态系統的對抗。
商業化前哨戰,從流量狂歡到價值沉澱的路徑探索
槍戰片版《甄嬛傳》,武打劇類《紅樓夢》,大熊貓做家務……在快手、抖音、小紅書等社交平台,這些 " 魔改 "、創意十足的小視頻播放量屢創新高。
雖然創作者已經率先分得流量甜頭,但與通用語言大模型的商業化歷程類似,留給文生視頻的發育時間注定不會太久。
2025 年,文生視頻勢必要經歷從技術崇拜到商業理性的範式轉換。
參考行業基準線 Sora Turbo 的訂閲制收費模式,每月 20 美元可生成 50 個視頻。具體而言,月收費 20 美元的 ChatGPT Plus 用户可直接使用 Sora,但每月最多生成 50 個 480p 視頻或更少的 720p 視頻,時長為 5 秒。月收費 200 美元的 ChatGPT Pro 用户,能享受更多的視頻生成數量和更高的分辨率,時長達 20 秒。
而中國廠商正在積極探索更具本土特色的變現路徑。快手提供免費額度,并設定了收費梯度,月費分為 66 元、266 元和 666 元三檔。用户每次登錄能免費獲得一定數量的靈感值,消耗完需要開通會員獲取靈感值,才能繼續生成視頻。
或許是出于促進内容生态繁榮的需求,2024 年 10 月 18 日,快手可靈啓動了首期 " 未來合夥人計劃 ",推出一站式 AIGC 生态合作平台,幫助創作者降低創作門檻。但這種 2C 模式面臨雙重挑戰:個人用户付費意願天花板明顯,而專業創作者受制于平台流量管控策略。
因 AI 視頻容易引發版權糾紛,且若平台充斥太多 AI 視頻,會引起用户反感,進而影響社區生态。為此廠商們也在積極探索更多變現路徑以求破局。
抖音和博納合作了 AI 科幻短劇《三星堆:未來啓示錄》;快手聯合賈樟柯、李少紅等 9 位知名導演,依托可靈制作出品 9 部 AIGC 電影短片。但具體收益如何還有待考證。
除影視合作外,電商也是 B 端商業化的重要試驗田。如阿裏面向平台商家開放專屬圖生視頻,推動營銷落地;可靈将部分内測名額給了遙望科技等 MCN 機構,以加速技術的應用與推廣。
這些探索揭示出新的價值邏輯——當技術競賽陷入僵局,場景化落地能力加速賽程推進。
行業終局思考,走出 OpenAI 的範式 " 陰影 "
DeepSeek 用 MoE 架構突破算力瓶頸,文生視頻領網域同樣需要架構級的變革。
多模态大模型與神經渲染的結合,量子計算對擴散模型的加速,甚至是腦科學啓發的認知架構,這些前沿探索雖然風險巨大,卻是打破同質化競争的唯一出路。
當技術突破、數據生态與商業落地形成正向循環,中國 AI 企業才能真正構建起自己的護城河。
在這場虛實交織的競賽中,最後的赢家不會是某個技術參數的保持者,而是那些能重新定義視頻生成與物理世界關系的規則制定者。
正如智能手機革命不僅是通信工具的更新,文生視頻的終極價值,在于創造人類認知與數字世界互動的新範式。這條路注定漫長,但正是這種超越短期功利的堅持,才能孕育出真正改變世界的創新力量。