今天小編分享的科學經驗:Sora之後,視頻生成模型的中國牌局,歡迎閱讀。
Sora,自 2 月 16 日 OpenAI 發布後一直被吐槽是 " 技術期貨 ",終于在 12 月 10 日,正式版 Sora 露面了,可以生成最高 1080p 分辨率、最長 20 秒的視頻。
OpenAI CEO 奧特曼稱,Sora 正式版是視頻生成領網域的 GPT-1 時刻。
但國内 AI 企業,并沒有像跟進 GPT 時期一樣,在視頻生成領網域也與 OpenAI 保持同步,而是呈現出更復雜的态度。
有人選擇跟進,比如 Sora 問世之後,互聯網公司如阿裡、字節跳動、快手、騰訊等,AI 公司如智譜 AI、MiniMax、愛詩科技、生數科技等,都陸續發布了視頻生成模型,不少都表示達到或超越了預覽版 Sora。
也有人選擇不跟進,包括互聯網公司中的百度,李彥宏曾明确表示," 無論 Sora 多麼火爆百度都不去做 "。AI 公司如百川智能,也明确表示不會做類 Sora 模型,月之暗面、商湯科技、零一萬物雖然都有文生視頻模型,但都不作為重點。
視頻生成賽道,不再延續 GPT 時代的發展模式,即 OpenAI 打出一張王牌,國内科技企業搶着要跟。Sora 之後,國内 AI 牌局開始有了自己的節奏,也呈現出更為復雜的局勢。
有能力做通用基礎大模型的國内科技公司,在技術路線、商業前景等判斷上,開始出現明顯分野。我們就從國内企業跟進 Sora 的選擇與否,聊聊視頻生成的中國牌局。
首先我們要明确一下,國内對标 Sora 模型的科技公司,到底在做什麼?
簡單來說,Sora 視頻生成模型的核心技術路線是 Diffusion+Transformer 相結合,通過文本(自然語言)、圖片、視頻作為提示詞 prompts 進行視頻生成。
對标 Sora 的模型,至少要具備幾個特點:
1. 通用性,不針對某一類風格、行業、角色等,任意内容的視頻都可以生成。
2. 高質量,畫質精度高(達到 1080p)、視頻時間長(最長達一分鍾)、畫面一致性強(理解物理規律)。
面對 Sora,國内科技企業不像 ChatGPT 推出時那樣毫無準備。但到底跟 or 不跟,卻不再像 ChatGPT 那樣高度一致,而是分化成了三類:
第一類,明确跟進。
互聯網公司陣營中,以視頻為核心業務的字節跳動、快手等,以及綜合科技公司騰訊,數字基建成熟,技術人才資源充沛,内部有視頻產品基因,幾乎第一時間選擇了跟進。字節跳動推出了即夢 Dreamnia,快手也發布了可靈大模型。騰訊以混元大模型作為核心,發布并開源了混元多模态生成模型,被認為是騰訊版 Sora。
大模型初創企業中,智譜 AI 的行動最為敏捷,今年 7 月發布了 AI 視頻生成工具清影,支持用戶通過文本 / 圖片,生成 10 秒、4K、60 幀視頻。MiniMax 的海螺 AI 也在十月增加了視頻生成能力,支持文本提示詞生成 6 秒視頻片段。
第二類,堅決不跟。
與第一類企業的态度截然相反,互聯網公司和大模型創企中也有堅決不跟 Sora 的。比如 Sora 問世之後,百川智能的王小川就表示,團隊有人提出要做 Sora,但他明确表态稱不會跟進這個方向。
同樣想法的還有百度李彥宏,盡管百度已經在視頻生成領網域取得了一定的成果,但他不做 Sora 的态度也非常堅決,原因是 Sora 的商業化可能要五年甚至十年,目前百度更聚焦在大語言模型、多模态大模型,沒有類 Sora 的產品化嘗試。
第三類,淺嘗辄止。
除此之外,還有大量國内企業對于 Sora,出于 FOMO" 恐懼錯過 " 心理有所布局,但并不重點投入,處于一種淺嘗辄止的狀态。
比如阿裡系中的阿裡媽媽團隊發布了 tomoVideo,試水電商營銷的視頻生成場景;" 大模型六小虎 " 中,月之暗面也推出了視頻生成模型,但仍聚焦在 kimi 產品上;零一萬物入局 B 端業務,而視頻生成模型面向的影視制作行業正處于調整期,類 Sora 產品也很難成為核心增長點。
總結一下,如果說全球大模型是一場 " 鬥地主 ",那麼遊戲規則不再是 OpenAI 打出一張王炸,國内科技公司紛紛跟上,而是各自按照自己手裡的牌面、業務重要性和優先級,來确定 Sora 的出牌策略。
為什麼到了 Sora,大模型行業的遊戲規則就變了?
國内科技企業的表現說明,對于 Sora 存在非共識,整體還是比較混亂、規則模糊的階段。迷霧中的領網域,遊戲規則自然只能自行探索。
如今視頻生成領網域的現狀,籠罩着三重迷霧。
技術迷霧:OpenAl 認為 Sora 是世界模拟器、通往 AGl 的一條有前途的途徑,這一技術路線目前存在不少争議。
比如李飛飛、lecun 等人認為,Sora 不能實現 AGI。李飛飛提出,Sora 仍是二維影像,只有三維空間智能才能實現 AGI。Sora 預覽版展示的 " 日本女性走過霓虹閃爍東京街頭 " 的生成視頻,就無法把攝影機放在女子背後,說明 Sora 并沒有真的理解三維世界。學術大神 Lecun 也點名不看好 Sora,說它根本不是真正的世界模型,并且仍會面臨 GPT4 的巨大瓶頸。
确實,即使是正式版 Sora,生成的手部細節不準确,動态過程中的一致性等問題,依然存在。
而國内公司堅定不跟進 Sora 的原因之一,也是對這一技術路線保留意見。比如百川智能的王小川就認為,Sora 只是階段性產物,技術高度、突破性以及應用價值均不及 GPT。總之,實現 AGI、模拟物理世界的技術路線的開放性,決定了 Sora 并非唯一解。
商業迷霧:視頻生成模型的商用前景、投資回報比,在短期内都不明朗,成為勸退國内企業的另一重阻礙。
預覽版和正式版 Sora,都延續了 OpenAI 的 " 暴力美學 ",OpenAI 研究科學家 Noam Brown 表示,Sora 是 scale 力量最直觀的展示,也就是通過堆算力、對數據、對參數量的方式,來嘗試讓大模型湧現出理解物理世界的能力。這種方法成本高、資源投入大。是否跟進 Sora,就取決于各家對模型的商用預期和投資回報比。
如果視頻生成模型面向 ToB 收費,通過 API 或 SaaS 服務,都需要基礎模型廠商投入大量人力去優化業務流程、開發互動頁面,而影視行業正處于調整周期,AI 影視制作業務的增長有限。這就在無形中增加了 AI 企業的機會成本,因為同樣的人力、物力、算力,投入到金融 AI、教育 AI、大型政企等領網域,顯然收效更大。所以,百度、零一萬物等公司,都将視頻生成領網域作為邊緣業務,并不重點投入。
而 ToC 場景中,一方面個人付費意願不高,視頻生成并不是大眾日常使用的高頻場景,而且生成成本和訂閱費一般都比文本模型高,加上 Sora 模型都沒能解決幻覺、一致性難題,未必能創造實際價值,所以 C 端付費規模十分有限。另一方面,模型完全免費,把視頻生成模型產品作為企業的流量入口,這一商業模式只适合将視頻作為核心業務的企業。
比如快手、字節跳動,本身就有核心的視頻業務,可以快速實現模型的規模化。面向 C 端用戶或 B 端生產力工具,這類企業能夠快速将視頻生成能力與現有產品進行集成與整合,模型研發的邊際成本是會随着規模商用而下降的。
整體來看,對國内絕大多數基礎模廠,視頻生成領網域都是一個相對邊緣、投資回報比不高的業務。
第三重迷霧,就是市場格局的競争迷霧。
雖然視頻生成模型現在商業前景不明,但有沒有可能以後會爆發,企業悄悄投入然後驚豔所有人?這種押注邊緣賽道 " 撿大漏 " 的商業神話,在大模型身上恐怕很難發生。
當前,大模型的產品化、商業化前景普遍比較模糊,通用模型廠商都需要盡快從一大堆不甚明朗的產品中,選出一個更高成功概率和更大市場潛力的選項,重點投入。而在所有產品中,視頻生成模型是一個尤為沉重且具有挑戰性的項目。這種情況下,肯定要優先考慮成功率更高的產品,降低視頻生成模型的業務優先級。
換一個角度,即便企業将視頻生成模型的優先級放到最高,恐怕也很難建立起競争優勢。因為當前大模型的市場競争情況跟 GPT 時期不太一樣,如今各家在基礎訓練設施、核心架構設計與技術儲備等方面都有了一定積累,復現 Sora 并上線類 Sora 應用的技術壁壘,其實沒有 ChatGPT 時期那麼難了。這也意味着,即使企業先發布了視頻生成模型,也未必能長期保持競争優勢和市場壟斷地位,這種競争态勢也削弱了 Sora 的商業想象空間。
技術迷霧、商業迷霧、競争迷霧,仍然籠罩在視頻生成領網域,導致 Sora 這一場牌局有着太多的不确定,和太多可能。哪種理解是對的,哪條路線是最終赢家,目前都言之過早,各家只能按照自己的遊戲規則玩下去。
大模型技術必須繼續發展下去,但從 Sora 開始,國内科技企業不再緊跟着 OpenAI 亦步亦趨,開始有了自己的節奏感。
具體表現在,對于 Sora 這樣一鳴驚人的新東西,國内企業在大模型產品化、商業化上都有了自己的理解與思考,開始自己定義玩法,跟進 Sora 展現的是實力,不跟進 Sora 展現的是心态與戰略定力。
此外,不一味跟進產品,但 OpenAI 的叙事能力仍然值得學習。
無論是 2 月用 Sora 搶走谷歌風頭,還是近期 Sora 正式上線,OpenAI 總能一次次帶動節奏、設定議題、吸引關注,這對于資本密集型 AI 企業是非常重要的能力。
可以不跟進 Sora,但不能遺漏關鍵技術。
以百度為例,雖然沒有推出 Sora 產品的計劃,但自身也沒有缺席關鍵技術,比如自研了多模态可控生圖技術,能夠在保持實體特征不變的情況下,實現影像的高泛化生成,而可控性的提升,恰恰是視頻生成下一階段核心中的核心。此外,百度也沒有完全無視視頻生成領網域,目前投資了視頻生成初創公司生數科技、AI 視頻短劇公司井英科技等。
聚焦主賽道,以自身核心業務、商業優先級等多元因素來确定追趕 Sora 的輕重緩急。大模型的牌局,國内企業正在找到自己的節奏感。