今天小編分享的互聯網經驗:中文版Sora,難倒互聯網大廠,歡迎閲讀。
圖片來源 @視覺中國
文|智能 Pro
科技圈當下最火話題,非 Sora 莫屬。Sora 的影響力也早已衝出硅谷、輻射全球,在大洋彼岸的中國掀起滔天巨浪。
在二級市場,Sora 概念股連日走高,勢頭比起當初的 ChatGPT 概念股有過之而無不及,比如 2 月 20 日,A 股、港股 Sora 概念股板塊就有超過 60 只個股飄紅,其中 5 家企業股價暴漲 40% 以上。
在科技互聯網圈,争奪中文版 Sora 首發權,成為巨頭的新目标。不過和當初的中文版 ChatGPT 首發争奪戰相比,中文版 Sora 的研發難度也更大,大廠們大多面露難色。此前被盛傳将推出首個中文版 Sora 的字節跳動,就在 20 日辟謠,稱相關產品的效果距離 Sora 還有很大差距。
在 Sora 橫空出世前,國内 " 千模大戰 " 早已陷入膠着狀态,未曾想,風口突變,從圖文生成轉向視頻生成," 千模大戰 " 也将進入全新階段。
在上一階段稍稍落後的字節跳動在視頻業務上有先天優勢,自然不會錯過這個彎道超車的機會,這不僅事關大廠的面子,更是為了捍衞其核心業務——抖音 CEO 張楠突然辭職專攻剪映,也被視作是字節重視 AIGC 的動作。
雖然沒有中文版 Sora,但字節一直在死磕 AI
在文本生成式大模型領網域,字節的起步時間無疑是比百度、阿裏巴巴等大廠要晚,這也讓字節的高層十分懊惱。CEO 梁汝波就在内部講話中直言,很難相信技術團隊直到 2023 年才讨論 GPT,要知道業内做得比較好的大模型企業都是在 2018-2021 年起步的。
好在,知恥而後勇,還有亡羊補牢的機會。
一開始,字節希望以量取勝,在去年下半年扎堆上線了十多款 AI 產品。
這當中,既有大廠标配的基礎大模型 " 雲雀 ",也有在 C 端最流行的 AI 對話類應用,如 " 豆包 "、" 話爐 " 和 " 抖音小晴 ",還有輔助創作的 AI 工具,如劇情創作平台 "BagelBell"、電商内容創作應用 " 即創 " 等。由字節技術副總裁洪定坤率領的新部門 Flow,則在背後為這一系列 AI 產品保駕護航。
(圖片來自豆包官網)
據悉,字節還在内部開放了大量活水崗位,希望調集全公司最優秀的技術、產品人才集中精力搞 AI。除了前面提到的洪定坤外,原飛書產品副總裁齊俊元、抖音社交負責人陸遊、字節跳動產品與戰略副總裁朱駿等高管也先後馳援。甚至在國外,字節跳動也組織了 50 多人的研發團隊,負責推進 "Cici" 項目。
然而,字節在文本生成大模型這條賽道确實是落後了,即便後期不斷加大投入,恐怕也很難抹平差距。明白這個道理後,再結合自身的業務狀況,字節開始發力影像、視頻生成領網域,試圖确立差異化優勢。而在春節前後,内部的一系列人事變動、團隊重組,則是其為視頻生成大模型奮力一搏的最佳證明。
2 月 9 日,張楠宣布辭去抖音集團 CEO 一職,原因是要把精力集中到剪映的發展上。眾所周知,張楠是字節内部最有權勢的高管之一,很多人将其視為僅次于集團 CEO 梁汝波的二把手。其掌管的抖音集團,則是字節最重要的業務,此次自降身份掌管剪映,在内部、外界都引發了不少争議。
如今再看,作為一款視頻剪輯及輔助創作工具,剪映是字節業務版圖裏和視頻生成大模型契合度最高的一環,是承載 AI 視頻創作業務的最佳抓手。像張楠這種級别的核心高管主動接管剪映,恰好説明字節對該項目的重視。
有消息指出,張楠去年已經把大部分精力花在剪映身上,抖音的各項業務分别交給韓尚佑(抖音集團新任 CEO)、魏雯雯(抖音電商總裁)、蒲燕子(抖音本地生活負責人)等高管接手。
去年 11 月,剪映就悄悄内測了一項名為 "Dreamina" 的 AI 輔助工具,用户只需要輸入文字,即可生成創意影像。算上研發周期,該項目的立項至少在去年二季度前。如果上述消息屬實,張楠帶領的團隊應該在更早的時候就接手了字節的 AI 產品研發工作。
張楠正式官宣辭任集團 CEO 之後,也有消息稱其帶領的團隊将推出一個全新的 AI 視頻生成軟體。如今,這款備受期待的產品—— "Boximator",終于浮出水面,這也是字節衝擊中文版 Sora 的王牌。
Sora 攪動一池春水,大模型改造短視頻行業
據悉,字節内部對 "Boximator" 的定位為創新性視頻生成大模型,将通過控制對象運動的方式,精确控制視頻人物、物體的運動。該模型采集的訓練數據來自 webVid-10M 數據集,并在 PixelDance 和 ModelScope 兩個視頻生成模型中進行訓練。
然而,正如字節日前的回應那般,視頻生成大模型的研發難度比想象中更大。根據字節方面的説法,"Boximator" 保真率、畫面質量、視頻時長等方面距離 Sora 還有很大差距,暫時不具備落地的條件,預計還要 2-3 個月才能開放測試。
但 2-3 個月,可以發生很多事情——Sora 可能已經迭代到更先進的版本,和尚未落地的競品拉開更大差距;其他競争對手也可能迎頭趕上,搶在字節之前推出同類產品。
對于這些可能性,字節跳動心裏肯定有數,而且比誰都着急。原因很簡單:比起文本生成大模型,視頻生成大模型和字節跳動的短視頻、直播等核心業務關聯更緊密,影響也更大。
如果説搜索是第一個被 ChatGPT 颠覆的行業,那麼長 / 短視頻肯定是最有可能被 Sora 颠覆的行業。正如當初谷歌、百度、360 等巨頭傾力投入文本生成大模型研發那樣,字節在視頻生成大模型這一戰中也不容有失。因為随着視頻生成大模型在日後逐漸普及,短視頻内容生產、營銷、變現等一系列邏輯都可能發生變化。
以内容生產為例,制作方對真人演員、編劇、剪輯人員的需求很有可能會減少,傳統的制作流程也會被大幅簡化、制作時長将被壓縮。這帶來的直接後果,不止是生產内容數量呈幾何級增長、成本明顯減少,也必将導致更殘酷的競争,加速優勝劣汰。
在 Sora 走紅之後,有關剪映會不會被取代的問題已經迅速成為焦點話題。留給剪映的路只要一條,那就是主動擁抱 AI,向 Sora 看齊。要是能成功抱上 AI 這條大腿,剪映的用户體量可以再上一個台階,商業化潛力也将大大提升。
舉個最簡單的例子,現在的剪映只提供基礎服務,收費模式很難推廣。但如果能像 Sora 那樣,提高内容創作者的效率、降低成本,收費也就更有底氣。Stability AI、Runway 等獨角獸的估值大幅飙升,就證明了這條路線的可行性。
當然,因 Sora 而焦慮的大廠絕不止字節跳動一家。短視頻行業的另一個巨頭快手,還有愛奇藝、騰訊視頻、優酷、哔哩哔哩為首的流媒體平台,也必須啃下視頻生成大模型這塊硬骨頭。
可能是 Sora 的衝擊太大,還需要時間消化,也可能是吸取之前的教訓,先埋頭幹實事不着急到台前造勢,上述大廠大多尚未表态是否及何時推出類 Sora 應用。截止發稿時,只有芒果超媒表态将探索文生視頻等 AI 技術在傳媒領網域的落地。但明眼人都看得出,這些大廠沒有一個會缺席這場全新的 " 千模大戰 "。
有危機感,就會有動力。大廠們集體衝刺,到底誰能率先撞線?
衝刺中文版 Sora,哪家中國大廠先撞線?
要猜測誰能率先研發出中文版 Sora,或者説類 Sora 視頻生成大模型,得先看一下這類產品的研發難點。
從 openAI 公布的報告來看,Sora 并沒有應用什麼全新研發成果,核心技術都是早已公開的。這當中,視頻壓縮網絡、擴散模型、視覺補丁(類似于本文生成大模型的文本标記)、影像及視頻編輯是最關鍵的幾個環節。本質上講,Sora 仍是一個基于 Transformer 架構的擴散模型,和 ChatGPT 有很多相似之處。
當中的技術原理和繁瑣的訓練流程,這裏不再一一展開。可以确定的是,大廠們都具備開發中文版 Sora 的基礎,起跑線不會有太大差距。除了考驗财力之外,和之前的中文版 ChatGPT 之争一樣,數據樣本、算力、測試條件,将很大程度上左右最終賽果。
這當中,數據樣本關系着大模型的效果,訓練數據越豐富、越完整,視頻大模型就能越接近物理世界的真實情況。算力則是訓練效率的決定性因素,是跑赢競争對手的關鍵。測試環節更多是決定了產品落地效果,以及穩定性。
硅谷巨頭的選擇出奇一致,都在拼算力。openAI CEO 阿爾特曼表示,計劃籌集 8 萬億美元投資 AI 芯片,徹底解決 AI 大模型訓練的算力問題。微軟、Meta、谷歌等大廠在瘋狂囤積英偉達 H100 的同時,還在抓緊時間自研芯片。這些原本為文本生成大模型準備的殺招,現在能完美應用到視頻大模型身上。
國信證券在最新一份研報中指出,相較于 ChatGPT 等文本生成類大模型,Sora 訓練數據量明顯高出一個級别,對算力的要求自然也更苛刻了。根據該研報援引的數據,以全球最大視頻分享網站 YouTube 為數據源,一年的增量視頻大約為 157.68 億秒,即便是采用英偉達最先進的 H100,單次訓練也需要一個月,GPU 消耗量為 156.98 萬張。
眾所周知,H100 長期處于供不應求狀态。加上不可抗力影響,國内的大廠們在算力這一塊大概率會落後于硅谷巨頭,唯有在其他環節努力縮短差距。相較之下,字節在訓練數據源這一塊就比其他大廠更有優勢。
要知道,Sora 對比其早前的 PixelDance、Stable Video Diffusion 等未成形視頻大模型有顯著提升,數據量是很關鍵的一點。抖音和 TikTok 是國内和海外市場用户、創作者規模最大的短視頻應用,擁有最多的短視頻内容,可用于訓練大模型。更不用説,字節旗下還有今日頭條、西瓜視頻等内容庫,完全不愁數據源。不過其他大廠也不會落後太多,而且肯定會想方設法抹平差距。
這幾天的觀察下來,和當初同樣出道即紅遍全球的 ChatGPT 不同,業界人士對 Sora 的态度除了贊嘆、敬佩,還帶着更深的恐懼。這不僅是因為 Sora 的視覺衝擊力比 ChatGPT 更強,還因為前者對相應產業的改變路徑是相當清晰的——這也決定了大廠會傾注更多的資源,務求盡快打赢這場硬仗。
總而言之," 千模大戰 " 已經進入新的階段。假以時日,我們肯定能看到很多中文版 Sora。只不過對大廠來説,既然不可能成為 " 唯一 ",就只有争下 " 第一 " 才有意義。