今天小編分享的科技經驗:抖音快手新戰場,視頻生成大模型的同與異,歡迎閲讀。
文 | 新立場 Pro
動态視頻生成 AI 應用正在迎來新的變數。
2023 年,Runway 發布了文生視頻 / 圖生視頻大模型 Gen-2 ;2024 年初, OpenAI 的 Sora 展示視頻又掀起了一波讨論,不過目前 Runway 缺乏漢化版本, Sora 還處于未公開階段,被外界戲稱為期貨,而瞅準了這段空窗時間,國内也見縫插的發布相關模型 / 應用,發布者是國内最大的兩個短視頻平台——抖音和快手
今年 6 月份,快手開放了可靈 AI 大模型使用申請,号稱 " 全球首個普通用户可用的真實影像級視頻生成大模型 ",此後不斷更新并在 7 月 25 日全面開放内測,同時正式上線了會員體系;緊接着在 7 月底和 8 月初,字節的即夢 AI 的 1.0.0 版本正式上架到安卓 / 蘋果應用商店,而在此前 5 月份,剪映 Dreamina 官方就已宣布其品牌的中文名為 " 即夢 ",并上線相關 AI 視頻生成功能。
與國外不同的是,國内的 AI 視頻生成大模型不出所料地由最大的兩個短視頻平台先發制人入局。但具體而言,即夢 AI 和可靈 AI 的初期的應用布局不盡相同,之于其母公司的意義也大相徑庭,畢竟字節内還有豆包,可靈 AI 之于快手,更接近于 " 全村的希望 " 這一角色。
另一方面,二者生成的 AI 視頻風格顯然有着差别,即夢似乎更擅長動畫風,可靈卻卷向影像風。二者的這種差異與前期的布局不無關系,雖然目前還無法説明彼此模式的優劣幾何,但從當下的輿論來看,影像風的 AI 視頻似乎要更有新鮮感。
即夢 VS 可靈,特性和地位大不相同
從目前輿論偏向來看,字節即夢 AI 的視頻生成表現不如快手可靈 AI。《新立場》認為,這來源于其各自的視頻剪輯平台剪映和快影本身的特性不同,以及整個字節系和快手系對 AI 的布局也有所差别。
剪映的即夢 AI 作為一個單獨的移動應用需要更長的上線周期,而快手選擇了直接将移動端的應用搭載于其視頻剪輯平台快影上,極大縮短功能全面上線的周期和難度。
不過關于剪映為何要重新開辟出一個應用,在《新立場》看來,不管是從月活提升需求,App 體量,以及收費模式來看,剪映都必須将即夢 AI 單獨開辟出一個應用。
首先剪映本身的月活用户在整個移動端視頻剪輯這個賽道來看早已一騎絕塵,據 Qusetmobile 此前的數據顯示約有一億,這甚至不包括剪映的海外版 CapCut ,因此剪映更需要考慮的是就将其直接集成到剪映本身的 App 上的性價比。
由于剪映上本來已有相關 AI 圖生圖的功能模塊,以及特定模式的圖生視頻模塊,加之剪映自身又十分吃手機内存,若将即夢 AI 的視頻生成所有功能作為一個模塊植入剪映,會使得剪映本身變得更加臃腫。
并且收費模式的平衡也是個問題,如果将即夢 AI 直接植入剪映,那麼只可能有兩種收費模式:1、直接一刀切提高剪映整體會員收費,2、或者在會員收費基礎上,即夢 AI 相關功能另外收費。然而目前剪映的會員費用已經不算低了,這兩個模式對于原本的剪映用户來説都會難以接受。
但對于快手的快影來説,這三方面情況又恰好跟剪映相反:與剪映相比月活提升空間更大,可以靠更多的更強大的 AI 功能模塊來引流;App 本身體量也不算大,原本的會員費也用遠遠低于剪映,目前剪映包年會員費用是 499 元,而快影連續包年 88 元,費用可提升空間還很大,因此可靈 AI作為功能模塊植入是目前更優的解法。
另一方面,可靈 AI 跟即夢 AI 在内部的地位大不相同。
在字節系内應用層面,除了即夢 AI,還有聊天機器人豆包,豆包跟即夢一樣擁有單獨的移動端 App,同時也植入在了諸如飛書的字節系應用平台上。根據 Similarweb 的榜單,在 7 月,豆包的訪問量已經排到了國内第四(前三分别是 Kimi,文心一言以及通義)。除此之外字節在應用層還有其他諸如貓箱、星繪等 AI 應用,但由于這些應用的存在感并算不高,在此就不多贅述。
而反觀快手,早前發布的快意大模型在應用層面水花并不算大,可靈 AI 應用一上線即引起了廣泛關注。
8 月 27 日,在快手的光合創作者大會上,快手蓋坤透露,已有超過 160 萬人使用過快手的視頻生成大模型可靈 AI,并累計生成超 1600 萬條視頻。甚至在 7 月的 Similarweb 榜單上,可靈 AI 排到了國内第 18 位,是目前國内排名最高的視頻生成類 AI 應用。
只不過由于即夢 AI 的 app 正式上線和可靈 AI 的内測開放都是在 7 月,我們還需要等待 8 月榜單的發布以得出進一步的結論。
據悉,早在 Sora 展示視頻發布後不久,就有相關人士猜測其模型為 "Diffusion 模型和 Transformer 模型的結合 ",簡單來説就是 Transformer 理解文字,Diffusion 擴展圖片。而在可靈 AI 官網的介紹中也提到:" 基于對文本 - 視頻語義的深刻理解和 Diffusion Transformer 架構。"
據業内人士稱,這樣的架構在今年年初時業内就已普遍開始研究。也就是説,快手開始研究可靈 AI 也許還要更早一點。雖然 Diffusion 和 Transformer 結合并不能算一個 Creative idea,但那時國内的大多大模型廠商還在各種通用百模大戰之中,能選定視頻生成這樣一個更具體甚至是投入更大的賽道,并非一個容易事。
對于字節來説,豆包和即夢盡管是不同的團隊在負責,但就以上的榜單來看,比起即夢 AI,豆包 AI 在如今各方 AI 應用大戰白熱化的階段,似乎更加能夠幫字節搏出位。因此,可靈和即夢之于其母公司的意義是完全不同的。
可靈 AI 之于快手,也自然接近于 " 全村的希望 " 這一角色。
即夢擅長動畫風,可靈卷向影像風
OpenAI 目前在全球 AI 界獨領風騷除了自身技術的領先,也與其優先發布奠定的用户心智以及獲取了更多真實數據訓練機會有關。只是問題在于,視頻生成式 AI 的先手優勢,是否會有聊天機器人 AI 影響那麼大,在 OpenAI 看來,也許并不大,不然 Sora 也不會如此不慌不忙。
事實上除去 OpenAI 這一極端案例,就國内的 AI 聊天機器人而言,單純的時機先手優勢也不重要,甚至原本平台的規模優勢也不重要。 OpenAI 之後,國内大廠最先刷存在感的大模型是百度的文心一言,2023 年 3 月份就已上線,而目前流量排名第一的 AI 應用卻是獨角獸 Kimi ,上線于 2023 下半年。
原因在于,在聊天機器人這個賽道,Kimi 占據的是某個特定内容模式的先手優勢。
以 Kimi 和文心一言、通義等 AI 的模式作為對比來看,大廠的這些 AI 聊天機器人一開始就學着 OpenAI 的 GPT ,衝着更全面更通用的方向去的,這必然會導致不管是獲客層面還是模型訓練層面都會廣而不精。而 Kimi 盡管也是通用大模型,但卻有一個非常精準且高效的切入點——主要應用場景為專業學術論文的翻譯和理解、輔助分析法律問題、快速理解 AAPI 開發文檔等。顯而易見,這方面的内容更具有邏輯性,對于 AI 來説相對更容易理解和輸出。
也就是説,Kimi 背後的月之暗面比大廠都更早錨定了初期的核心付費用户以及商業化模式,加之足夠堅定的營銷投入以及精準的營銷獲客渠道,有助于 Kim 實現生成内容質量上的滾雪球。
據《智能湧現》報導,月之暗面在 B 站的轉化人均成本報價高達 30 元左右。 這個價格不僅在 AI 界,在大多數領網域也算十分高昂。 從競價廣告的邏輯來看,其出價更高也意味着将分到更多的流量。 不過也許對于 Kimi 來説是值得的,畢竟其核心閱聽人群體跟 B 站用户重合度也比較高。
而在視頻生成 AI 這個賽道,可靈 AI 掌握的也是内容模式的先手優勢。
實際上,目前市面上早已不缺某個特定模式下的 AI 視頻生成應用,例如此前很火的各種 AI 動畫風格,瞬息全宇宙風格,各種日漫遊戲風格,以及靜态人物照片生成某個特定動态表情的應用等……這些應用往往體量小,更加容易達成商業化。比如現在抖音用户正在嘗試的 "AI 擁抱 " ——輸入兩個人單獨的照片,即可生成二者擁抱的動态視頻。
據悉,這個功能來自一個叫做魅臉的小程式。而該小程式商業化方式十分粗暴,安卓端生成三次擁抱視頻收費 9.9 元。并且不管是抖音還是快手上都有這個小程式。
但顯然,以上這些 AI 視頻内容模式都無法徹底給業内帶來震撼,僅可作為 C 端用户的日常娛樂消遣。而抖音用户相比起快手用户也更愛探讨生成這類生成 AI 相關的内容(以兩個平台月活用户和 AI 話題浏覽量的比值差距得出)。
不知是否有受到自身平台這些視頻内容模式的影響,不管是如今社交媒體上的一些測評結果,還是《新立場》自主測評結果來看,即夢 AI 生成的内容确實在某些特定的底圖和描述詞之下表現更佳;而更多時候,快手的可靈 AI 生成的視頻,物體動态和光影更自然,畫面質感更佳。不過在移動端,可靈 AI 生成内容的速度要慢于即夢 AI。
以上兩個視頻是同一張鮮花照片作為底圖,輸入同樣的描述詞過後兩個 AI 各自生成的效果。即夢 AI 的生成内容更奔放更有動畫感,可靈 AI 則是更克制更有靈氣的影像感,目前的輿論也确實更偏向于認可後者這種自然的影像風格。
也就是説,可靈 AI 也許跟 Kimi 一樣,提前想清楚了自己首先要服務的那部分核心用户以及内容模式——對影像有更高要求的人群,并預想到了只有這種内容模式才能夠給業内帶來一些新的變數。
這時再看抖音方公布即夢 AI 這個中文名字時,快手的可靈 AI 很可能已經在為上線做準備了。
寫在最後
不過,由于抖快各自掌握着流量龐大的視頻内容宣發渠道,所以如果有一天抖音的即夢 AI 生成的内容确實明顯更讓用户驚嘆,倒也不難通過自身平台向用户傳遞這一信息。
正如一些特定的小程式或 AI 應用一樣,此前僅僅一個熱門挑戰,熱門視頻,就可以掀起新的一輪圖生視頻浪潮,即夢 AI 當然也可以用自身平台的優勢達到口碑反轉,只是可能很難再以原本動畫風格的内容形式出圈,用户可能正在對這些動畫風格的生成内容失去新鮮感(并且動畫方向的版權問題更大)。
所以即夢 AI 接下來需要繼續發力的點,也許就是可靈 AI 的影像風格。
此外,即便 Kimi、阿裏、百度等大廠主導的聊天機器人這個賽道目前還算是和平共處,但快手和抖音帶起的 AI 視頻生成浪潮效果卻是立竿見影,更考驗模型本身的内容生成質量和進化速度,接下來其他大模型廠商很有可能也會加入到這場 AI 生成視頻的競争中。
按照本文的邏輯,有着視頻号同時也有強大配套娛樂產業的騰訊,在傳統互聯網大廠中似乎更有優勢,但那就是後話了。