今天小編分享的互聯網經驗:字節快手迎來關鍵對決,歡迎閲讀。
作者 | 劉寶丹
編輯 | 周智宇
AI 競賽焦點已經開始轉向多模态,字節和快手在 AI 視頻賽道的競争也日趨激烈。
近日,快手正式發布可靈 2.0 視頻生成模型及可圖 2.0 影像生成模型,将視頻及影像創作的精準度帶上一個新高度。同期,字節 Seed 團隊正式發布 Seedream 3.0 技術報告,據第三方榜單 Artificial Analysis,Seedream 3.0 綜合性能已追平文生圖 SOTA 模型 GPT-4o,進入全球第一梯隊。
作為短視頻平台,字節和快手被認為是 AI 多模态領網域的有力競争者。經過一年多的技術追趕,雙方在 AI 視頻生成領網域都取得了不錯的進展。
根據 AI 產品榜 3 月數據,在全球 AI 產品增速榜(僅 APP)上,即夢 AI 以 173.57% 的月活增速位居第 5,是增速最快的 AI 視頻應用,其月活規模約 2037 萬,而可靈 AI 的增速僅為 36.44%,排名第 14。根據快手公布的數據,截至目前,可靈 AI 全球用户規模突破 2200 萬。
不過,當前 AI 視頻生成領網域尚未湧現類似 DeepSeek 在大型語言模型(LLM)領網域的标杆性產品,根據 Gartner 2024 年新興技術成熟度曲線顯示,該技術仍處于創新觸發期,這也意味着,字節和快手的競争仍處于早期階段。
過去十年,快手和抖音相繼崛起,共同開創了中國的短視頻時代。如今,AI 時代加速到來,這一次,快手和字節誰的勝算更大一點?
追趕
AI 視頻生成領網域還沒有一個像 DeepSeek 一樣出圈的產品,也正因如此,業内玩家都在試圖不斷迭代技術,來搶占這一心智。
進入 2025 年,快手和字節都開始推出重大技術迭代成果。
4 月 15 日,快手正式發布可靈 AI 2.0 視頻生成模型及可圖 2.0 影像生成模型。可靈 AI 2.0 的最大亮點在于以技術革新重新定義 AI 視頻生成标準:從 " 能生成 " 到 " 精準生成 ",從 " 工具輔助 " 到 " 創意夥伴 "。
發布會上,快手發布了 AI 視頻生成的全新互動理念 Multi-modal Visual Language(MVL),MVL 由 TXT(Pure Text,語義骨架)和 MMW(Multi-modal-document as a Word,多模态描述子)組成,能從視頻生成設定的基礎方向以及精細控制這兩個層面,精準實現 AI 創作者們的創意表達。
基于 MVL,快手發布了全新的可靈 AI 2.0 大師版,它全面更新視頻及影像創作可控生成與編輯能力,上線全新的多模态視頻編輯功能,支持二次編輯和處理。
當前,圖生視頻約占到可靈 AI 視頻創作量的 85%,快手發布的可圖 2.0 擁有多項核心優勢,比如,強大的復雜語義理解能力、電影級的畫面質感等。張迪介紹,可圖 2.0 文生圖能力迎來全面更新,模型出圖創意和想象力實現大幅躍升。
在快手召開新品發布會的次日,字節旋即披露了其文生圖模型 Seedream 3.0 的技術白皮書。
4 月 16 日,字節發布 Seedream 3.0 技術報告,距離字節公布 Seedream 2.0 技術報告僅過去一個月有餘。Seedream 3.0 的最大亮點包括原生 2K 直出,而且時間僅用 3 秒,大幅提升創作效率。Seedream 3.0 正式上線,目前已在即夢 AI 等平台全量開放。
華爾街見聞獲悉,Seedream 3.0 的研發始于 2024 年末,通過調研設計師等群體的實際需求,Seedream 團隊将圖文匹配、美感等行業共識性指标納入攻堅方向,同時,也将挑戰 2K 高清直出、快速圖片生成等業界難題作為核心目标。
無論是可靈 AI 的二次編輯功能,還是即夢 AI 的原生 2K 畫質,都是通往產業應用的重要技術突破。事實上,也只有達到產業級應用狀态,AI 視頻生成的價值也才有望體現。
如此緊追不舍的競争态勢背後,快手和字節過去一年持續對 AI 視頻生成賽道進行布局。
2024 年初,Open AI 通過 Sora 正式入局視頻生成領網域,引發全世界關注。彼時,快手在攻克文生視頻的關鍵技術,4 個月後,快手就發布了視頻生成大模型可靈,成為國内首個對标 Sora 的產品。
字節 2023 年才開始在内部會議上讨論 GPT,但追趕速度較快,去年底,字節的視頻生成模型和產品正式推向了市場。
去年 9 月,字節一舉發布了豆包視頻生成 -PixelDance、豆包視頻生成 -Seaweed 兩款大模型,正式宣告進軍 AI 視頻生成。11 月,原抖音集團 CEO 張楠轉戰剪映近一年後正式亮相,即夢 AI 推出了 " 一句話 P 圖 " 等能力,大幅提升了圖片中文字生成的準确率。
即夢 AI 在字節内部的重要性顯著提升。華爾街見聞獲悉,即夢 AI 所代表的視覺化產品被看好,字節試圖将即夢打造成 AI 時代的 " 抖音 "。2 月,原零一萬物 PopAI 產品負責人曹大鵬加入即夢 AI,負責移動端產品。他此前用一年時間将 PopAI 做到了千萬用户,且投資回報率(ROI)接近收支平衡點,是一枚得力幹将。
如今,快手和字節再次交戰,他們都在試圖将模型技術帶入生產級賽道。
押注
對于 AI 視頻生成賽道,字節和快手無疑是國内反應最快速的科技公司。
這是因為,他們都依靠短視頻起家,天然更懂視頻創作,但更重要的是一種 FOMO(Fear of Missing Out)心理。AI 技術将大幅降低視頻生成的門檻,當年,快手和字節都是因為降低了視頻拍攝門檻從而創造了視頻平台,AI 顯然更具颠覆性。
字節和快手布局 AI 視頻賽道的本質,是想要在 AI 時代復制出一個新的 " 抖音 " 和 " 快手 ",從而成功跨過新一輪技術周期。
就當下而言,字節和快手對 AI 視頻賽道的策略也各有側重。
對快手來説,AI 是破解公司增長曲線難題的最大抓手。除了 C 端訂閲用户,可靈 AI 也面向 B 端商家提供 API 接入等服務,可靈 AI 已與包括小米、亞馬遜雲科技等企業建立了合作關系。蓋坤披露,來自世界各地的超 1.5 萬開發者,已将可靈 AI 的 API 應用于不同的行業場景中。
3 月 25 日,快手科技創始人兼首席執行官程一笑在電話會上透露,自商業化以來截至 2025 年 2 月底,可靈 AI 的累計營業收入超 1 億元人民币。他表示,快手将會在 ROI 可控的前提下,不斷擴大可靈 AI 的用户宣傳和品牌影響力。" 我們有信心在 2025 年實現可靈 AI 營收規模的跨越式增長。"
對字節來説,即夢 AI 是整個 AI 戰略的核心版圖,也是公司通往 AGI 所必須攻克的難題。
年初,字節豆包大模型團隊已在内部組建 AGI 長期研究團隊,代号 "Seed Edge",鼓勵項目成員探索更長周期、不确定的和大膽的 AGI 研究課題,Seed Edge 的目标是探索 AGI 的新方法,鼓勵跨模态、跨團隊合作。
去年底,張楠曾表示,抖音,是一個 " 真實世界 " 的相機,借助 GenAI 技術,即夢希望成為想象力世界的相機,記錄每個人的奇思妙想,幫助每個有想法的人輕松表達、自由創作。
随着快手發布全新 2.0 模型,業内都在期待字節的下一步動作,尤其是豆包視頻生成模型 1.5 版何時會推出,雙方之間的技術追趕還是持續進行。
不過,對于 AI 視頻生成賽道的前景,目前仍處于探索階段。
百億私募和諧匯 TMT 軟體組凌晨對華爾街見聞表示,產業界對 Sora 為代表的 AI 視頻生成產品分歧點主要在于,如果把 Sora 當成 AIGC 的視頻生產工具,它的價值量不會特别大,可能就颠覆一下創意軟體這些工具,如果 Sora 是一個通用的視頻武器的話,它的想象力很大,比如,跟機器人進行結合。
近日,生數科技產品副總裁、Vidu 產品負責人廖謙表示,當多模态可以做到實時可控、可互動的時候,它可以是完全個性化的,屆時一定會誕生出帶來新體驗的内容平台,這個技術将應用在社交、遊戲、VR、AR 等多個領網域,會對所有的行業帶來非常深遠的影響。
整體來看,相較于大語言模型,AI 視頻生成賽道面臨的挑戰會更大,無論是 Scaling law 還是算力需求消耗,乃至商業模式的探索,復雜程度都在上升。
這注定是一個難度更高的賽道,字節和快手雖然具備視頻平台基因,但要想跑到最後,還需要持續創新,才有可能在 Veo2 、Runway、Pika 等一眾全球競争對手中拿下自己的席位。