今天小編分享的科技經驗:不甘只做AI 應用工廠,字節跳動補課大模型,歡迎閱讀。
圖片來源 @視覺中國
文|光錐智能,作者|郝鑫,編輯|王一粟
光錐智能獲取最新獨家消息,繼 2023 年 8 月首發後,今年 4 月,字節跳動旗下的大語言模型雲雀大模型即将迎來重要版本的更新更新。
八個月一次的更新頻率放在大模型市場确實少見,在這樣内卷的大模型中,字節顯得有些另類,衝刺迅猛如百川智能,前期平均一個月發布更新一款大模型。
但回顧過去一年,字節并不甘願躺平,與國内外大模型公司 " 先通用大模型,後產品應用 " 的思路不同,素有 " 應用工廠 " 的字節選擇在有一個雲雀大模型的基礎上,狠、準、快地押注 AI 原生應用。
先是從組織層面着手,2023 年下半年,字節開始整合大模型團隊和其他業務小組,成立專注于 AI 創新業務的新部門 Flow,部門也成為字節在 AI 技術研究和研發產品的排頭兵。
再是像一架龐大制造機器,半年多的時間裡,字節瘋狂地向國内外市場輸送了十幾款 AI 產品;與此同時,也在產品研發過程中積累和發表了一批影像生成、視頻生成的基礎技術研究成果。
如今,字節就像是在產品和市場領網域摸爬滾打完一圈後回來,帶着更多元化的視角來審視基礎大模型本身。
作為互聯網新貴,字節沒有經歷過 2016 年興起的大廠 AI 實驗室浪潮,反而是用 AI 算法技術和圖文、視頻結合,相繼創造出了今日頭條和抖音的爆款應用。
據最新披露,字節 2023 年 Q3 營收 309 億美元,已經超過了騰訊。新王登基後,擺在字節面前的問題也很清晰,如何利用自己的優勢補齊落下的課,趕上新一波的 AI 浪潮?
AI 應用制造工廠,半年上線十一款產品
" 加強危機感,始終創業,逃逸平庸的重力 ",2024 年伊始,字節 CEO 梁汝波就定下了全年的目标。
要說最貼合梁汝波所說的創業屬性的,莫過于字節去年成立的 Flow。
去年 8 月雲雀大模型正式發布,并同時宣布開始對外測試 AI 對話產品 " 豆包 ",字節立即奔赴至下一個應用的戰場,雲雀大模型逐漸隐去在了鋪天蓋地的消息中,轉而成為了豆包等一系列 AI 產品背後的 " 底座 "。
九月份,字節新成立的 Flow 接棒成為主力。據公開報道信息梳理,字節抽調了大量高管人才掌舵,大模型團隊的負責人朱文佳同時負責 Flow 的業務線,字節技術副總裁洪定坤負責 Flow 的技術線,字節產品與戰略副總裁朱駿負責該部門的產品線,同時還有飛書的產品副總裁齊元俊加盟。
(光錐智能根據公開報道梳理制成)
在字節大舉進軍之下,實現了多個應用,多點開花的局面。據光錐智能不完全統計,從去年八月到現在,半年多的時間内,字節在海内外共測試、上線了十一款 AI 應用產品,一款影像類的產品 Picpic 還未上線,這其中由 Flow 團隊主導研發的產品有八款。
從產品類型來看,字節選擇的方向主要集中在 Chatbot、虛拟角色、Agent 和影像四個主要方向,基本覆蓋了去年大火的應用層創業方向,比如 Chatbot 領網域有一騎絕塵的效率產品 ChatGPT,虛拟角色領網域有用戶數量可觀的 Character.AI,Agent 方向上有 OpenAI 推出的 GPTs 等等。
多個方向出擊,遍地開花,這樣的畫面仿佛一夜又回到了抖音誕生的前夕。入局 AI 應用賽道,字節再次采用了 " 内部賽馬 " 的策略,國内通過雲雀大模型提供能力,國外基于 GPT 提供服務。很多時候把海外當試驗田,先國内一步上線類似的產品,去跑市場和用戶數據,為國内上線作準備。
此外,字節也很清楚自身的優勢在哪裡,抖音和 Tiktok 兩個流量大池,天然成為了字節引流和拉新的利器。據光錐智能觀察,字節專門開設了豆包的 " 帶貨直播間 ",向進入直播間的用戶介紹豆包的功能,宣傳可免費下載 App。此外,字節也邀請了大量的抖音達人為豆包站台,在段子裡植入了豆包的新功能。
(圖源:抖音)
或許正是因為流量的牽引,發布時間晚的豆包在認知度和月活上已經超過了百度的文心一言。據報道,有消息人士透露豆包的月活已于去年 12 月增長至 200 萬,2024 年 1 月份則在此基礎上翻了一番,豆包的月内平均日活已經完成了對文心一言的反超。
從字節自身業務角度來看,除了 Flow,飛書、剪映、字節新加坡公司、巨量引擎、大力教育等多個部分也在試水和上線 AI 工具和產品。自從 Sora 問世以後,AI 視頻賽道再燃戰火,字節的剪映業務也被寄與了厚望,張楠辭任抖音集團 CEO 一職領隊剪映團隊,從目前來看,剪映已經上線了 AI 克隆音色、AI 作圖、AI 繪畫、AI 生成口播等功能。
(圖源:剪映)
字節在 AI 視頻上推出產品也許只是早晚的事情,在技術儲備方面,字節已經積累了視頻生成模型 MagicVideo-V2、視頻編輯 Boximator、視頻生成研究 PixelDance,并從谷歌視頻生成模型團隊挖過來了對口人才。
已有消息稱,字節正在 AI 大模型領網域秘密研發多個產品,其中包括多模态數字人產品以及 AI 生圖、AI 生視頻產品。
字節不急于改舊業務,而利用單點的能力放射去内部賽馬,一方面是為了測試市場,一方面也在探索如何把 AI 嵌入到原有的業務流中。
比如在飛書業務線中推出了 " 智能夥伴 ",用 Agent 的技術來改變傳統的工作流,實現辦公場景下的内容創作、内容總結、數據分析等功能,達到個人和企業的降本增效。哪些地方要發揮 Agent 的能力,哪些地方要運用文生圖的能力,哪些場景要調用對話推理的能力,這些都要在落地過程中去檢驗。
飛書 CEO 謝欣曾在發布會上表示,未來 AI 的能力一定會變得非常強大,各行各業都會發生巨大變革。但目前 AI 能力還很有限,不一定能讓每一項任務都如期所願," 當下更重要的是先讓自己做到 AI Ready"。
重回主戰場,補課大模型
梁汝波在 2023 年底年會上反思," 字節對技術的敏感度不如創業公司,直到 2023 年才開始讨論 GPT。而業内做得比較好的大模型創業公司,都是在 2018 年至 2021 年創立的。"
梁汝波的言外之意是,字節的大模型慢了。
去年 3 月百度發布文心一言,随後華為、阿裡迅速跟進發布大模型,而直到 8 月中旬,抖音雲雀大模型才姗姗來遲。
關于字節大模型團隊消息,最早可追溯至去年 1 月份,36 氪曾報道,字節在當時組建了首個大模型團隊,包括語言大模型團隊和圖片大模型團隊。其中,語言大模型團隊由字節搜索部門牽頭,圖片大模型團隊由產品研發與工程架構部下屬的智能創作團隊牽頭。
彼時,ChatGPT 和 Midjourney 都已經爆火出圈。或許是看到了這兩類背後路徑不同的產品,再考慮到旗下的一系列產品如何改造,字節從最初組建團隊,就選擇了技術、產品兩條腿走路。但大模型是大部分 AI 應用的底座,想要研發產品首先得有一個大模型。
雲雀大模型正好承擔了這樣的角色,大模型剛一落地,字節就迅速同時開啟了 AI 應用研發,但大模型性能上的不成熟,也一定程度上影響了 AI 應用的落地。
首先是從時間線上來看,相同功能的產品,國外上線的時間要早于國内,比如類 GPTs 平台扣子國内開放時間比國外滞後了兩個月。即便國内的扣子上線後,但還是有很多中國用戶選擇國外版的 Coze,原因在于可以直接調用 GPT-4 turbo 的能力。
模型能力的高低之分,也會體現在產品的使用效果上,比如近期剪映海外版 CapCut 也推出了文生成視頻功能,但有用戶反饋,該功能在視頻清晰度、對提示詞理解和生成等待時間方面都差強人意。
這就導致了,在產品戰場大殺四方的字節,不得不回過頭來補課大模型。
不過對字節而言,對标 OpenAI 沒有太大意義,思考适合自己的大模型路線才是出路。
從公開資料來看,字節在 AI 方向的發力點還是集中在影像、視頻領網域。大模型方面,字節目前推出了通用大語言模型雲雀和支持文本、影像、音頻三種模态的多模态大模型 BuboGPT;影像視覺方向上,去年推出的 MagicVideo-V2 視頻生成模型曾經在國内外掀起了一波熱度,可以實現讓靜态圖片中的人物動起來。字節之後的研究繼續在視頻方向上延伸,包括如何通過輸入文本控制人物動作,如何增進視頻的動态效果等。
由此看來,字節還是借鑑了 OpenAI 的做法,也就是在 GPT 大模型之外,把各種單點能力拉到最滿——語音方向有 Whisper 模型,影像方向有 DALL · E 系列,視頻方向有 Sora。
由于單點能力的突破也依賴于底層大模型的能力,特别是 Sora 提供了一種思路,即 Transformer 大模型架構可以與影像生成模型相結合,這意味着大模型的推理、理解能力會影響最後的視頻生成邏輯。所以,在基礎大模型上,包括字節在内的所有大模型公司,都依然不能忽視。
除了在視頻模型上補足能力,字節也從團隊人才配置上下足了功夫。組建初期,抽調原新加坡負責 TikTok 技術負責人朱文佳帶領大模型團隊,後又令其同時負責 Flow 的業務線。一個排頭兵性質的部門 Flow,集結了字節的技術副總裁、產品與戰略副總裁、飛書產品副總裁。近期,又被曝出谷歌視頻生成模型 VideoPoet 研究負責人蔣路加入了智能創作團隊,據悉,VideoPoet 的思路與 Sora 世界模型的思路有很大的相似性。
Sora 爆火後,有不少人将抖音前 CEO 張楠親自帶隊的剪映與其相提并論,但實際上,張楠仍然是更側重于產品層面。而真正的字節版 Sora,必須要在上述這些科學家和技術負責人帶隊的團隊中誕生。
廣告 & 雲業務,AI 對字節的影響比想象中更大
去年一年,字節跳動創始人張一鳴将主要精力都花在了 AI 上,這對于受益于上一代 AI 技術(推薦算法)的最大受益者來說,的确具有不同凡響的重要意義。
AIGC 最終生成的是内容,天然就是對内容生產形式的變革。相對于其他公司原有的電商、搜索、社交等業務屬性,抖音的基因本身就是内容,因此,這波大模型浪潮對字節的戰略意義,可能會遠大于其他公司。
雖然,ChatGPT-4 誕生剛滿一年,大模型和 AIGC 技術落地產業僅邁出了第一步,但是關于未來公司業務增長的想象力或許才剛打開。
以百度為例,其剛發布的 2023 年全年财報數據顯示,AI 已經給百度帶來了實際的效益。All in 大模型的這一年,讓百度搜索、廣告等老業務煥發生機,曾經低迷的雲計算業務也看到了新的增長動力。
2023 年百度核心收入 1034.65 億元,歸屬百度核心的淨利潤 274 億元,同比增長 38%;大模型正在給百度帶來越來越多的商業收入,四季度内,僅大模型帶來的收入增長就達到了 6.6 億元,百度智能雲的營收也來到了 84 億元;根據摩根士丹利的預估,2024 年百度的廣告收入有望實現 7% 的同比增長。
雖然對字節來說,這點增長遠遠納入不了自己的眼睛,但不少業務線也依然具有一定的借鑑和參考價值。
據光錐智能了解到,受大模型浪潮影響,字節的雲計算業務火山引擎的營收增長也比較可觀。得益于字節前期儲備了大量英偉達的 GPU,很多大模型創業公司都願意主動加入到火山引擎的生态中,從而拉動了火山引擎的增長。
雖然第一波先靠賣算力賺到第一桶金,但對火山引擎來說,未來靠使用這些大模型公司的算法而再次為雲計算業務付費的客戶,才是更吸引人的。
而對字節賴以生存的廣告業務而言,大模型的影響力還尚未施展。目前,已經有百度、網易有道在内的幾家公司都提到,大模型對其廣告轉化都有促進作用。這對抖音、今日頭條等業務,無疑也是一個好消息。
為了提升營銷效率,抖音旗下的營銷平台巨量引擎,也在 1 月 23 日,發布自動化技術品牌 UBMax(優必投),立足應用下載、線索留資、電商引流三個場景。
另外,火山引擎也推出了非常具有字節特色的產品——火山引擎智能創作雲,這是一個批量生成視頻的智能 SaaS 平台,主要幫助電商賣家批量生成商品素材。雖然目前市場上做此類產品的公司非常多,也有一些是抖音的深度合作夥伴,但對于同時擁有技術和場景的公司,也只能是字節才能做到。
綜上所述,總體來看,字節在 AI 的投入上還是趨于保守,更注重對實際業務能產生價值的產品,而對前沿技術的投入才剛剛起步。
這也和字節近一年的聚焦戰略有關,近一年,字節幾乎清退或削減了所有與核心業務無關的業務條線,比如 Pico、遊戲。
核心業務強勢的時候,發展可以掩蓋一切問題。字節季度營收依然可以保持 40% 以上的同比增長,已經羨煞其他所有國内公司,但對字節和張一鳴來說,夢想還是要有的。