今天小編分享的科技經驗:字節大模型内部賽馬,下一個爆款 or 燒錢深坑?,歡迎閲讀。
文 | Tech 星球,作者 | 陳橋輝
今年最火的兩款全球 AI 產品,當屬視頻生成大模型產品 Sora 和音樂生成大模型產品 Suno。
今年 4 月,經 Suno 爆改的周傑倫金曲《以父之名》和《夜曲》直接封神,在音樂界掀起了一股不小的波瀾。不少人認為,這兩條賽道會催生出新的爆款產品,誰能夠拿下其中一條賽道,誰就能成為 AI 行業的王者。
兩款 AI 產品的火爆,迅速點燃了國内大廠對這兩條賽道的争奪戰。阿裏發布了通義萬相 AI 視頻服務,字節跳動發布了 "PixelDance",快手發布了視頻大模型產品 " 可靈 ",QQ 音樂、網易雲音樂也發布了 AI 創作功能,而 AI 頭部公司的 Minimax、生數科技、智譜 AI 也紛紛跟進。
在這兩條熱門賽道中最不遺餘力的當屬字節。9 月 24 日,火山引擎在深圳舉辦 AI 創新巡展上,發布了豆包視頻生成 -PixelDance、豆包視頻生成 -Seaweed 兩款大模型,意味着字節正式宣告進軍 AI 視頻生成賽道。
不僅如此,字節還在音樂生成賽道上,推出了 Seed-Music 音樂生成模型,并于今年 7 月推出了發布了全新版本的海綿音樂 APP,主打 " 一鍵創作你的 AI 音樂 ",這款產品也是字節 AI 音樂產品的代表作。
至此,字節完成了在 AI 視頻和 AI 音樂這兩條熱門賽道上的全布局。火力全開之下的字節,能夠得償所願嗎?
字節 AI 賽道創業:試錯、内部賽馬并舉
豆包視頻生成大模型的發布,是字節在 AI 領網域的一次重磅亮相。
據火山引擎介紹,豆包視頻生成模型基于 DiT 架構,通過高效的 DiT 融合計算單元,讓視頻在大動态與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目标跟随等多鏡頭語言能力。
而在此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現自然連貫的多拍動作與多主體復雜互動。例如,後者可以讓不同人物完成多個動作指令的互動,使人物樣貌、服裝細節甚至頭飾,在不同運鏡下也保持一致,接近實拍效果。
基于豆包視頻生成大模型,字節内部也推出了相關的具有 AI 視頻生產能力的產品,主要由兩個業務團隊在推進,一個是豆包,一個是剪映,可以看做是内部的一場賽馬。
豆包對外的產品是豆包 APP,剪映則是即夢 AI APP,兩者的底層技術都是使用的豆包視頻生成大模型,即夢使用的是豆包視頻生成大模型 "PixelDance"。
兩款產品雖然都有着視頻生成能力,但即夢更具有代表性。
即夢的前身是 Dreamina,是原字節跳動中國 CEO、轉崗至剪映的業務負責人張楠的創業項目。剛上線之時,這僅僅是一個文生圖的創作產品。随後,Dreamina 瞄上了 Sora 的潛力,内部基于 PixelDance 模型開始研發視頻生成能力,今年 2 月,Dreamina 的視頻生成衣務開啓對外測試。
今年 5 月,Dreamina 改名即夢,宣布其 AI 作圖和 AI 視頻生成功能全量上線,并在抖音内進行大量投放。張楠更是在朋友圈轉發,稱即夢剛剛上線,還有很多待優化的地方。
音樂生成方面,海綿音樂 APP 則是字節的代表,這款產品是字節在 AI 賽道上試錯的一個典型案例。海綿音樂的前身是 2022 年 2 月的海綿樂隊 APP。Tech 星球了解到,這是字節内部的一款創業項目,但這款產品誕生之初并不是奔着 AI 而去,而是服務于汽水音樂和抖音上對音樂編輯有所需求的用户。
到了 2022 年底,随着國内 AI 浪潮出現後,海綿樂隊才開始轉向 AI 領網域,并加入 AI 作曲能力,但此時的創作能力很一般," 因為此時的字節,并沒有成體系的音樂生成大模型,海綿樂隊只能靠自己去摸索 ",一位曾在海綿樂隊工作的員工向 Tech 星球表示。
2023 年 6 月推出了新版本,主打哼唱成曲和伴奏制作,雖然在 AI 能力上仍不出眾,但對接下來的試錯和更新提供了經驗。随着豆包音樂生成模型的出現,才讓海綿樂隊有了一戰之力,最終在今年 7 月,更名為海綿音樂,主攻 AI 音樂創作賽道。目前,已經開始在各渠道進行投放推廣。
需要注意的是,字節的 AI 產品在這兩條賽道上的發展并不是獨立,而是相互競争。豆包、即夢在近期也開始推出音樂生成衣務,逐步滲透到 AI 音樂賽道," 競争是無可避免的,誰都想成為爆款 AI 產品,誰都想成為或繼續保持在内部的核心位置,這無疑需要 AI 產品更加具有綜合體驗 ",即夢的一位運營告訴 Tech 星球。
左手視頻,右手音樂
據七麥數據顯示,字節視頻生成 APP 即夢自今年 8 月上線以來,在 iOS 端的攝影與錄像(免費)榜單的排名逐漸上升,兩個月時間,已經穩定在前 40 的名次,安卓端,近 30 天日均下載量,為 22978 次。
借助抖音 APP 以及投放,即夢的視頻生成衣務逐漸成為不少抖音創作者的首選。但即夢并不滿足于此,今年 8 月,即夢開始在 AI 短劇領網域的創作探索。聯合抖音、博納影業 AIGMS 制作中心出品并制作《三星堆:未來啓示錄》。即夢還在抖音内發起了 " 即夢 AI 迷你劇場 " 的活動,支持 AI 短劇的創作。
截至 9 月,豆包大模型日均 tokens 使用量已經超過 1.3 萬億,相比 5 月首次發布時猛增十倍,其中不乏即夢所作出的貢獻。
在商業模式上,即夢已推出會員體系,有 79 元單月、69 元連續包月和 659 元包年的基礎會員等不同訂閲方式。具體來説,基礎會員每月可使用 505 個積分生成約 2020 張圖片或 168 個 AI 視頻。
有分析人士認為,即夢目前的產品功能、商業模式聚焦于服務 UGC(用户生成内容),與抖音的生态融合将是未來的發展重點。
相比于字節在視頻生成方面取得的成績,字節在音樂生成方面,目前仍然是不温不火。七麥數據顯示,海綿音樂有着廣告投放,但并沒有在 iOS 端,取得排名,近 30 日日均下載量僅為 15 次。
音樂行業人士李磊認為,雖然 AI 音樂很火,但好聽的 AI 歌曲創作多來自于專業人士,普通用户對于 AI 音樂生成工具的使用門檻和學習成本也有一定的要求,如果工具過于復雜或難以使用,就會影響用户的體驗和接受度。而且,用户對 AI 音樂的接受度也需要時間來培養。
" 字節在多個領網域都有業務布局,在資源有限的情況下,公司需要在不同業務之間進行資源分配和權衡。AI 音樂生成領網域雖然具有很大的發展潛力,但在前期需要大量的研發投入和市場推廣,相比于更加成熟的 AI 視頻,公司肯定更願意加大對這一塊的力度投入 ",一位汽水音樂的運營小可告訴 Tech 星球。
下一個 AI 爆款,還是燒錢深坑
不可否認,AIGC(人工智能生成内容)是一個巨大的市場,量子位智庫預計,2024 年我國 AIGC 應用市場規模達到 200 億。2030 年,我國 AIGC 應用将成為萬億規模市場,五年 ( 2024-2028 年 ) 平均復合增長率超過 30%。
目前,國内在視頻生成模型方面,有優勢的是快手和字節跳動,因為二者的業務離視頻更近,能夠待其視頻生成足夠優秀之後會快速完成拉新,并帶動用户體驗提升。
而背靠快手的視頻生成 AI 產品可靈,也成為了字節在 AI 視頻賽道上最有力的競争者。
可靈的發展速度也很迅猛,今年 8 月的官方數據顯示,可靈累計生成視頻數量超過 1600 萬,不到 2 個月,可靈 AI 已有超過 360 萬用户,累計生成 3700 萬個視頻和超過一億張圖片。
近日,快手副總裁、大模型團隊負責人張迪宣布,可靈 AI 将内測視頻人臉模型功能。該功能基于創新的 ID 保持能力,支持用户自助訓練人臉模型,完成訓練後,可使用該模型進行 5 秒至 10 秒的文生視頻。
此外,AI 視頻生成技術研發成本高和周期長也是一個事實。據界面新聞報道,百度 CEO 李彥宏稱 " 百度不做 Sora" 後,有關 " 中國版 Sora 到底值不值得做 " 的話題,在微博、小紅書等社交媒體引發眾多争論。
李彥宏在内部講話中稱,Sora 這種視頻生成模型的投入周期太長,10 年、20 年都可能拿不到業務收益,無論多火爆,百度都不去做。
AI 音樂生成方面,版本正在快速迭代,字節仍需快馬加鞭。近日,AI 音樂創作平台 Suno 推出的一項創新功能—— SunoScenes,允許用户通過上傳照片和視頻作為提示詞,生成與之相匹配的 30 秒音樂。
而且,音樂數據的版權問題也是一個挑戰。獲取合法的音樂數據,需要與版權方進行合作,這可能會增加成本和難度。同時,音樂數據的質量也參差不齊,如何篩選和整理高質量的音樂數據用于模型訓練是一個重要的問題。