今天小编分享的科技经验:字节大模型内部赛马,下一个爆款 or 烧钱深坑?,欢迎阅读。
文 | Tech 星球,作者 | 陈桥辉
今年最火的两款全球 AI 产品,当属视频生成大模型产品 Sora 和音乐生成大模型产品 Suno。
今年 4 月,经 Suno 爆改的周杰伦金曲《以父之名》和《夜曲》直接封神,在音乐界掀起了一股不小的波澜。不少人认为,这两条赛道会催生出新的爆款产品,谁能够拿下其中一条赛道,谁就能成为 AI 行业的王者。
两款 AI 产品的火爆,迅速点燃了国内大厂对这两条赛道的争夺战。阿里发布了通义万相 AI 视频服务,字节跳动发布了 "PixelDance",快手发布了视频大模型产品 " 可灵 ",QQ 音乐、网易云音乐也发布了 AI 创作功能,而 AI 头部公司的 Minimax、生数科技、智谱 AI 也纷纷跟进。
在这两条热门赛道中最不遗余力的当属字节。9 月 24 日,火山引擎在深圳举办 AI 创新巡展上,发布了豆包视频生成 -PixelDance、豆包视频生成 -Seaweed 两款大模型,意味着字节正式宣告进军 AI 视频生成赛道。
不仅如此,字节还在音乐生成赛道上,推出了 Seed-Music 音乐生成模型,并于今年 7 月推出了发布了全新版本的海绵音乐 APP,主打 " 一键创作你的 AI 音乐 ",这款产品也是字节 AI 音乐产品的代表作。
至此,字节完成了在 AI 视频和 AI 音乐这两条热门赛道上的全布局。火力全开之下的字节,能够得偿所愿吗?
字节 AI 赛道创业:试错、内部赛马并举
豆包视频生成大模型的发布,是字节在 AI 领網域的一次重磅亮相。
据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的 DiT 融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。
而在此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂互動。例如,后者可以让不同人物完成多个动作指令的互动,使人物样貌、服装细节甚至头饰,在不同运镜下也保持一致,接近实拍效果。
基于豆包视频生成大模型,字节内部也推出了相关的具有 AI 视频生产能力的产品,主要由两个业务团队在推进,一个是豆包,一个是剪映,可以看做是内部的一场赛马。
豆包对外的产品是豆包 APP,剪映则是即梦 AI APP,两者的底层技术都是使用的豆包视频生成大模型,即梦使用的是豆包视频生成大模型 "PixelDance"。
两款产品虽然都有着视频生成能力,但即梦更具有代表性。
即梦的前身是 Dreamina,是原字节跳动中国 CEO、转岗至剪映的业务负责人张楠的创业项目。刚上线之时,这仅仅是一个文生图的创作产品。随后,Dreamina 瞄上了 Sora 的潜力,内部基于 PixelDance 模型开始研发视频生成能力,今年 2 月,Dreamina 的视频生成衣务开启对外测试。
今年 5 月,Dreamina 改名即梦,宣布其 AI 作图和 AI 视频生成功能全量上线,并在抖音内进行大量投放。张楠更是在朋友圈转发,称即梦刚刚上线,还有很多待优化的地方。
音乐生成方面,海绵音乐 APP 则是字节的代表,这款产品是字节在 AI 赛道上试错的一个典型案例。海绵音乐的前身是 2022 年 2 月的海绵乐队 APP。Tech 星球了解到,这是字节内部的一款创业项目,但这款产品诞生之初并不是奔着 AI 而去,而是服务于汽水音乐和抖音上对音乐编辑有所需求的用户。
到了 2022 年底,随着国内 AI 浪潮出现后,海绵乐队才开始转向 AI 领網域,并加入 AI 作曲能力,但此时的创作能力很一般," 因为此时的字节,并没有成体系的音乐生成大模型,海绵乐队只能靠自己去摸索 ",一位曾在海绵乐队工作的员工向 Tech 星球表示。
2023 年 6 月推出了新版本,主打哼唱成曲和伴奏制作,虽然在 AI 能力上仍不出众,但对接下来的试错和更新提供了经验。随着豆包音乐生成模型的出现,才让海绵乐队有了一战之力,最终在今年 7 月,更名为海绵音乐,主攻 AI 音乐创作赛道。目前,已经开始在各渠道进行投放推广。
需要注意的是,字节的 AI 产品在这两条赛道上的发展并不是独立,而是相互竞争。豆包、即梦在近期也开始推出音乐生成衣务,逐步渗透到 AI 音乐赛道," 竞争是无可避免的,谁都想成为爆款 AI 产品,谁都想成为或继续保持在内部的核心位置,这无疑需要 AI 产品更加具有综合体验 ",即梦的一位运营告诉 Tech 星球。
左手视频,右手音乐
据七麦数据显示,字节视频生成 APP 即梦自今年 8 月上线以来,在 iOS 端的摄影与录像(免费)榜单的排名逐渐上升,两个月时间,已经稳定在前 40 的名次,安卓端,近 30 天日均下载量,为 22978 次。
借助抖音 APP 以及投放,即梦的视频生成衣务逐渐成为不少抖音创作者的首选。但即梦并不满足于此,今年 8 月,即梦开始在 AI 短剧领網域的创作探索。联合抖音、博纳影业 AIGMS 制作中心出品并制作《三星堆:未来启示录》。即梦还在抖音内发起了 " 即梦 AI 迷你剧场 " 的活动,支持 AI 短剧的创作。
截至 9 月,豆包大模型日均 tokens 使用量已经超过 1.3 万亿,相比 5 月首次发布时猛增十倍,其中不乏即梦所作出的贡献。
在商业模式上,即梦已推出会员体系,有 79 元单月、69 元连续包月和 659 元包年的基础会员等不同订阅方式。具体来说,基础会员每月可使用 505 个积分生成约 2020 张图片或 168 个 AI 视频。
有分析人士认为,即梦目前的产品功能、商业模式聚焦于服务 UGC(用户生成内容),与抖音的生态融合将是未来的发展重点。
相比于字节在视频生成方面取得的成绩,字节在音乐生成方面,目前仍然是不温不火。七麦数据显示,海绵音乐有着广告投放,但并没有在 iOS 端,取得排名,近 30 日日均下载量仅为 15 次。
音乐行业人士李磊认为,虽然 AI 音乐很火,但好听的 AI 歌曲创作多来自于专业人士,普通用户对于 AI 音乐生成工具的使用门槛和学习成本也有一定的要求,如果工具过于复杂或难以使用,就会影响用户的体验和接受度。而且,用户对 AI 音乐的接受度也需要时间来培养。
" 字节在多个领網域都有业务布局,在资源有限的情况下,公司需要在不同业务之间进行资源分配和权衡。AI 音乐生成领網域虽然具有很大的发展潜力,但在前期需要大量的研发投入和市场推广,相比于更加成熟的 AI 视频,公司肯定更愿意加大对这一块的力度投入 ",一位汽水音乐的运营小可告诉 Tech 星球。
下一个 AI 爆款,还是烧钱深坑
不可否认,AIGC(人工智能生成内容)是一个巨大的市场,量子位智库预计,2024 年我国 AIGC 应用市场规模达到 200 亿。2030 年,我国 AIGC 应用将成为万亿规模市场,五年 ( 2024-2028 年 ) 平均复合增长率超过 30%。
目前,国内在视频生成模型方面,有优势的是快手和字节跳动,因为二者的业务离视频更近,能够待其视频生成足够优秀之后会快速完成拉新,并带动用户体验提升。
而背靠快手的视频生成 AI 产品可灵,也成为了字节在 AI 视频赛道上最有力的竞争者。
可灵的发展速度也很迅猛,今年 8 月的官方数据显示,可灵累计生成视频数量超过 1600 万,不到 2 个月,可灵 AI 已有超过 360 万用户,累计生成 3700 万个视频和超过一亿张图片。
近日,快手副总裁、大模型团队负责人张迪宣布,可灵 AI 将内测视频人脸模型功能。该功能基于创新的 ID 保持能力,支持用户自助训练人脸模型,完成训练后,可使用该模型进行 5 秒至 10 秒的文生视频。
此外,AI 视频生成技术研发成本高和周期长也是一个事实。据界面新闻报道,百度 CEO 李彦宏称 " 百度不做 Sora" 后,有关 " 中国版 Sora 到底值不值得做 " 的话题,在微博、小红书等社交媒体引发众多争论。
李彦宏在内部讲话中称,Sora 这种视频生成模型的投入周期太长,10 年、20 年都可能拿不到业务收益,无论多火爆,百度都不去做。
AI 音乐生成方面,版本正在快速迭代,字节仍需快马加鞭。近日,AI 音乐创作平台 Suno 推出的一项创新功能—— SunoScenes,允许用户通过上传照片和视频作为提示词,生成与之相匹配的 30 秒音乐。
而且,音乐数据的版权问题也是一个挑战。获取合法的音乐数据,需要与版权方进行合作,这可能会增加成本和难度。同时,音乐数据的质量也参差不齐,如何筛选和整理高质量的音乐数据用于模型训练是一个重要的问题。