今天小编分享的互联网经验:中文版Sora,难倒互联网大厂,欢迎阅读。
图片来源 @视觉中国
文|智能 Pro
科技圈当下最火话题,非 Sora 莫属。Sora 的影响力也早已冲出硅谷、辐射全球,在大洋彼岸的中国掀起滔天巨浪。
在二级市场,Sora 概念股连日走高,势头比起当初的 ChatGPT 概念股有过之而无不及,比如 2 月 20 日,A 股、港股 Sora 概念股板块就有超过 60 只个股飘红,其中 5 家企业股价暴涨 40% 以上。
在科技互联网圈,争夺中文版 Sora 首发权,成为巨头的新目标。不过和当初的中文版 ChatGPT 首发争夺战相比,中文版 Sora 的研发难度也更大,大厂们大多面露难色。此前被盛传将推出首个中文版 Sora 的字节跳动,就在 20 日辟谣,称相关产品的效果距离 Sora 还有很大差距。
在 Sora 横空出世前,国内 " 千模大战 " 早已陷入胶着状态,未曾想,风口突变,从图文生成转向视频生成," 千模大战 " 也将进入全新阶段。
在上一阶段稍稍落后的字节跳动在视频业务上有先天优势,自然不会错过这个弯道超车的机会,这不仅事关大厂的面子,更是为了捍卫其核心业务——抖音 CEO 张楠突然辞职专攻剪映,也被视作是字节重视 AIGC 的动作。
虽然没有中文版 Sora,但字节一直在死磕 AI
在文本生成式大模型领網域,字节的起步时间无疑是比百度、阿里巴巴等大厂要晚,这也让字节的高层十分懊恼。CEO 梁汝波就在内部讲话中直言,很难相信技术团队直到 2023 年才讨论 GPT,要知道业内做得比较好的大模型企业都是在 2018-2021 年起步的。
好在,知耻而后勇,还有亡羊补牢的机会。
一开始,字节希望以量取胜,在去年下半年扎堆上线了十多款 AI 产品。
这当中,既有大厂标配的基础大模型 " 云雀 ",也有在 C 端最流行的 AI 对话类应用,如 " 豆包 "、" 话炉 " 和 " 抖音小晴 ",还有辅助创作的 AI 工具,如剧情创作平台 "BagelBell"、电商内容创作应用 " 即创 " 等。由字节技术副总裁洪定坤率领的新部门 Flow,则在背后为这一系列 AI 产品保驾护航。
(图片来自豆包官网)
据悉,字节还在内部开放了大量活水岗位,希望调集全公司最优秀的技术、产品人才集中精力搞 AI。除了前面提到的洪定坤外,原飞书产品副总裁齐俊元、抖音社交负责人陆游、字节跳动产品与战略副总裁朱骏等高管也先后驰援。甚至在国外,字节跳动也组织了 50 多人的研发团队,负责推进 "Cici" 项目。
然而,字节在文本生成大模型这条赛道确实是落后了,即便后期不断加大投入,恐怕也很难抹平差距。明白这个道理后,再结合自身的业务状况,字节开始发力影像、视频生成领網域,试图确立差异化优势。而在春节前后,内部的一系列人事变动、团队重组,则是其为视频生成大模型奋力一搏的最佳证明。
2 月 9 日,张楠宣布辞去抖音集团 CEO 一职,原因是要把精力集中到剪映的发展上。众所周知,张楠是字节内部最有权势的高管之一,很多人将其视为仅次于集团 CEO 梁汝波的二把手。其掌管的抖音集团,则是字节最重要的业务,此次自降身份掌管剪映,在内部、外界都引发了不少争议。
如今再看,作为一款视频剪辑及辅助创作工具,剪映是字节业务版图里和视频生成大模型契合度最高的一环,是承载 AI 视频创作业务的最佳抓手。像张楠这种级别的核心高管主动接管剪映,恰好说明字节对该项目的重视。
有消息指出,张楠去年已经把大部分精力花在剪映身上,抖音的各项业务分别交给韩尚佑(抖音集团新任 CEO)、魏雯雯(抖音电商总裁)、蒲燕子(抖音本地生活负责人)等高管接手。
去年 11 月,剪映就悄悄内测了一项名为 "Dreamina" 的 AI 辅助工具,用户只需要输入文字,即可生成创意影像。算上研发周期,该项目的立项至少在去年二季度前。如果上述消息属实,张楠带领的团队应该在更早的时候就接手了字节的 AI 产品研发工作。
张楠正式官宣辞任集团 CEO 之后,也有消息称其带领的团队将推出一个全新的 AI 视频生成軟體。如今,这款备受期待的产品—— "Boximator",终于浮出水面,这也是字节冲击中文版 Sora 的王牌。
Sora 搅动一池春水,大模型改造短视频行业
据悉,字节内部对 "Boximator" 的定位为创新性视频生成大模型,将通过控制对象运动的方式,精确控制视频人物、物体的运动。该模型采集的训练数据来自 webVid-10M 数据集,并在 PixelDance 和 ModelScope 两个视频生成模型中进行训练。
然而,正如字节日前的回应那般,视频生成大模型的研发难度比想象中更大。根据字节方面的说法,"Boximator" 保真率、画面质量、视频时长等方面距离 Sora 还有很大差距,暂时不具备落地的条件,预计还要 2-3 个月才能开放测试。
但 2-3 个月,可以发生很多事情——Sora 可能已经迭代到更先进的版本,和尚未落地的竞品拉开更大差距;其他竞争对手也可能迎头赶上,抢在字节之前推出同类产品。
对于这些可能性,字节跳动心里肯定有数,而且比谁都着急。原因很简单:比起文本生成大模型,视频生成大模型和字节跳动的短视频、直播等核心业务关联更紧密,影响也更大。
如果说搜索是第一个被 ChatGPT 颠覆的行业,那么长 / 短视频肯定是最有可能被 Sora 颠覆的行业。正如当初谷歌、百度、360 等巨头倾力投入文本生成大模型研发那样,字节在视频生成大模型这一战中也不容有失。因为随着视频生成大模型在日后逐渐普及,短视频内容生产、营销、变现等一系列逻辑都可能发生变化。
以内容生产为例,制作方对真人演员、编剧、剪辑人员的需求很有可能会减少,传统的制作流程也会被大幅简化、制作时长将被压缩。这带来的直接后果,不止是生产内容数量呈几何级增长、成本明显减少,也必将导致更残酷的竞争,加速优胜劣汰。
在 Sora 走红之后,有关剪映会不会被取代的问题已经迅速成为焦点话题。留给剪映的路只要一条,那就是主动拥抱 AI,向 Sora 看齐。要是能成功抱上 AI 这条大腿,剪映的用户体量可以再上一个台阶,商业化潜力也将大大提升。
举个最简单的例子,现在的剪映只提供基础服务,收费模式很难推广。但如果能像 Sora 那样,提高内容创作者的效率、降低成本,收费也就更有底气。Stability AI、Runway 等独角兽的估值大幅飙升,就证明了这条路线的可行性。
当然,因 Sora 而焦虑的大厂绝不止字节跳动一家。短视频行业的另一个巨头快手,还有爱奇艺、腾讯视频、优酷、哔哩哔哩为首的流媒体平台,也必须啃下视频生成大模型这块硬骨头。
可能是 Sora 的冲击太大,还需要时间消化,也可能是吸取之前的教训,先埋头干实事不着急到台前造势,上述大厂大多尚未表态是否及何时推出类 Sora 应用。截止发稿时,只有芒果超媒表态将探索文生视频等 AI 技术在传媒领網域的落地。但明眼人都看得出,这些大厂没有一个会缺席这场全新的 " 千模大战 "。
有危机感,就会有动力。大厂们集体冲刺,到底谁能率先撞线?
冲刺中文版 Sora,哪家中国大厂先撞线?
要猜测谁能率先研发出中文版 Sora,或者说类 Sora 视频生成大模型,得先看一下这类产品的研发难点。
从 openAI 公布的报告来看,Sora 并没有应用什么全新研发成果,核心技术都是早已公开的。这当中,视频压缩网络、扩散模型、视觉补丁(类似于本文生成大模型的文本标记)、影像及视频编辑是最关键的几个环节。本质上讲,Sora 仍是一个基于 Transformer 架构的扩散模型,和 ChatGPT 有很多相似之处。
当中的技术原理和繁琐的训练流程,这里不再一一展开。可以确定的是,大厂们都具备开发中文版 Sora 的基础,起跑线不会有太大差距。除了考验财力之外,和之前的中文版 ChatGPT 之争一样,数据样本、算力、测试条件,将很大程度上左右最终赛果。
这当中,数据样本关系着大模型的效果,训练数据越丰富、越完整,视频大模型就能越接近物理世界的真实情况。算力则是训练效率的决定性因素,是跑赢竞争对手的关键。测试环节更多是决定了产品落地效果,以及稳定性。
硅谷巨头的选择出奇一致,都在拼算力。openAI CEO 阿尔特曼表示,计划筹集 8 万亿美元投资 AI 芯片,彻底解决 AI 大模型训练的算力问题。微软、Meta、谷歌等大厂在疯狂囤积英伟达 H100 的同时,还在抓紧时间自研芯片。这些原本为文本生成大模型准备的杀招,现在能完美应用到视频大模型身上。
国信证券在最新一份研报中指出,相较于 ChatGPT 等文本生成类大模型,Sora 训练数据量明显高出一个级别,对算力的要求自然也更苛刻了。根据该研报援引的数据,以全球最大视频分享网站 YouTube 为数据源,一年的增量视频大约为 157.68 亿秒,即便是采用英伟达最先进的 H100,单次训练也需要一个月,GPU 消耗量为 156.98 万张。
众所周知,H100 长期处于供不应求状态。加上不可抗力影响,国内的大厂们在算力这一块大概率会落后于硅谷巨头,唯有在其他环节努力缩短差距。相较之下,字节在训练数据源这一块就比其他大厂更有优势。
要知道,Sora 对比其早前的 PixelDance、Stable Video Diffusion 等未成形视频大模型有显著提升,数据量是很关键的一点。抖音和 TikTok 是国内和海外市场用户、创作者规模最大的短视频应用,拥有最多的短视频内容,可用于训练大模型。更不用说,字节旗下还有今日头条、西瓜视频等内容库,完全不愁数据源。不过其他大厂也不会落后太多,而且肯定会想方设法抹平差距。
这几天的观察下来,和当初同样出道即红遍全球的 ChatGPT 不同,业界人士对 Sora 的态度除了赞叹、敬佩,还带着更深的恐惧。这不仅是因为 Sora 的视觉冲击力比 ChatGPT 更强,还因为前者对相应产业的改变路径是相当清晰的——这也决定了大厂会倾注更多的资源,务求尽快打赢这场硬仗。
总而言之," 千模大战 " 已经进入新的阶段。假以时日,我们肯定能看到很多中文版 Sora。只不过对大厂来说,既然不可能成为 " 唯一 ",就只有争下 " 第一 " 才有意义。