今天小编分享的科学经验:抖音CEO离任,奔赴AIGC视频新风口,欢迎阅读。
抖音集团 CEO 官宣卸任,真是一石激起千层浪!
一方面,虽然字节高层要调整早有传闻,但靴子落地依然让人意外:为什么会是她?
要知道张楠,可是字节从零到一打造出抖音、火山等 UGC 视频产品的大功臣。
另一方面,她下一步去的是一个抖音 " 配件 " 项目——剪映,并且以始终创业的状态。
虽说变动如此突然,但其实在内部早有迹可循。
消息称,过去一年张楠将大多数精力都放在剪映任务上,并且亲自带队即将推出一个 AI 生图和视频的产品。
抛开外界各种对大厂组织调整的讨论,咱要是从技术和趋势来看,张楠下一站,妥妥是今年的 AI 风口。
张楠亲自带队剪映
春节前夕,张楠朋友圈官宣即将卸任 CEO 的决定,之后将更多精力放在剪映上。
不过之后,她还是继续向字节跳动 CEO 梁汝波汇报。
在梁汝波内部信中指出,是 " 结合业务发展需要和个人意愿 " 的原因,张楠不再担任抖音集团 CEO,专注负责剪映业务。
对于接任者,他表示,目前抖音集团暂时还没有新设 CEO 的计划。
其中,韩尚佑作为抖音总裁,会协同所有与抖音相关的主营业务
此番字节高层变动之后,据晚点统计,目前抖音已完成高层大调整。
此前抖音的产品和商业化分别由张楠和张利东领导,如今由张利东来统筹这两大板块。
在此之前,抖音 BU 也完成了一系列的人员调动,比如字节商业化部门巨量引擎营销副总裁陈都烨转岗至抖音、抖音原增长负责人吴晓丹则转岗剪映,抖音开放平台原负责人常坤加入抖音生活服务部门……
抖音为什么调整?
有网友将字节前段时间的年会结合了起来……
当时,梁汝波提到,目前字节最大的危机感就是组织平庸化," 字节该有的大公司病全有了 "。
但可能被忽略的是,如果从 AI 技术变革来看,字节正在面临挑战和机遇。这就是 AI 生成视频,而且剪映似乎就是字节最好的容器。
剪映有着天生的 AIGC 场景优势。
虽然上线时间不长,2019 年才正式上线,但依托于抖音,很快就成为包括抖音在内的视频内容创作者的利器。
消息显示,截至 2021 年,剪映的月活用户已经突破 1 亿,是国内最大的移动视频编辑产品。去年 11 月,剪映测试了一个名为 "Dreamina"AIGC 工具。它能根据文字生成创意影像。
UGC 视频的一姐,现在去带队字节 AIGC 视频的最前沿战队,或许也值得关注。
视频生成,AIGC 的新战场
相信使用过的朋友都能感受到,剪映其实就是个 " 大 AI"。
语音识别 / 生成、文本生成、虚拟人生成、AI 配音等等这些基本实用的 AI 功能暂且不说,并且还会时常更新。
比如就有贴心的小伙伴整理了最新版本的新功能,像时空穿越特效、古风穿越特效、文字转视频、主题(标题)变视频、智能抠图、视频转手绘等等。
除此之外,剪映还同 ChatGPT 合作,选择他们的插件,一句话就可以做一条视频,并且支持各种细节修改。
处在 AIGC 视频生成风口的关键时刻,作为国内乃至全球短视频应用的顶流,无论是剪映、抖音还是背后的字节,这样的机遇当然不容错过。
而 AI 视频领網域争斗变得愈加白热化,是从 " 老大哥 "Runway 发布 Gen-2 以后开始的。
无论是初创团队还是大厂,琳琅满目的视频生产工具如雨后春笋般竞相发布。
在竞赛的过程中,AI 视频的画质、细节、时长等指标,快速地进行着一次又一次地飞跃。
像 Stability、Runway 这样的明星独角兽,估值都已达到了 10 亿美元量级,受到了谷歌等大厂的投资。
创立时间短一些的 Pika,估值也有 2 亿美元,投资者中可以见到许多大佬的身影。
而在这些爆火的 AIGC 视频应用背后,主要有三条技术路线。
按照出现的时间顺序,首先是生成对抗网络(GAN)和变分自编码器(VAE)。
它们往往是通过非直接方式来生成视频内容,比如将运动和内容分解、把前景(移动物体)和背景分离。
这类早期方案虽然在清晰度、连贯性和时长上都不尽如人意,但也起到了抛砖引玉的作用,AI 视频生成也是被 GAN 带火的。
△微软视频生成工具 N ü WA,早期版本基于 GAN 实现
进入新的阶段,自回归模型和扩散模型两条路成为了新的主流。
自回归模型根据先前的帧来预测下一帧,不断递归拼接,视频较为连贯自然,最典型的架构就是 Transformer。
2021 年,罗格斯大学的学者发表了首篇 Transformer 架构视频生成工具的论文,并被 ICML 所收录。
后来,新版本的 N ü WA 模型也从 GAN 切换到了 Transformer 架构。
扩散模型的概念则最早在 2015 年的 ICML 上被提出,但直到 2021 年下半年,"Stable Diffusion" 的前身 "Latent Diffusion" 才真正让扩散模型火了起来。
它的基本原理是通过逐步添加噪声和去除噪声来生成影像,生成影像的真实性高、细节更为清晰。
到 2022 年 4 月,扩散模型正式被谷歌应用到了视频生成领網域,推出了 Video Diffusion 模型成为新的文生视频 SOTA。
直到现在,AIGC 视频领網域的头部选手,大多都已采用 Transformer 或扩散模型作为底座。
而放眼 AI 视频生成的战场,不得不提的就是老牌厂商 Runway 了研发的 Gen-2 了。
Gen-2 生成视频的效果已经克服了以往 " 一眼 AI" 的缺点,分辨率也达到了 4k,是众多视频生成工具中清晰度最高的。
时长上,Gen-2 可以一次支持 18 秒的长度,这在 AI 视频生成工具中也是前所未有。
Runway 创始人兼 CEO Crist ó bal Valenzuela 更是在中表示,一个激动人心的新(创意)时代已经要开始了。
而在去年,Runway 也迎来了一位强悍的挑战者——斯坦福华人博士郭文景(Demi Guo)休学创业做出的Pika。
它可以根据输入的影像或文本流畅地生成视频,而且可编辑性强,指定视频中的任意元素均可快速替换。
靠着 Pika 惊艳的效果,这家初创公司成立仅半年时,就新斩获5500 万美元(约 4 亿人民币)融资。
其中个人投资者不乏各种大牛,如 Quara 创始人 Adam D ’ Angelo、Perplexity 的 CEO Aravind Srinivas、GitHub 前 CEO Nat Friedman 等等。
开源模型则有 Stable Diffusion 团队推出的Stable Video Diffusion,支持生成约 3 秒的视频,分辨率为 576 × 1024。
除了这些专搞 AI 视频的初创团队,巨头大厂们也纷纷参与进了这场战争。
比如 Meta 于去年 11 月发布的 Emu Video,同样支持 4K 画质的视频合成,在用户评估中号称打败(当时的)Gen-2、Pika 等对手。
谷歌也在 12 月交出了自己的模型VideoPoet,它没有用常用的扩散模型,还零样本实现了 SOTA。
相较于此前一些模型,画面更加稳定、动作更加逼真,清晰度也直线 up。
就连主要经营硬體产品的英伟达,也推出了基于扩散模型的视频生成工具 PYoCo,并被 2023 年的 ICCV 大会所接收。
不仅国际市场上的斗争火热,国内这边也同样激烈。
比如今年 1 月,字节就推出了 AI 视频生成模型MagicVideo-V2,支持 4K、8K 超高分辨率,测评效果超过 Gen-2、Pika 以及现有 AI 视频生成工具。
有研究者对比了 MagicVideo-V2 和其他大牌工具的表现,以细节写实能力为例:
小男孩在公园的小路上骑着自行车,车轮踩在碎石上发出嘎吱嘎吱的声音。
可以看出只有 MagicVideo-V2 和 SVD 生成的视频最贴合提示词,但 MagicVideo 又以更真实的脚步动作胜过了 SVD。
(左:MagicVideo-V2,中:Stable Video Diffusion,右上:Pika,右下:Gen-2)
从 2013 年 VAE 诞生,到 2020 年被 Transformer 和扩散模型取代用了近 7 年,但新的模型蓬勃发展,不过才三年时间。
而像这样 " 长江后浪推前浪 " 式地竞相更新,更是最近这半年才有的事,这半年一个又一个模型相继涌现的过程中,几乎每个成果都可以说是颠覆性的。
在这样的浪潮当中,抖音当然不想成为被颠覆的一个,所以最好的方式,就是在被外部力量颠覆之前,实现自我颠覆。
字节把张楠从抖音一姐的位置换到剪映一姐,或许就是这个思路的一种反映。
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>