今天小编分享的科技经验:被张一鸣激励的字节AI大将,做出国内最值钱视频大模型,欢迎阅读。
" 创业要做非共识但正确的事。" 张一鸣的这句话,曾影响了无数字节系创业者,其中也包括前字节 AI 大将王长虎。
作为字节跳动视频生态崛起的关键人物之一,2017 年王长虎加入当时还被称作 " 今日头条 " 的字节跳动,出任 AI Lab 总监,完整参与了抖音和 TikTok 两大现象级产品从 0 到 1 的建设。
在 2023 年视频生成赛道尚处 " 非共识 " 阶段时,王长虎却绕开彼时如火如荼的文生文大模型赛道,押注视觉大模型,并先做海外市场。
" 当时支撑我们的信念就是,我们坚信我们做的事情是非共识的、但正确的事情。" 这也正是王长虎在字节期间,经常听张一鸣强调的观点。
见证过抖音在移动互联网时代的颠覆,王长虎坚信视频生成赛道存在平台级产品的机会。"UGC 到 AIGC,变的是 U 和 AI,最主要的视觉难题不尽相同,但系统性地解决视觉问题所需要的核心技术能力却一脉相承。" 王长虎想做的是一款让普通人也能轻松玩转 AI 视频创作的全民应用。
直到 2024 年初 Sora 横空出世,大众对视频生成的热情被点燃,也让王长虎走到了聚光灯下。
Sora 发布后,一张梗图流传于社交媒体:Sora 是坐在宝座上的巨大神像,下面跪着一众渺小的膜拜者,包括 Runway、Pika、SVD、PixVerse 等十多个视频生成模型或产品。
由王长虎开发的 PixVerse, 是 " 膜拜者 " 中唯一一个由中国公司开发的产品。
看到这张图后,王长虎的心情很复杂,对于 " 跪 " 在了第一排,跟 Runway、Pika、SVD 等当时最好的视频生成产品放到一起,王长虎是感到荣幸的,但更多的是遗憾," 如果我们过去一年有更多的投资和算力资源,有可能最先做出 Sora 的不是美国人,有可能是我们。"
近日,王长虎创办的爱诗科技刚刚完成 A5 轮融资,累计融资金额超 4 亿元,成为中国视频大模型领網域融资规模最大的创业公司。
但随着老东家字节也开始杀入视频生成赛道,当爱诗科技押注的非共识成为大厂新共识之后,王长虎的新挑战也随之展开。
01
Sora 横空出世的第二天,王长虎一大早就被微信吵醒了,投资人、朋友、家人、同事纷纷问他 " 如何看待 Sora?" 还有人问他,超越、追赶 Sora 的最佳視窗期是多长时间?
王长虎的答案是一年前的 2023 年," 是在视频生成行业很冷的那一年 "。也正是在那一年,在几乎所有人都不看好视频生成赛道的情况下,王长虎创办了爱诗科技。
甚至,在还没拿到天使投资的时候,王长虎就收到了投资人朱啸虎的劝退:" 你还是回去上班吧,大模型在中国没有机会 "。
但作为一名技术理想主义者,亲历深度学习与计算机视觉两次技术浪潮,王长虎认为生成式 AI 是 "10 年一遇的机会 ",不愿错过时代变革。
20 年前,王长虎做的第一个研究,就和 AIGC 有关。2004 年,王长虎还是中国科学技术大学电子工程与信息科学系的一名大四学生,他做了人生首个研究,就是根据一张或多张人脸图片,生成该人脸的 3D 模型。
同年,王长虎进入微软亚洲研究院实习,并在中科大博士毕业后转为正式员工。期间,王长虎的工作内容也有不少与 AIGC 相关,但 13 年后他还是离开微软去了字节跳动。
" 在微软可以做世界上最顶尖前沿的科学研究,但科研项目应用到公司产品需要的周期特别长。" 在王长虎记忆中,自己二零零几年做的工作,若干年后才真正应用在必应搜索引擎,新技术很难在第一时间影响用户。
不同于其他大厂在产品成熟后才建立 AI 部门,字节跳动一边开发短视频类产品,一边组建 AI Lab 部门。也正因如此,2017 年加入字节跳动后,王长虎完整参与了抖音和 TikTok 等短视频类产品从 0 到 1 的建设和发展,并为集团各产品提供 AI 技术支撑和业务解决方案。
然而当抖音、TikTok 等核心应用取得具有绝对优势的市场地位、开始步入 " 流量如何商业化 " 的阶段,AI Lab 在字节的位置松动了。这一点从 AI Lab 负责人马维英的汇报对象从张一鸣变为当时的抖音负责人张楠中就能窥见端倪,这意味着 AI Lab 不再是个集团级的前瞻性项目,变成了服务于抖音这一应用的技术团队。
2021 年,王长虎离开了字节跳动。离开的原因,用王长虎自己的话说是 " 发现自己进入了舒适区,想要挑战新的事物。"
王长虎 图源:爱诗科技官网
王长虎是一直有创业情结的,从字节离开后他不是没想过直接创业,但当时生成式 AI 技术的进步还不足以对整个产业产生巨大影响。
直到 Stable Diffusion、ChatGPT 出来之后,王长虎意识到新的 AI 时代到来了。
见证过抖音在移动互联网时代的颠覆,王长虎坚信视频生成赛道存在平台级产品的机会。
2023 年 4 月,王长虎找到现在的合伙人、之前在光源资本 TMT/AI 方向负责人谢旭璋,并拿到超过五千万的天使轮融资,随即宣布成立了新公司 " 爱诗科技 "。
同年 6 月,数名核心人员就位,核心成员中大都是跟随王长虎在字节跳动打过硬仗的。团队成立第一天的时候,王长虎就将目标客户群定位为每天玩抖音、TikTok 的用户," 我们的基因是伴随抖音、TikTok 成长起来的,肯定主要还是 to C 。"
02
直到 2024 年初,一款名为 PixVerse 的 AI 视频生成产品在海外突然爆火,首月访问量便突破 120 万,这一数字超过了硅谷同期明星初创产品 Pika 上线三个月后的 200 万月访问量。
这是王长虎创业半年交出的答卷,但与此同时,一场视频生成领網域的巨变正在酝酿之中。
一个月后,Sora 震撼发布,虽然只是预览版本,但还是凭借 60 秒一镜到底的高清生成能力和三维空间动态连贯性,迅速引爆科技圈,不少业内人士将 Sora 视为 AI 视频界的 ChatGPT 时刻。
AI 视频生成的战场,因为 Sora 的到来,开始真正热了起来。
提前抢跑的王长虎也因此受到关注。"Sora 的出现恰恰验证了我们一开始制订的技术路线是正确的。" 在王长虎看来,Sora 的技术发展相当于在 GPT-2 和 GPT-3 之间,还没到 GPT-4 的水平,留给市场的空间很大。" 我们有信心在 3-6 个月之内就可以追赶上 Sora 目前的水平。"
不只王长虎,面对彼时尚处于 " 期货 " 的 Sora,国外 Runway、Luma AI 等一批初创企业均推出了最新的视频生成模型,阿里、腾讯等国内巨头也纷纷发布基于各自优势的视频生成模型,不少大模型企业都将研发 " 国产 Sora" 摆在了优先战略级。
王长虎的老东家字节跳动也杀了进来。 事实上,Sora 发布前,抖音前 CEO 张楠刚刚转岗剪映,正准备在 AI 视频生成领網域大干一番。Sora 的出现,加快了字节 AI 生成视频产品的研发速度,当月,剪映推出名为 Dreamina 的 AI 绘画工具。3 个月后,剪映 Dreamina 正式更名为 " 即梦 ",上线 AI 作图和 AI 视频生成功能,生成时长为 3-12 秒。
立足海外的王长虎,和老东家的首次交锋发生在国外市场。PixVerse 发布半年后,字节旗下的 AI 视频生成产品 Dreamina(国内版名为 " 即梦 ")登上了 CapCut (海外版 " 剪映 ")的主页面。
如今,老东家亲自下场,不仅在资源上对王长虎形成碾压,更在用户触达上构建起难以逾越的生态壁垒。
剪映海外版 CapCut 上线于 2020 年。随着 TikTok 席卷全球,与之深度绑定的 CapCut 也搭上了顺风车。根据移动数据监测公司 SensorTower 的数据,CapCut 的 MAU 已超 4 亿,占据全球移动视频剪辑市场逾八成份额。
庞大的用户基础下,字节跳动从 UGC 迈向 AIGC,似乎更加水到渠成。CapCut 可以轻松地将新的 AIGC 功能通过 TikTok 的各种推广渠道触达用户,再通过 TikTok 发起特效全球挑战赛,这种 "AI 工具 - 内容裂变 - 流量反哺 " 的飞轮效应,正是初创公司难以复制的生态优势。
" 抖音也是在巨头围堵过程中成长起来的。" 在王长虎看来,小公司有小公司的优势,比如决策流程很快,可以聚焦做一件事情。" 在视频生成这个方向,我们一方面是有先发优势,一方面我们有信心持续走在最前面。"
然而现实远比理想残酷。截至目前,国内 AI 视频生成赛道挤入近 20 家创业公司,但巨头的生态绞杀从未停止,字节跳动通过 CapCut 免费开放部分基础 AI 功能,阿里云视频生成大模型万相 2.1 已经开源……初创公司不仅要证明自己比巨头更快,更要在用户心智被占领前,找到巨头 " 不愿弯腰捡硬币 " 的垂直缝隙。
03
前有 Sora 需要追赶,后有巨头来势汹汹。王长虎也加快了产品迭代的速度。
从 2024 年初上线至今,PixVerse 模型的版本已经更新了 6 次,凭借 " 毒液 "" 机器人变身 " 等特效在社交媒体频频出圈。截至目前,PixVerse 的全球用户量已突破 4000 万,单月月活跃用户(MAU)达 1500 万。
但百度董事长兼 CEO 李彦宏率先给视频生成赛道泼了盆冷水。"Sora 这种视频生成的投入周期太长了,10 年、20 年都可能拿不到业务收益,那么无论多么火爆,百度都不去做 ",2024 年三季度总监会上,李彦宏明确表态道。
Sora 成本究竟有多高?市场研究机构 Factorial Funds 给出过一份报告,Sora 模型至少需要用掉 4200~10500 块英伟达 H100,想要大范围应用,还需要再增添约 72 万张英伟达 H100,单论 GPU 投入费用,就需要超 200 亿美元。
面对巨头碾压和有限的资源,王长虎也在不断降低训练成本。在字节期间主导构建的视频 AI 中台的经验,使其团队掌握了从海量数据中筛选出一小部分高质量数据来训练更优秀的模型的能力," 训练成本仅为大厂的十分之一甚至更低 "。
而经过一年的蓄力,去年 12 月,Sora 正式版终于姗姗来迟,但效果却不尽如人意,被不少用户吐槽 " 不如一个中国的开源模型 ",价格同样槽点满满,Pro 版要 200 美元一个月。
随着 Sora 热度降温,资本对 AI 视频生成领網域的投资愈发谨慎。在 AI 这个快速迭代的领網域,市场瞬息万变,钱的流向也随之发生变化。年初 DeepSeek 掀起一场算力革命,加速了推理大模型的研发,近日 Manus 的出圈则点燃了 Agent 生态。
与此同时,行业竞争加剧,AI 视频生成工具之间差异化越来越小,用户增长乏力已成为不争的事实。
王长虎的 PixVerse 也未能逃脱访问量下滑的趋势。根据 aig crank 数据,2025 年 2 月,PixVerse 访问量出现下滑,环比下降 14%。另据 SimilarWeb 统计,位居全球前列的 AI 视频生成企业 Luma AI、Pika 的月总访问量都出现了环比下跌。
当行业陷入同质化竞争,王长虎也准备将战场转向国内,以开辟更大的潜在用户。据悉,PixVerse 国内版本已进入筹备阶段,预计将于近期上线网页端及 APP 产品。
" 视频生成技术离流量和商业化很近,国内市场的用户基数与应用场景有更多发展和实践的可能。" 在用户付费意愿高的国外市场,王长虎付费订阅的商业化得到了验证。
但在国内,免费与开源的视频生成工具已在市场中占据了一定的市场份额。老东家字节跳动旗下剪映已集成 AI 视频生成功能;腾讯智影、百度 AI 创作平台通过云服务生态持续蚕食企业级市场;而开源社区中,阿里 ModelScope、清华 VideoGPT 等国产模型不断迭代,正在消解技术壁垒。
更严峻的是,国内用户对 AI 工具付费意愿仅为北美市场的三分之一,超 60% 的创作者首选免费基础功能——这与 PixVerse 在海外赖以生存的订阅制商业模式形成冲突。
当技术护城河遭遇生态碾压,转战国内的王长虎需要证明的是:在算力与流量的双重绞杀下,小而美的故事如何继续讲下去。