今天小编分享的互联网经验:字节快手迎来关键对决,欢迎阅读。
作者 | 刘宝丹
编辑 | 周智宇
AI 竞赛焦点已经开始转向多模态,字节和快手在 AI 视频赛道的竞争也日趋激烈。
近日,快手正式发布可灵 2.0 视频生成模型及可图 2.0 影像生成模型,将视频及影像创作的精准度带上一个新高度。同期,字节 Seed 团队正式发布 Seedream 3.0 技术报告,据第三方榜单 Artificial Analysis,Seedream 3.0 综合性能已追平文生图 SOTA 模型 GPT-4o,进入全球第一梯队。
作为短视频平台,字节和快手被认为是 AI 多模态领網域的有力竞争者。经过一年多的技术追赶,双方在 AI 视频生成领網域都取得了不错的进展。
根据 AI 产品榜 3 月数据,在全球 AI 产品增速榜(仅 APP)上,即梦 AI 以 173.57% 的月活增速位居第 5,是增速最快的 AI 视频应用,其月活规模约 2037 万,而可灵 AI 的增速仅为 36.44%,排名第 14。根据快手公布的数据,截至目前,可灵 AI 全球用户规模突破 2200 万。
不过,当前 AI 视频生成领網域尚未涌现类似 DeepSeek 在大型语言模型(LLM)领網域的标杆性产品,根据 Gartner 2024 年新兴技术成熟度曲线显示,该技术仍处于创新触发期,这也意味着,字节和快手的竞争仍处于早期阶段。
过去十年,快手和抖音相继崛起,共同开创了中国的短视频时代。如今,AI 时代加速到来,这一次,快手和字节谁的胜算更大一点?
追赶
AI 视频生成领網域还没有一个像 DeepSeek 一样出圈的产品,也正因如此,业内玩家都在试图不断迭代技术,来抢占这一心智。
进入 2025 年,快手和字节都开始推出重大技术迭代成果。
4 月 15 日,快手正式发布可灵 AI 2.0 视频生成模型及可图 2.0 影像生成模型。可灵 AI 2.0 的最大亮点在于以技术革新重新定义 AI 视频生成标准:从 " 能生成 " 到 " 精准生成 ",从 " 工具辅助 " 到 " 创意伙伴 "。
发布会上,快手发布了 AI 视频生成的全新互動理念 Multi-modal Visual Language(MVL),MVL 由 TXT(Pure Text,语义骨架)和 MMW(Multi-modal-document as a Word,多模态描述子)组成,能从视频生成设定的基础方向以及精细控制这两个层面,精准实现 AI 创作者们的创意表达。
基于 MVL,快手发布了全新的可灵 AI 2.0 大师版,它全面更新视频及影像创作可控生成与编辑能力,上线全新的多模态视频编辑功能,支持二次编辑和处理。
当前,图生视频约占到可灵 AI 视频创作量的 85%,快手发布的可图 2.0 拥有多项核心优势,比如,强大的复杂语义理解能力、电影级的画面质感等。张迪介绍,可图 2.0 文生图能力迎来全面更新,模型出图创意和想象力实现大幅跃升。
在快手召开新品发布会的次日,字节旋即披露了其文生图模型 Seedream 3.0 的技术白皮书。
4 月 16 日,字节发布 Seedream 3.0 技术报告,距离字节公布 Seedream 2.0 技术报告仅过去一个月有余。Seedream 3.0 的最大亮点包括原生 2K 直出,而且时间仅用 3 秒,大幅提升创作效率。Seedream 3.0 正式上线,目前已在即梦 AI 等平台全量开放。
华尔街见闻获悉,Seedream 3.0 的研发始于 2024 年末,通过调研设计师等群体的实际需求,Seedream 团队将图文匹配、美感等行业共识性指标纳入攻坚方向,同时,也将挑战 2K 高清直出、快速图片生成等业界难题作为核心目标。
无论是可灵 AI 的二次编辑功能,还是即梦 AI 的原生 2K 画质,都是通往产业应用的重要技术突破。事实上,也只有达到产业级应用状态,AI 视频生成的价值也才有望体现。
如此紧追不舍的竞争态势背后,快手和字节过去一年持续对 AI 视频生成赛道进行布局。
2024 年初,Open AI 通过 Sora 正式入局视频生成领網域,引发全世界关注。彼时,快手在攻克文生视频的关键技术,4 个月后,快手就发布了视频生成大模型可灵,成为国内首个对标 Sora 的产品。
字节 2023 年才开始在内部会议上讨论 GPT,但追赶速度较快,去年底,字节的视频生成模型和产品正式推向了市场。
去年 9 月,字节一举发布了豆包视频生成 -PixelDance、豆包视频生成 -Seaweed 两款大模型,正式宣告进军 AI 视频生成。11 月,原抖音集团 CEO 张楠转战剪映近一年后正式亮相,即梦 AI 推出了 " 一句话 P 图 " 等能力,大幅提升了图片中文字生成的准确率。
即梦 AI 在字节内部的重要性显著提升。华尔街见闻获悉,即梦 AI 所代表的视觉化产品被看好,字节试图将即梦打造成 AI 时代的 " 抖音 "。2 月,原零一万物 PopAI 产品负责人曹大鹏加入即梦 AI,负责移动端产品。他此前用一年时间将 PopAI 做到了千万用户,且投资回报率(ROI)接近收支平衡点,是一枚得力干将。
如今,快手和字节再次交战,他们都在试图将模型技术带入生产级赛道。
押注
对于 AI 视频生成赛道,字节和快手无疑是国内反应最快速的科技公司。
这是因为,他们都依靠短视频起家,天然更懂视频创作,但更重要的是一种 FOMO(Fear of Missing Out)心理。AI 技术将大幅降低视频生成的门槛,当年,快手和字节都是因为降低了视频拍摄门槛从而创造了视频平台,AI 显然更具颠覆性。
字节和快手布局 AI 视频赛道的本质,是想要在 AI 时代复制出一个新的 " 抖音 " 和 " 快手 ",从而成功跨过新一轮技术周期。
就当下而言,字节和快手对 AI 视频赛道的策略也各有侧重。
对快手来说,AI 是破解公司增长曲线难题的最大抓手。除了 C 端订阅用户,可灵 AI 也面向 B 端商家提供 API 接入等服务,可灵 AI 已与包括小米、亚马逊云科技等企业建立了合作关系。盖坤披露,来自世界各地的超 1.5 万开发者,已将可灵 AI 的 API 应用于不同的行业场景中。
3 月 25 日,快手科技创始人兼首席执行官程一笑在电话会上透露,自商业化以来截至 2025 年 2 月底,可灵 AI 的累计营业收入超 1 亿元人民币。他表示,快手将会在 ROI 可控的前提下,不断扩大可灵 AI 的用户宣传和品牌影响力。" 我们有信心在 2025 年实现可灵 AI 营收规模的跨越式增长。"
对字节来说,即梦 AI 是整个 AI 战略的核心版图,也是公司通往 AGI 所必须攻克的难题。
年初,字节豆包大模型团队已在内部组建 AGI 长期研究团队,代号 "Seed Edge",鼓励项目成员探索更长周期、不确定的和大胆的 AGI 研究课题,Seed Edge 的目标是探索 AGI 的新方法,鼓励跨模态、跨团队合作。
去年底,张楠曾表示,抖音,是一个 " 真实世界 " 的相机,借助 GenAI 技术,即梦希望成为想象力世界的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。
随着快手发布全新 2.0 模型,业内都在期待字节的下一步动作,尤其是豆包视频生成模型 1.5 版何时会推出,双方之间的技术追赶还是持续进行。
不过,对于 AI 视频生成赛道的前景,目前仍处于探索阶段。
百亿私募和谐汇 TMT 軟體组凌晨对华尔街见闻表示,产业界对 Sora 为代表的 AI 视频生成产品分歧点主要在于,如果把 Sora 当成 AIGC 的视频生产工具,它的价值量不会特别大,可能就颠覆一下创意軟體这些工具,如果 Sora 是一个通用的视频武器的话,它的想象力很大,比如,跟机器人进行结合。
近日,生数科技产品副总裁、Vidu 产品负责人廖谦表示,当多模态可以做到实时可控、可互動的时候,它可以是完全个性化的,届时一定会诞生出带来新体验的内容平台,这个技术将应用在社交、游戏、VR、AR 等多个领網域,会对所有的行业带来非常深远的影响。
整体来看,相较于大语言模型,AI 视频生成赛道面临的挑战会更大,无论是 Scaling law 还是算力需求消耗,乃至商业模式的探索,复杂程度都在上升。
这注定是一个难度更高的赛道,字节和快手虽然具备视频平台基因,但要想跑到最后,还需要持续创新,才有可能在 Veo2 、Runway、Pika 等一众全球竞争对手中拿下自己的席位。