今天小编分享的科技经验:字节重建AI核心,欢迎阅读。
11 月 13 日早上,一则关于阿里巴巴决定申请仲裁 " 通义大模型前员工周畅违反竞业協定 " 的消息迅速在 AI 圈传播开来,而当天中午就有媒体得到阿里内部人士的确认:情况属实。
早在 2020 年,周畅就开始在阿里达摩院带领团队训练名为 M6 的多模态模型,2023 年 ChatGPT 爆火后,他所在的团队在 M6 基础上研发了 " 通义千问 " 大模型,该模型如今已成为众多通义系列 AI 产品的技术底座。可以说他就是当今世界上最懂阿里大模型的人,但这个人现在跳槽到了字节跳动,对于阿里来说这无异于釜底抽薪。
7 月中旬,最先曝出来的消息是周畅即将辞职创业,然而 10 月底,他就已经加入了字节跳动。" 辞职创业就是个幌子,就是怕被竞业," 在一家服务字节的猎头公司工作的沈曼告诉《第一财经》杂志," 但这次瞒不住了,来字节的不止周畅一个人,他手底下的团队还有十多个人也跟着跳槽了。"
此外,最近几个月加入字节大模型团队的关键人才还包括零一万物前算法副总裁黄文灏,面壁智能原核心成员、序智科技创始人秦禹嘉。
这家中国最年轻也最激进的技术公司一直以拥有庞大的招聘团队著称,HR 部门巅峰时有 5000 多名员工,其中绝大部分人唯一的工作就是招聘,再辅以同等规模的外包猎头体系,共同构成了一座史无前例的抢人工厂。其他体量相近的技术公司在招聘团队规模上与它有着约一个数量级的差距,这意味着只要字节决定入场,每家竞对公司都将面临人才流失的风险。
但字节曾是 " 迟钝 " 的。CEO 梁汝波在 2024 年年初的全员会上反思道,公司 " 直到 2023 年才开始讨论 GPT,而业内做得比较好的大模型创业公司都是在 2018 年至 2021 年创立的 "。百度 2023 年 10 月宣布已在百度搜索、文库、地图等各种应用中全部植入了 AI 能力时,豆包 App 刚上线不久,这也是当时字节唯一一款 AI 原生应用。
字节提速,从抢人开始
从 2023 年年中开始,这座工厂 AI 方向的抢人需求就没有断过。" 目标主要是阿里通义团队、百度文心和飞桨团队,以及包括月之暗面、智谱在内的‘ AI 六小龙’,等等," 沈曼说," 国内有模型研发经验的人才基数较少,所以工作时往往可以直接定位到团队甚至个人。"字节对于基础模型研发相关人才的招聘是没有名额上限的,对于目标团队的候选人在薪资上开出的数字非常可观,经常可以看到基于原薪资双倍的涨薪幅度。
根据沈曼的经验,字节各个部门首先要向招聘团队提出招人需求,但公司开放给各部门招聘人才级别的权限并不相同。字节职级一共分 10 级,从最低的 1-1 到最高的 5-2,数字越大,职级越高。其中 2-1(工程师)到 3-1(高级技术专家)是内部占比最大的。在业务维稳期,会有大量 2-1 和 2-2 的招聘需求。在业务需要 " 开疆拓土的阶段 " 会放出 3-2、4-1 以及更高的需求。一般来说,只有盈利部门 3-1 以上的需求会更多,但是在大模型研发人才的招聘上,字节格外大方。《第一财经》杂志通过多方信源了解到,字节给周畅提供了一份几乎无法拒绝的合同:4-2 的职级和 8 位数的年包工资,按阿里的职级体系换算大约是连跳两级且薪资翻好几倍。与他一起来的原团队成员,字节也都给了 4-1、3-2(对标阿里级别 P10、P9)的职级。" 你也可以把周畅这单合同看作一份英雄帖,字节是在告诉所有人,它愿意给,而且给得起。" 沈曼说。
对于字节来说,抢人早已是公司开辟新业务时惯用的手段。字节创始人张一鸣曾多次在公开场合提到 " 人才密度 " 的概念,在他看来,只要保证人才密度超过业务复杂度,那么在有效的激励措施下业务的成功是水到渠成的。
张一鸣本人就是这套理论最忠实的践行者,字节旗下今日头条、抖音等信息流产品所倚仗的核心技术,即推荐、广告、搜索算法(简称 " 推广搜 ")的研发班底其实就来自于百度。2014 年至 2015 年,张一鸣以高薪从百度网页搜索部相继挖来了当时的副总监杨震原、主任架构师朱文佳,以及一批机器学习算法工程师。现如今,杨震原已是字节跳动副总裁兼火山引擎业务负责人,朱文佳则担任过今日头条 CEO 及 TikTok 产品技术负责,2023 年年初更是成立了代号为 "Seed" 的神秘团队,专注于大模型底层技术的研发。
其实比从外面抢人更早一点发生的,是字节内部的 " 抢人 ",或者按官方的说法:团队重组。
神秘和特殊是乐雁对 Seed 团队的最早印象。2023 年年初,他发现在字节机器学习平台的算力使用榜前排出现了一些新名字。依照过往经验来看,排名靠前的都是当前字节内部最受重视、得到最多资源倾斜的团队,而前几名的算力使用量往往能占当时总算力的一半。一些消息灵通的同事称这个新成立的团队很可能在做基础模型的研发,他们的工作区还有第二道门禁。
乐雁 2020 年才作为算法工程师加入字节,但他对这家公司灵活多变的管理风格并不陌生,从每个人到每个部门,一切都在名为效率的指挥棒下快速移动、安置、再移动、再安置。
AI Lab 在公司内部式微后,字节 AI 研究的重心转移到应用机器学习(Applied Machine Learning,AML),也被称作机器学习中台部门,该部门一方面负责传统产品的推广搜算法研发,另一方面被要求拓展新业务,包括搭建字节的算力集群并训练大模型。其中的关键人物包括原机器学习系统负责人朱亦博,他 2023 年辞职后参与创办了 "AI 六小龙 " 之一的阶跃星辰;大语言模型研发技术专家杨红霞 2023 年年初加入字节,曾在阿里达摩院担任 M6 大模型的技术负责人,也就是周畅曾经的领导,不过 2024 年 5 月她已离开字节。
在 2023 年年初成立 Seed 团队是字节在 AI 业务上的又一次调整,该团队主要班底来自搜索、AML、AI Lab 等部门中的大模型相关人才。不仅如此,乐雁称这个团队同时还在从其他部门物色人才,以提升这个新兴业务的 " 人才密度 "。
沈曼估计,如今 Seed 团队的人数应该已经超过了 150 人,这还仅仅只是字节研发基础模型的团队。2023 年年底,字节又成立了一个名为 Flow 的团队,负责基于大模型的 AI 原生应用的研发,豆包就是其成果之一,该团队的人员增长更快,目前有近 300 人。除此之外,字节每个业务部门都被要求思考如何将大模型落地到相关业务场景里。
回归 AI 核心
字节正在自上而下地重建它的核心——人工智能。
早在 2016 年,张一鸣就在公司内建立了 AI Lab,力邀微软亚洲研究院前常务副院长马维英、华为诺亚方舟实验室原主任李航、自然语言处理技术专家李磊等多位科学家加入,设立了包括计算机视觉(CV)、自然语言处理(NLP)、语音和音频处理、音乐、机器学习等多个子团队,几乎覆盖当时人工智能涉及的所有前沿领網域。同时,这个实验室在北京、上海、深圳、新加坡、美国、欧洲等地都设有办公室。马维英被委任为 AI Lab 负责人,直接向张一鸣汇报。
AI Lab 的设立显示了张一鸣在新技术时代的雄心。彼时的字节还不是 " 大厂 ",它创立仅 4 年,只有今日头条一个爆款应用,无论公司资历还是业务体量都无法与阿里巴巴、百度、腾讯等巨头相比。那段时期,百度和腾讯已先后大手笔成立了自己的人工智能实验室,在全球招揽人才,其中百度还招募到了微软前全球执行副总裁陆奇加入。字节是那一轮 AI Lab 建设浪潮中鲜见的初创公司,而且它作出这一决定的时间比阿里巴巴早,后者直到 2017 年 5 月才宣布成立达摩 院。
字节后来的发展数十倍、百倍地回报了这一时期的技术投 入。
AI Lab 成立的同一年 9 月,抖音诞生。当时,2011 年就成立的快手通过 " 农村包围城市 " 策略已收获大量三四线城市用户,作为刚诞生的同类应用,抖音试图从一二线城市突破,将 " 音乐 "" 年轻 "" 潮流 " 确立为主打风格,而支持这些风格所需要的功能——变脸、换装、美颜甚至尬舞,都依赖于人工智能技术。以 " 尬舞 " 为例,它使用字节 AI Lab 的 " 人体关键点检测 " 技术,可以让用户在镜头前跳舞时了解自己的姿态是否和目标姿态准确匹配。2017 年,抖音上线了基于该技术的 " 尬舞机 " 功能,App 版本更新后的第二天,抖音就冲到了应用商店免费榜的第一名。
人工智能技术不止加持了抖音,也使字节开始成为真正的 App 工厂、全球化公司。2018 年,张一鸣在当年举办的首届数字中国建设峰会上发表题为《技术出海,建设全球创作与交流平台》的主题演讲时表示," 人工智能技术是字节跳动在全球市场取得优势地位的关键 "。不论是综合资讯类的产品 TopBuzz、News Republic,还是短视频类的产品 TikTok、musical.ly、Vigo Video、BuzzVideo,这些产品虽然有着不同名字,内核都是同一套人工智能技术方案——推荐算法,张一鸣称它为全球用户提供了一致的产品体验。
然而当抖音、TikTok 等核心应用取得具有绝对优势的市场地位、开始步入 " 流量如何商业化 " 的阶段,AI Lab 在字节的位置松动了。指标性迹象是 AI Lab 负责人马维英的汇报对象从张一鸣变为当时的抖音负责人张楠,这意味着 AI Lab 不再是个集团级的前瞻性项目,变成了服务于抖音这一应用的技术团队。
马维英于 2020 年年中宣布离开字节跳动,回归学界加入清华大学智能产业研究院。同在该实验室担任总监的李磊和王长虎也于次年离职,其中李磊像马维英一样重返了学界,王长虎则于 2023 年投入视频生成模型领網域的创业。
随着核心团队成员的离开,字节 AI Lab 体系开始被进一步弱化和拆分。按照乐雁的说,他 2020 年加入 AI Lab 时这个部门还是字节跳动 AI 研究的核心部门,团队规模上百人。但次年,AI Lab 重组,各个组被拆分到不同的业务线,比如影像视觉的一部分人就被划分到商业化团队下,为公司一些业务提供技术中台支持,如抖音的手势、肢体识别等 AI 功能。这次重组后,整个 AI Lab 只剩下不到 50 人,主要做一些偏学术方向的研究,比如机器人等,原先的视觉模型、自然语言处理等方向都已不存 在。
张一鸣很早就意识到了 AI 在内容分发上的巨大潜力,不过他可能没有意识到 AI 在内容生产上的潜力更大,大到可能颠覆其基于内容分发技术构建的产品形态和竞争优势。目前,业内已有不少创业项目都在基于生成式 AI 构建新一代内容社区,其中既包括可能取代小红书的文字、图文社区,也包括可能颠覆抖音、TikTok 的短视频社区。如果字节不能提供相似或更好水平的内容生产技术,用户很可能会转移至其他平台。毕竟社区的本质首先是为创作者提供创作工具,其次才是表达渠道,Instagram、小红书、抖音的崛起,一再说明了这一点。
公开资料显示,早在 2017 年马维英就公开表达过:" 在内容分发上 AI 算法已经做得很好了,但很多信息的需求不是靠搜索 3 个网页就可以满足 …… 我们希望 AI 能够在创作端释放出人更多的创意。"AI Lab 总监李航也曾在 2022 年发表论文讨论基于 Transformer 的 " 序列到序列模型 ",Transformer 正是后来令 GPT 系列模型大火的新 AI 架构。李航在那篇论文中提到了 Google 的 BERT,还提到了 OpenAI 的 GPT。当年 11 月的最后一天,OpenAI 发布了基于 Transformer 的 ChatGPT。到了 2024 年年初,字节 CEO 梁汝波在全员会上反思公司对大模型反应 " 迟钝 "" 直到 2023 年才开始讨论 GPT"。
2023 年紧急成立的 Seed 团队,某种程度上承担了 AI Lab 最初成立时被赋予的角色:理解和抓住眼下最前沿的人工智能技术,让字节跳动不要掉队,甚至能引领行业。
补课、烧钱与饱和式攻击
字节跳动自 2023 年以来的状态与其说在试图重现 " 大力出奇迹 " 的神奇功效,不如说是一种担心被落下的补课。
不仅在人才端抢人,应用端也在抢用户。据《第一财经》杂志统计,字节目前还在正常运营的 AI 应用有大约 20 款,其中绝大部分是在 2024 年以后发布的。而在模型层,2023 年只正式发布了语言模型的字节,在 2024 年相继补全了影像、语音、音乐、视频、3D 等不同模态的生成式 AI 模型。在这一轮生成式 AI 浪潮中起步最晚的字节,已经成为目前拥有最全生成式 AI 模型、最多 AI 应用的技术公司。
字节再一次祭出了拿手好戏:内部赛马,外部 " 小步快跑、敏捷迭代 ",以及烧钱。
乐雁对《第一财经》杂志说,现在 Seed 和 Flow 是字节明面上的生成式模型与应用部门,但当公司高层都将目光投向这个领網域时,每个有 AI 研发能力的团队都在尝试研发出更好的模型或产品,争夺更多的资源与升职的机会。" 就比如 Seed 最近同时发了两款视频模型(SeaWeed 和 PixelDance),这两个模型其实是不同小组做出来的,最后都放出来说明这两个模型确实在能力上各有千秋," 他说," 如果其中某个团队的模型哪怕稍弱一点,那压根就不会被外面看到,字节一直都是这种赛马模式。"
面对外部,字节则采取了一贯的 " 饱和式攻击 "。以 Coze 为例,它对应的是 AI 智能体最热门的应用场景之一,它允许用户自己创建定制化的聊天机器人,并且这个机器人能将各种功能节点(如插件、模型、代码)按照一定的顺序和逻辑关系连接起来,创建出复杂的业务流程,以实现特定的任务或功能。
白话 Agent 主理人古德白今年年初就一直在尝试基于 AI 工作流做营销工具,他告诉《第一财经》杂志,Coze 几乎每天都在更新版本,这需要大量资源投入和团队配置,字节雇用了大量外包公司完成最后的产品测试," 创业公司很难应对这样的饱和式攻击。" 古德白说。而且 Coze 推出时直接采取 " 模型免费使用 " 策略,导致国内最早落地 AI 工作流功能的另一个平台 FastGPT 迅速沉寂,Coze 则后来居上。
字节也是今年年中国内大模型价格战的发起者。2024 年 5 月,火山引擎 FORCE 原动力大会上,字节跳动在正式发布豆包大模型的同时向模型的 B 端价格挥起屠刀,豆包通用模型 pro-32k 版的推理输入价格仅为 0.0008 元 / 千 tokens,比行业均价低 99.3%。这意味着客户花一元钱就能让豆包模型处理 200 万个汉字,相当于 3 本《三国演义》——当时花同样的钱只能向 GPT-4 输入不到 4000 字,甚至不够一篇短篇小说。面对字节发起的价格战,竞争对手不得不快速跟进。阿里云将其通义千问主力模型的价格下调 97%;百度甚至直接宣布文心两款轻量级模型免 费。
面向 C 端用户的 AI 应用上,字节烧起钱来更是毫不手软,花钱投流买量成为它实现产品冷启动最直接快速的方式。据广告情报分析平台 AppGrowing 统计,豆包智能助手 4 月、5 月的投放金额接近 1800 万元,等到 6 月上旬,投放金额飙升至 1.24 亿 元。
与此同时,字节还限制了豆包的竞对产品在抖音平台的广告投放。其中受影响最大的就是智能助手 Kimi,这个由 "AI 六小龙 " 之一月之暗面推出的产品,在豆包下场前曾经依靠在抖音、哔哩哔哩等平台的投放快速起量,但一位 "AI 六小龙 " 的员工说,豆包不仅复制了这个成功路径,还依靠其母公司字节跳动的力量,限制了包括 Kimi 在内的对手在抖音内的广告推送。
结果就是,今年 3 月,Kimi 依靠社交平台的广告投放超过百度旗下的同类产品 " 文小言 "(原文心一言),成为月活最高的原生生成式 AI 应用。4 个月后,Kimi 被豆包超越。一个月内,豆包的月活用户数量从 904 万陡然上升至 5127 万,把广告投放没那么激进的 Kimi 和文小言远远甩在后面。"AI 产品榜 " 的数据显示,10 月豆包的排名以近 7000 万月活用户在中国 AI 产品中断崖式领先,同为智能助手的 Kimi 与文小言分别只有约 3900 万和 3400 万月活。
用花钱的方式买用户的成本目前还不算高。一位熟悉 Kimi 投放策略的人士对《第一财经》杂志说:" 目前 Kimi、豆包的用户留存率还很健康,单个用户获取成本只有十几元,这是相当划算的数字,成熟阶段互联网产品的用户获取成本都在好几百 元。"
但这些用户有没有忠诚度就是另外一回事了。以视频生成领網域为例,今年 7 月,Luma AI 发布的最新模型 Dream Machine 4 天内获得了 1000 多万用户,这些人最早是 Runway 的用户,后来 Pika 发布时也曾涌入 Pika。而且,广告投流能带来的边际效益也在减少。综合 Similarweb 发布的投流数据和 App Growing 发布的用户数据,不久前阶跃星辰的智能助手跃问也在疯狂投放,花了近 7000 万元,但截至今年 10 月只转化来不到 2 万个新用户。
与字节的激进形成对比的是国内其他大厂和初创公司们的谨慎。
除了字节,其他中国技术公司对生成式 AI 的热情都在消退——以积极的视角看,这个领網域正在变得理性。最早押注 AI 的李彦宏在刚刚召开的第三季度总监会上表示," 百度不碰 Sora 类的视频生成 ",并且在文小言的推广上选择 " 稳健 " 而非 " 激进 ";阿里不再执着于开发 all in one 的 AI 超级应用,而是将更多精力放在 AI 云服务上;短视频巨头快手至今没有推出过语言模型应用,而是集中在视频模型的开发与应用上。多位人士向《第一财经》杂志证实,随着国内模型在能力上逼近 GPT-4,以及 GPT-5 的一再延迟,多家公司尤其资源有限的初创公司对于投入训练下一代基础模型(通称 " 预训练 ")变得谨慎。甚至有投资人称暂停 " 预训练 " 的 AI 六小龙不止两家。
一位业内人士告诉《第一财经》杂志,独角兽们选择暂缓预训练下一代大语言模型的原因之一,是即便预训练一个比现有模型好 1 代甚至 1.5 代、超越 GPT-4 的模型,其推理能力仍然达不到让终端应用从陪伴领網域进入生产力领網域的产品需求。GPT-4o 目前在生产力领網域的应用状况已经说明了这一点。根据阶跃星辰创始人姜大昕在阿里云栖大会上提到的数据,GPT-4 达到万亿级参数后,再去提升参数量,边际收益是下降的。
字节却没有减速的迹象。沈曼对《第一财经》杂志透露,预训练人才是字节目前最急要的人才类型。最近字节成立了一个叫 " 大模型研究院 " 的机构,从名字看,它可能承担比基于现有算法训练模型更为前沿的任务。最初的市场传言称,从阿里云挖来周畅就是让他负责这个团队。不过也有消息称,为避开竞业協定,周畅被派去了新加坡就职,工作方向是具身智能,研究机器人在物理世界中自由行动需要的 " 世界模型 "(world model)。AI Lab 在字节式微,其仍然被张一鸣看重并重点投入的最后一个研究方向就是机器人,这些机器人被认为可以服务于字节的电商履约需求。
豆包目前还没有盈利,据 Acecamp 上一份专家访谈纪要,字节跳动对于大模型的财务政策是 " 推理层不亏 ",即模型训练阶段所需要的研发投入、芯片算力投入、人员成本方面可以承受战略性亏损,而模型投入应用后每次调用的成本需要降低。豆包目前对于 B 端用户按照 API 调用收费,平均每 1 亿个 tokens 调用收费约为 80 元至 200 元,豆包能从这种调用中获得 8%-10% 的毛利。尚未向 C 端用户收费。访谈纪要称,从 2023 年至 2024 年,字节跳动通过 " 模型蒸馏 ",将模型尺寸从 300B 降到了 80B 左右,大幅降低了算力开销。
目前,豆包还没有向 C 端用户收费,一大原因仍然是产品不够,一旦开始收费用户就可能流失。纪要提供的数据称,每个豆包用户每天使用该应用的平均时长只有 10 到 11 分钟,而且这个时长是多次使用后的累积数字,如果平摊到每次使用时长,数字就会降低为 2 分钟,即用户每次打开豆包基本只会进行 3 到 4 轮对话就会结束。" 如果 2 分钟内未能满足需求,他们可能会切换到其他应用,而不一定是其他 AI 工具。例如,用户可能会打开微信、小红书等应用。" 纪要中称。
豆包已经是目前国内用户量最大的原生 AI 了。然而字节对此有个更激进的目标,即今年年底实现 1 亿月活。
日后看,字节的饱和式投入中一定有不少比例是浪费的,但眼下的现实状况是,它不得不为新技术时代的到来做足准备。作为字节一直以来——从社交媒体到元宇宙——的战略对标对象,Meta 也在以上百亿美元的规模投入 AI,MetaCEO 扎克伯克在最近一次与英伟达 CEO 黄仁勋的对谈中解释为什么这么做时说:" 今天你在 Instagram 上看到的大部分内容是根据你的兴趣匹配给你的 …… 在未来,我认为这些内容会由创作者使用 AI 工具创造,或者由 AI 综合生 成。"
字节的财务状况在众多大厂中还算不错。据科技媒体 The Information 报道,2024 年上半年字节跳动的营收约为 730 亿美元(约合 5280 亿元人民币),这一数字已经远远超过腾讯同期 3206 亿元的营收,接近 Meta。而字节目前的估值只有 Meta 的 1/5。若有资金需要,它还比其他公司都多一个可观的融资渠道:上市。不过它的造血业务——广告和电商的增速已在快速放缓。今年前三季度,字节中国区单季度广告同比增速从 40% 左右跌至 17% 以内,已有两个季度未能达成既定目标。与此同时,抖音电商的销售额增速也已从年初的超过 60% 跌至 9 月的不到 20%。成熟业务的增速一旦变成个位数,字节能够支持新业务的现金流就会受限。
不过对一个试图进行重大转型的公司来说,上市并不是个好选择——上市之前转型成功的公司多见,上市后成功的则不多。对字节而言,造血能力决定一切。