今天小编分享的科技经验:故障频出,调整不断,阿里云的多事之秋,欢迎阅读。
11 月 12 日,原本是一个平常的周末。一年一度的双 11 刚刚结束,有人期待着快递,有人还在比价,看自己有没有省钱,还有的人忙着退货,或者把替换下来的东西挂上闲鱼。对于阿里云的工程师们,这个周末也是愉快的,最忙的一段时间已经过去,接下来伺服器负载将慢慢回落,他们也能松一口气。
这口气刚松一半,12 日晚间,淘宝崩了。同一时刻,阿里云盘、闲鱼、钉钉、饿了么等产品接连崩溃,无法登陆、查看、结算等问题一并涌现,从 17:44 故障发生到 21:11 所有服务完全恢复,时长累计近三个半小时。
阿里系产品的大规模崩溃,很快就上了热搜,问题指向了阿里的 " 技术底座 " ——阿里云。与此同时,众多使用阿里云服务的企业和个人,也受到了影响。这是阿里云时隔一年后,又一场 " 史诗级故障 "。
那几天,高层寻找故障源头并定责、技术人员排查漏洞、公关部门对外发布处理结果。这边还忙乱着,11 月 27 日,异常再次出现。当日 09:16 起,阿里云监控发现北京、上海、杭州、深圳、青岛、香港以及美东、美西地網域的数据库产品的控制台和 OpenAPI 访问出现异常,持续时间约 2 小时。
短短一个月里,阿里云出现了两次大规模故障,这在整个云计算行业中都是罕见的。实际上,近日阿里云还有另外两次小规模局部故障,一次在 11 月 28 日,12 月 5 日也有一次异常,持续时间都很短,很快就被解决。对云计算公司而言,安全性与可靠性是最重要的,也是阿里云始终在追求的,但频发的故障也显示出,阿里云内部可能存在着一些问题。
文 |徐晴 李清扬
编辑 |赵磊
运营 |橙子
委屈与不幸
一个月接连两次故障后,阿里云的一位技术人员满腹委屈:" 还能怎么重视安全和稳定性呢?"
在阿里云的发展史上,每一次故障都是大新闻。除去 2018 年 6 月和 2019 年 3 月的两次,最近的一次大故障出现在 2022 年 12 月,当时,阿里云的下游客户——一些公司和政府部门网站陷入瘫痪,数小时无法提供服务。最后发现,阿里云香港机房出现故障导致宕机,这成了科技圈里最大的热点," 是阿里云运营十多年来持续时间最长的一次大规模故障 "。
面对故障,阿里云高度重视。内部传说 " 高层震怒 ",香港宕机事件后,阿里云总裁张建锋(行癫)卸任,时任阿里集团一号位逍遥子张勇亲自挂帅。公司还额外成立了一个 " 稳定性团队 ",在每个产品部门里設定专人负责。当月,稳定性团队拉上所有产品团队开了一个全体动员大会,内部叫做 "kick off meeting",简称 "KO",参与过那次大会的老员工王子木说,阵仗浩大," 热烈倡议我们打一场战役,集中力量把稳定性做好,做到哪些指标和级别,用多长时间,能想到的东西全都列好 "。
到今年年初,关于安全和稳定的举措再迈上了一个台阶。阿里云 CTO 周靖人对安全和稳定尤其重视,每个员工也要在自己的 OKR 里加上 " 维护某某项目的安全与稳定性 "。随后設定了 " 安全分 ",发现有安全方面的问题就扣分,分数关系到具体员工的绩效,而绩效关系着年终奖和晋升,在 3.25 和 3.75 相差巨大的阿里,这几乎是最高力度的惩罚。
把这些举措加在一起," 公司已经没什么能做的了,几乎是 120% 的重视程度 "。在王子木看来,一个把安全和稳定挂在嘴边、严格执行的公司,怎么会接连出问题?他只能把故障总结为运气," 阿里云多少是少了点运气 "。
与香港宕机事件导致的局部故障不同,11 月 12 日的故障,是一个底层全局性服务组件出现问题,导致全球范围内所有可用区和所有伺服器同时发生故障,影响范围巨大。除了阿里系产品,还有众多使用阿里云业务的客户,尤其是那些没有规模化的运维技术团队,完全依赖阿里云各类托管服务的中小企业和个人开发者。
于是,在那个晚上,除了阿里系产品无法使用,还有闪送小哥上传不了接单凭据,原神玩家收不到短信验证码,一些停车场不抬杆,一些超市结不了账,甚至有的大学生因为刷不了卡,用不了学校的公共洗衣机。万幸的是,故障发生在周日,不然还会导致使用金融云和政务云的相关部门瘫痪,造成更大的损失。
▲阿里云相关新闻频频登上热搜。图 / 截图
故障发生后,这边 CTO 周靖人和几位 P10、P9,以及负责销售、对接客户的前线部门牵头,跟 GTS(全球基础技术业务)部门共同召开定责会议,排查问题源头。那边高层们在工作群里接连发消息:把安全和稳定坚决放在第一位,所有工作都放下,全力排查风险,排查完成后,再考虑其他工作。有的部门排查了一两天,也有的排查时间更长。紧接着,员工们收到一封全员信,阿里云员工王珂说," 名义上让几个大佬把年终奖清零了 "。
近日,阿里云因 11 月 12 日故障对客户的赔偿陆续到账。根据阿里云向客户承诺的《服务等级協定》,如果因阿里云故障导致月度服务的可用性达不到 99.90%,也就是故障时间超过 43 分钟,就得赔偿 30% 月度费用的代金券。许多个人开发者赔付金额没达到 50 元,也被阿里云统一提高到 50 元。据业内人士估算,这次赔偿的总金额可能超过 1 亿元,约为阿里云一个月的利润,但对于因故障导致的客户损失,这些代金券又显得微不足道。
11 月 27 日,上一次故障还没有善后完毕,新的故障又发生了。一位连夜参与第二次故障排查的技术人员叹了口气," 各种故障扎堆了,越是重视,它越是出问题 "。
很多技术圈博主都认为,技术故障不可能百分百避免,但根据海因法则,一次大故障的背后,一定有几十次轻微事故,几百次未遂先兆,上千条事故隐患。而如此高频的故障,意味着阿里云内部有着很多不稳定因素,提高了故障发生的概率,也会让客户对阿里云的可靠性产生动摇。
在阿里一拆六的大背景下,阿里云这一年里无比动荡,调整不断,影响着每个具体员工的心态和工作。在故障与阿里云的摇摆和动荡之间,或许没有直接的联系,但有间接的关联。正如王子木所说," 阿里发展了这么多年,里边总是有坑坑洼洼的地方,技术人员流失,公司变化剧烈,有些代码可能没有人维护,有一些断层。也有可能人的心态被影响,人不稳定了,代码就有风险,毕竟,代码都是人写的,很多问题会慢慢暴露出来。"
第一向第二学习
阿里云也有过幸运的时候。
王子木记得,在最鼎盛的 2015-2018 年," 市场上只有阿里云一家云厂商,客户请着你去跟他们交流。价格上不打折,我们说多少钱,客户只要有预算,就买 "。
做云,阿里有天然的优势。为了冲每年双十一的成交额,阿里采购了数量庞大的伺服器,搭建了一支技术上的精英团队,但在非双十一、流量没那么大的时间段,这些多余的算力和技术服务就可以出租出去,赚钱、盈利。" 在当时看,这个故事是很美满的。"
阿里也是起步最早的云计算公司之一,2009 年率先站上了跑道。移动互联网时代来临,互联网要把传统行业重新改造一遍,一些传统消费品牌、创业公司需要上云,首选就是阿里云。
从 2015 年到 2019 年,阿里云年收入从 30 亿暴增至 400 亿,市场份额遥遥领先,阿里云的地盘几乎等于第二名到第九名的总和。但很快,市场发生了变化,除了腾讯云、金山云,华为云异军突起,移动、电信等运营商也加入了战场。玩家变多,竞争激烈,云计算的赛道里,大家的身位越来越近,几乎是贴身肉搏。
▲图 / 视觉中国
在行情最好的 2018 年末,阿里云提出三年后营收过千亿的目标,那时阿里云的营收不过 200 多亿,相当于翻五倍。但在 2021 年,阿里云就开始放慢增速,Q1-Q4 收入同比增速分别为 37%、29%、33%、20%,2022 年第一季度,收入同比增速降到了 12%,几乎陷入了增长瓶颈。
主流的云服务有两种类型,私有云和公有云,前者相当于把水和花洒都买回自己家,云计算厂商帮忙调试,一些政企客户出于保密或某些政策原因倾向于私有云;公有云则像是一个公共的大澡堂子,谁都可以进来,价格便宜,按时计费,刷卡就可以出水。
那两年,公有云市场见顶,而在政府、央国企集中的私有云领網域,客户预算动辄几千万甚至上亿,是全新的增量市场。擅长做政企生意的华为,正是在私有云的生意里获得了增长的燃料,2022 年,华为赶超腾讯,成为国内排名第二的云计算厂商。
阿里云的创始人王坚曾在 2013 年公开称,私有云根本就称不上是云,如果不能够将计算资源规模化、大范围地进行共享,所谓的 " 私有云 ",顶多是将其原有的解决方案重新包装一下,卖给客户一个更新版的 IT 解决方案。
面对增长危机,一个问题开始困扰着阿里云:要不要做私有云?最终,阿里云还是没办法放弃这块肥肉,但阿里云的工程师和销售们,缺乏与政企客户们打交道的经验。王子木曾经接触过私有云的项目,他的感慨是," 政企的甲方太难伺候了 "。
据王子木回忆,多年前,有一个金额巨大的特大项目,阿里云与客户相谈甚欢,一拍即合,为了取得客户信任,真金白银投入了机器、人还有钱,最终发现合同都没签。项目烂尾,还在扩张期高歌猛进的阿里云 " 大手大脚,也不知道钱到底有没有要回来 "。在那之后,流程才越来越严格。
更常见的问题是,私有云服务很难标准化,更像是定制,政企事业部門的甲方很可能不断地加需求、改需求,最终定好一年的项目,两年都还没有验收结束、支付尾款。阿里云卖机器赚不了多少钱,赚钱的是标准化的服务,但定制化的服务成本也是最高的,拉技术人员协调、修改这些需求,卖一千万的项目,搭进去一千五百万的人力成本是常事,营收看似涨了,但很多是赔钱的买卖。
着急中的阿里云,开始向华为学习。先是华为出身的任庚被任命为中国区总裁,紧接着高薪聘用大量华为跳槽来的销售。任庚引入了 " 红蓝对抗大练兵 "、打卡等华为管理方法,并不断调整销售团队的架构。
2022 年 3 月,前华为企业业务中国区总裁蔡英华到阿里云履新,花名华焱,担任资深副总裁,统管全球销售业务,职级为 M7,相当于 P12,直接向阿里云总裁张建锋汇报。本打算离职的任庚也被挽留,成了蔡英华的下属。
前阿里云员工张扬透露,蔡英华带着更加浓厚的华为风格与印记,他像任正非一样喜欢发 " 红头檔案 ",下发的文档以 " 一号令 "" 二号令 " 等命名。到任后,他把负责销售的前线职位都改了个名字,重新换了组织架构," 从前销售解决方案是一个部门,研发是一个部门,他将这两个部门整合到了一起 "。
更重要的是,蔡英华改革了销售策略。根据犀牛财经报道,蔡英华发布了新生态政策,相信 " 重赏之下必有勇夫 ",标准级以上分销伙伴佣金率翻倍;增量消费最高佣金率从 4% 提高至 30%;对开拓新兴下沉区網域的伙伴,新增额外保底佣金,最高涨幅 12%。向生态伙伴分利,也是华为模式成功的关键之一。
但有渠道商接受采访时表示," 虽然佣金多了,但实际上限制条件也比较多,相当于大客户都被阿里云拿走了,我们的客户群变窄了,基本以小客户居多 "。学习华为的尝试最终没起到明显的效果,整个 2022 年,阿里云营收目标一降再降,仅实现营收 776 亿元。
今年年初,王子木听到了内部消息," 私有云不做了 ",10 个月后,在 11 月的第三周,阿里云再次调整组织架构。据了解,蔡英华 " 基本处于即将离职的状态 "。
这一次早有预兆的调整,只是今年阿里云动荡的开端。
▲图 / 视觉中国
" 不对 "
王子木觉得 " 不对 "。从今年年初开始,这个声音一直响在他的腦海里。" 我在阿里云这些年了,好像做事情也没有什么阻碍,整个人的状态也不差,但就是感觉不对,好像自己在告诉自己,你得出去了。"
从年初到 9 月份离职之前,王子木经历了许多调整。阿里整个集团 " 一拆六 ",作为技术底座的阿里云,在拆分后多出来不少中台等技术人员。五月底,阿里云传出 " 裁员 7%" 的消息,阿里云员工徐皓鹏记得,有些部门有优化的 KPI,每个组的主管都会领到几个名额,徐皓鹏的一位师兄,一位刚 31 岁、TOP2 大学的博士,都在春天结束时离开了阿里云。
那时,时任 CEO 的张勇还计划阿里云在未来 12 个月里完成分拆上市,但短短 4 个月后,张勇就卸任阿里云董事长和 CEO 职务,由吴泳铭接任。
变化给人的影响是具体的。张扬原本准备内部转岗,由于换 CEO,转岗流程暂停,他只好离开,寻找新的工作机会。21 岁的杨天风在香港读大学,九月初开始秋招时,阿里 1+6+n 的独立招聘中,他大部分都投了。淘天集团、阿里国际商业集团很快回复了面试的要求,而阿里云直到 11 月 24 日才给他发来简历评估通过的消息。
11 月,阿里在财报中宣布,鉴于多方面不确定性因素,不再推进云智能集团的完全分拆,这也意味着,阿里云的上市计划将推迟甚至取消;CEO 吴泳铭表示,未来阿里云的发展战略将围绕 "AI 驱动,公共云优先 " 两个方向展开。
按照他的说法,未来阿里云将减少项目制销售订单,也就是私有云订单,加大公共云核心产品投入——短短的一年,战略调转了 180 度。在最新一个季度的财报里(截至 9 月 30 日),阿里云的营收增速仅为 2%,在多个业务集团中排名靠后。这或许是又一次调转方向的契机。
▲ 2023 年 10 月 31 日,2023 云栖大会在杭州云栖小镇开幕。阿里巴巴集团董事会主席蔡崇信在开幕式上致辞时表示,阿里巴巴 " 要打造 AI 时代最开放的云 "。图 / 视觉中国
阿里云前员工林佳觉得," 阿里云的摇摆,本质上就是要挣钱,要完成那个目标,但在私有云上花了大力气,最终又回来重点做公有云,说白了就是做私有云也完成不了目标。如果做私有云每年增速 100%,肯定不会有最近的调整,不会说公有云优先,不可能的。"
阿里云顺风顺水的时候,营收增长,员工的薪资也涨," 大家干得有劲,值个班、熬个夜,都觉得不算什么。到双 11 的时候,每天基本上不怎么睡觉,依然是激情澎湃 "。但在业务增长缓慢,今年以来又频繁调整的情况下,大量的员工,很久没有再涨薪了。
王子木在阿里云工作 8 年,进入公司的第三年升职为 P8,之后再也没有升职。在他看来,自己的晋升之路跟阿里云的发展重合,船不往前开,人也不会往前走。他因此萌生跳槽的打算。阿里云裁员的那段时间,字节的火山云、小红书、快手都在挖人,他找到了更好的机会。他所在的团队里,有近 10% 资历超过 8 年的老阿里人都跳了出去。
动荡之下,更多的人处于观望中,林佳说:" 你想想,如果你做一个工作,每天想的就是随时都会裁员,不知道什么时候裁到自己,自己主动走还不如等着拿大礼包,这份工作还能投入去做吗?"
公司的气氛也有了些微妙的变化。另一位阿里云员工宋繁敏锐地观察到,阿里云内部有一个技术论坛 ATA,从前的几年,技术大佬们无偿把自己的心得、经验、新的想法分享在这里,一片火热,像一个小型的技术创新发电站。但今年以来,新帖罕见,旧帖也蒙上了一层时间的灰尘,很少有人再回复和讨论。
宋繁自己也变了。从前习惯每天早上看一篇最新的技术分析,裁员以来再没看过。对工作,他少了激情和投入," 就是打一份工,赚一份钱 ",就算是早下班心里也没有负担。在北京望京的阿里云工区," 下班时间明显变早了,到了晚上 8、9 点公司很空,以前晚上还蛮多人的 "。因为难以接受 " 突然有一天,你的饭搭子都不见了 ",宋繁也正在考虑离职。
在某种程度上,11 · 12 故障的原因与人的心态、工作状态变化有所关联。
阿里云员工徐皓鹏和相关知情人告诉记者,这次事故来自于对象存储 OSS 部门,由一个五六个人的小团队负责。在一个配置更新更新时," 本来应该先发一小部分进行灰度测试,等测试没问题,再一个区網域一个区網域地发布,最后达到全網域更新。但有技术人员未经测试,一次性全網域发布,最后导致了很大的故障 "。
对象存储是一个基础性服务,涉及到认证和鉴权,用户想进入数据库要先通过一道密码门比对身份。而配置更新是一个很基础的动作,相当于設定密码和身份,只要严格规范操作,不太可能会出问题," 制度虽然存在,但是员工没有把流程做规范 "。
另一位员工王珂则分析,11 · 12 故障出现在周日,一个非正常工作时间," 有些东西如果没有很完整的测试流程或者框架的自动化,需要人手动测,耗时耗人,跑一次测试一天、一周都有可能,人在这样的环境下对工作没有耐心,可能就会在流程上不规范,出现人导致的纰漏 "。
尤其可靠性工程师这个职位,很难有产出,没法通过不出故障来证明自己的价值,因为大家默认那是应该的,反而一出故障就会被追责,在降本增效面前,也承担着巨大的心理压力。
而针对 11 月的第二次故障,新的 " 安全与稳定性 " 举措又开始了。上周五,阿里云的员工们都在填一张表格,"H2 财年(2023 年 10 月 -2024 年 3 月)会在安全方面做哪些事,每个人至少要投入 30% 的人力在这上面 ",王珂感觉很无奈,数字是这么写,但 30% 人力到底怎么换算,谁也不清楚。
相比这些模糊的概念,大家更在意的显然是自己的薪水、年终奖。填表时,王珂听到同事在讨论," 今年整个阿里云的绩效肯定是 3.25,那会不会全员 3.25?" 最终回答他的,只有 A4 纸翻动的声响和众人的沉默。
▲杭州云栖小镇,阿里云。图 / 视觉中国
阿里云要往哪儿走?
故障对云服务厂商而言是致命的。当前阿里云服务的客户超过 300 万家。十月底的 "2023 云栖大会 " 上,阿里巴巴集团主席蔡崇信指出,目前中国 80% 的科技企业和一半的大模型公司都跑在阿里云上。
最常见的商业故事是一条鲶鱼搅乱池水,在大鱼口中夺食,但阿里云自己就是那条大鱼。当下的阿里云,面临着最大的问题是,如何应对竞争者们的挑战,保住自己的地盘。
情况是紧迫的。在私有云领網域,阿里云竞争不过华为云,全球权威信息与分析咨询公司 IDC 发布的《中国数字政府大数据管理平台市场份额,2021:乘风破浪,风光再现》报告显示,2021 年华为云在中国数字政府大数据管理平台市场占有率为 17.9%,增速达 74%,市场份额第一,阿里云第二。而在优势的公有云领網域,腾讯云、百度云的成长也非常迅速。
和华为比,阿里缺乏组织优势,无法堆人头来满足政企客户的定制化要求。王珂说," 华为云是有很多人的,客户想要什么就给什么,阿里云虽然能做出来,但是哪有那么多人去投入?" 如果将他所在的部门跟华为云对应的团队相比,人数比例是 1:5。
从前做混合云时,私有云和公有云的技术流程、体系也不同,但技术人员要同时兼顾。王珂所在的小组有 5 个人左右,大家在处理私有云项目需求的同时,也要做公有云产品," 太累了,一个人要负责的是方方面面,但是华为那边可能一个项目就好几十人去做,很聚焦 "。
与此同时,阿里云有大量早期就加入阿里、经历过高光的几年升职加薪的老技术人员,和高薪挖来的员工,虽然人数少,但成本不见得比华为低。
阿里云原本有的技术优势也逐渐削弱。每年双 11,高流量、高峰值、高需求倒逼阿里云在技术上的创新,支撑体量越来越庞大的淘宝、成倍攀升 GMW。每年的庆功会,阿里云的技术人员代表业务去参加,心里最大感觉是 " 值得 "。阿里云员工对于技术的追求是执着的,也是他们引以为傲的。
但随着阿里电商业务增长放缓,对技术创新的要求没那么高了," 业务孵化不出来新的技术,技术的发展趋势也是开源的,所有人都能做,许多产品变得同质化 "。其他厂商也在孜孜不倦地挖走阿里云技术人才,不断拉近与阿里云的技术差距。
在创业公司和小公司们生存艰难的当下,技术似乎也不再那么重要,只有安全和稳定性是最根本的需求。王子木反问," 如果我是企业老板,我会在乎是阿里云还是华为云吗?" 言下之意,谁的价格低,谁的服务稳定,谁就能获得客户,而故障必然会带来客户的流失。
竞争对手的步步紧逼也不是问题的核心,根本原因在于,国内的云计算市场是有限的,池塘里养不下的鱼,都要去更广阔的海面上谋生。拼多多和字节跳动正是在出海业务上强势,找到了更广阔的市场,才有了业务发展和转型的可能性,带动着市值(估值)不断提升。如何进入更大的海網域,这是阿里云的挑战,也是腾讯云、华为云的挑战。
▲图 / 视觉中国
AI 或许能给阿里云带来转机——大模型创业公司和互联网公司小步快跑加入 AI 赛道,自动驾驶公司和造车新势力们也在新能源赛道里争抢身位,对算力的需求不断提升。阿里依靠大量囤积的高算力 GPU,做起了卖水和铲子给淘金者的生意。王小川的百川智能、李开复的 " 零一万物 "、小鹏、理想等都是阿里云智算业务的客户。
但这块业务到底要怎么做,还不好说。在智算业务上,囤了上万张 A100 和 A800(AI 算力芯片)的字节跳动是阿里的潜在对手,一位阿里云智算业务员工透露," 一直在跟字节抢单,业务方向也不是很清晰,有一系列的不确定性 "。
唯一可以确定的是,在不久的将来,云服务战场会掀起新的战争,那将是更残酷的厮杀,处于其中的人们还将面临新的震荡。而对阿里云来说,找准方向,做好准备,是当下最重要的事情。