今天小編分享的科技經驗:故障頻出,調整不斷,阿裡雲的多事之秋,歡迎閱讀。
11 月 12 日,原本是一個平常的周末。一年一度的雙 11 剛剛結束,有人期待着快遞,有人還在比價,看自己有沒有省錢,還有的人忙着退貨,或者把替換下來的東西挂上閒魚。對于阿裡雲的工程師們,這個周末也是愉快的,最忙的一段時間已經過去,接下來伺服器負載将慢慢回落,他們也能松一口氣。
這口氣剛松一半,12 日晚間,淘寶崩了。同一時刻,阿裡雲盤、閒魚、釘釘、餓了麼等產品接連崩潰,無法登陸、查看、結算等問題一并湧現,從 17:44 故障發生到 21:11 所有服務完全恢復,時長累計近三個半小時。
阿裡系產品的大規模崩潰,很快就上了熱搜,問題指向了阿裡的 " 技術底座 " ——阿裡雲。與此同時,眾多使用阿裡雲服務的企業和個人,也受到了影響。這是阿裡雲時隔一年後,又一場 " 史詩級故障 "。
那幾天,高層尋找故障源頭并定責、技術人員排查漏洞、公關部門對外發布處理結果。這邊還忙亂着,11 月 27 日,異常再次出現。當日 09:16 起,阿裡雲監控發現北京、上海、杭州、深圳、青島、香港以及美東、美西地網域的數據庫產品的控制台和 OpenAPI 訪問出現異常,持續時間約 2 小時。
短短一個月裡,阿裡雲出現了兩次大規模故障,這在整個雲計算行業中都是罕見的。實際上,近日阿裡雲還有另外兩次小規模局部故障,一次在 11 月 28 日,12 月 5 日也有一次異常,持續時間都很短,很快就被解決。對雲計算公司而言,安全性與可靠性是最重要的,也是阿裡雲始終在追求的,但頻發的故障也顯示出,阿裡雲内部可能存在着一些問題。
文 |徐晴 李清揚
編輯 |趙磊
運營 |橙子
委屈與不幸
一個月接連兩次故障後,阿裡雲的一位技術人員滿腹委屈:" 還能怎麼重視安全和穩定性呢?"
在阿裡雲的發展史上,每一次故障都是大新聞。除去 2018 年 6 月和 2019 年 3 月的兩次,最近的一次大故障出現在 2022 年 12 月,當時,阿裡雲的下遊客戶——一些公司和政府部門網站陷入癱瘓,數小時無法提供服務。最後發現,阿裡雲香港機房出現故障導致宕機,這成了科技圈裡最大的熱點," 是阿裡雲運營十多年來持續時間最長的一次大規模故障 "。
面對故障,阿裡雲高度重視。内部傳說 " 高層震怒 ",香港宕機事件後,阿裡雲總裁張建鋒(行癫)卸任,時任阿裡集團一号位逍遙子張勇親自挂帥。公司還額外成立了一個 " 穩定性團隊 ",在每個產品部門裡設定專人負責。當月,穩定性團隊拉上所有產品團隊開了一個全體動員大會,内部叫做 "kick off meeting",簡稱 "KO",參與過那次大會的老員工王子木說,陣仗浩大," 熱烈倡議我們打一場戰役,集中力量把穩定性做好,做到哪些指标和級别,用多長時間,能想到的東西全都列好 "。
到今年年初,關于安全和穩定的舉措再邁上了一個台階。阿裡雲 CTO 周靖人對安全和穩定尤其重視,每個員工也要在自己的 OKR 裡加上 " 維護某某項目的安全與穩定性 "。随後設定了 " 安全分 ",發現有安全方面的問題就扣分,分數關系到具體員工的績效,而績效關系着年終獎和晉升,在 3.25 和 3.75 相差巨大的阿裡,這幾乎是最高力度的懲罰。
把這些舉措加在一起," 公司已經沒什麼能做的了,幾乎是 120% 的重視程度 "。在王子木看來,一個把安全和穩定挂在嘴邊、嚴格執行的公司,怎麼會接連出問題?他只能把故障總結為運氣," 阿裡雲多少是少了點運氣 "。
與香港宕機事件導致的局部故障不同,11 月 12 日的故障,是一個底層全局性服務組件出現問題,導致全球範圍内所有可用區和所有伺服器同時發生故障,影響範圍巨大。除了阿裡系產品,還有眾多使用阿裡雲業務的客戶,尤其是那些沒有規模化的運維技術團隊,完全依賴阿裡雲各類托管服務的中小企業和個人開發者。
于是,在那個晚上,除了阿裡系產品無法使用,還有閃送小哥上傳不了接單憑據,原神玩家收不到短信驗證碼,一些停車場不抬杆,一些超市結不了賬,甚至有的大學生因為刷不了卡,用不了學校的公共洗衣機。萬幸的是,故障發生在周日,不然還會導致使用金融雲和政務雲的相關部門癱瘓,造成更大的損失。
▲阿裡雲相關新聞頻頻登上熱搜。圖 / 截圖
故障發生後,這邊 CTO 周靖人和幾位 P10、P9,以及負責銷售、對接客戶的前線部門牽頭,跟 GTS(全球基礎技術業務)部門共同召開定責會議,排查問題源頭。那邊高層們在工作群裡接連發消息:把安全和穩定堅決放在第一位,所有工作都放下,全力排查風險,排查完成後,再考慮其他工作。有的部門排查了一兩天,也有的排查時間更長。緊接着,員工們收到一封全員信,阿裡雲員工王珂說," 名義上讓幾個大佬把年終獎清零了 "。
近日,阿裡雲因 11 月 12 日故障對客戶的賠償陸續到賬。根據阿裡雲向客戶承諾的《服務等級協定》,如果因阿裡雲故障導致月度服務的可用性達不到 99.90%,也就是故障時間超過 43 分鍾,就得賠償 30% 月度費用的代金券。許多個人開發者賠付金額沒達到 50 元,也被阿裡雲統一提高到 50 元。據業内人士估算,這次賠償的總金額可能超過 1 億元,約為阿裡雲一個月的利潤,但對于因故障導致的客戶損失,這些代金券又顯得微不足道。
11 月 27 日,上一次故障還沒有善後完畢,新的故障又發生了。一位連夜參與第二次故障排查的技術人員嘆了口氣," 各種故障扎堆了,越是重視,它越是出問題 "。
很多技術圈博主都認為,技術故障不可能百分百避免,但根據海因法則,一次大故障的背後,一定有幾十次輕微事故,幾百次未遂先兆,上千條事故隐患。而如此高頻的故障,意味着阿裡雲内部有着很多不穩定因素,提高了故障發生的概率,也會讓客戶對阿裡雲的可靠性產生動搖。
在阿裡一拆六的大背景下,阿裡雲這一年裡無比動蕩,調整不斷,影響着每個具體員工的心态和工作。在故障與阿裡雲的搖擺和動蕩之間,或許沒有直接的聯系,但有間接的關聯。正如王子木所說," 阿裡發展了這麼多年,裡邊總是有坑坑窪窪的地方,技術人員流失,公司變化劇烈,有些代碼可能沒有人維護,有一些斷層。也有可能人的心态被影響,人不穩定了,代碼就有風險,畢竟,代碼都是人寫的,很多問題會慢慢暴露出來。"
第一向第二學習
阿裡雲也有過幸運的時候。
王子木記得,在最鼎盛的 2015-2018 年," 市場上只有阿裡雲一家雲廠商,客戶請着你去跟他們交流。價格上不打折,我們說多少錢,客戶只要有預算,就買 "。
做雲,阿裡有天然的優勢。為了衝每年雙十一的成交額,阿裡采購了數量龐大的伺服器,搭建了一支技術上的精英團隊,但在非雙十一、流量沒那麼大的時間段,這些多餘的算力和技術服務就可以出租出去,賺錢、盈利。" 在當時看,這個故事是很美滿的。"
阿裡也是起步最早的雲計算公司之一,2009 年率先站上了跑道。移動互聯網時代來臨,互聯網要把傳統行業重新改造一遍,一些傳統消費品牌、創業公司需要上雲,首選就是阿裡雲。
從 2015 年到 2019 年,阿裡雲年收入從 30 億暴增至 400 億,市場份額遙遙領先,阿裡雲的地盤幾乎等于第二名到第九名的總和。但很快,市場發生了變化,除了騰訊雲、金山雲,華為雲異軍突起,移動、電信等運營商也加入了戰場。玩家變多,競争激烈,雲計算的賽道裡,大家的身位越來越近,幾乎是貼身肉搏。
▲圖 / 視覺中國
在行情最好的 2018 年末,阿裡雲提出三年後營收過千億的目标,那時阿裡雲的營收不過 200 多億,相當于翻五倍。但在 2021 年,阿裡雲就開始放慢增速,Q1-Q4 收入同比增速分别為 37%、29%、33%、20%,2022 年第一季度,收入同比增速降到了 12%,幾乎陷入了增長瓶頸。
主流的雲服務有兩種類型,私有雲和公有雲,前者相當于把水和花灑都買回自己家,雲計算廠商幫忙調試,一些政企客戶出于保密或某些政策原因傾向于私有雲;公有雲則像是一個公共的大澡堂子,誰都可以進來,價格便宜,按時計費,刷卡就可以出水。
那兩年,公有雲市場見頂,而在政府、央國企集中的私有雲領網域,客戶預算動辄幾千萬甚至上億,是全新的增量市場。擅長做政企生意的華為,正是在私有雲的生意裡獲得了增長的燃料,2022 年,華為趕超騰訊,成為國内排名第二的雲計算廠商。
阿裡雲的創始人王堅曾在 2013 年公開稱,私有雲根本就稱不上是雲,如果不能夠将計算資源規模化、大範圍地進行共享,所謂的 " 私有雲 ",頂多是将其原有的解決方案重新包裝一下,賣給客戶一個更新版的 IT 解決方案。
面對增長危機,一個問題開始困擾着阿裡雲:要不要做私有雲?最終,阿裡雲還是沒辦法放棄這塊肥肉,但阿裡雲的工程師和銷售們,缺乏與政企客戶們打交道的經驗。王子木曾經接觸過私有雲的項目,他的感慨是," 政企的甲方太難伺候了 "。
據王子木回憶,多年前,有一個金額巨大的特大項目,阿裡雲與客戶相談甚歡,一拍即合,為了取得客戶信任,真金白銀投入了機器、人還有錢,最終發現合同都沒籤。項目爛尾,還在擴張期高歌猛進的阿裡雲 " 大手大腳,也不知道錢到底有沒有要回來 "。在那之後,流程才越來越嚴格。
更常見的問題是,私有雲服務很難标準化,更像是定制,政企事業部門的甲方很可能不斷地加需求、改需求,最終定好一年的項目,兩年都還沒有驗收結束、支付尾款。阿裡雲賣機器賺不了多少錢,賺錢的是标準化的服務,但定制化的服務成本也是最高的,拉技術人員協調、修改這些需求,賣一千萬的項目,搭進去一千五百萬的人力成本是常事,營收看似漲了,但很多是賠錢的買賣。
着急中的阿裡雲,開始向華為學習。先是華為出身的任庚被任命為中國區總裁,緊接着高薪聘用大量華為跳槽來的銷售。任庚引入了 " 紅藍對抗大練兵 "、打卡等華為管理方法,并不斷調整銷售團隊的架構。
2022 年 3 月,前華為企業業務中國區總裁蔡英華到阿裡雲履新,花名華焱,擔任資深副總裁,統管全球銷售業務,職級為 M7,相當于 P12,直接向阿裡雲總裁張建鋒匯報。本打算離職的任庚也被挽留,成了蔡英華的下屬。
前阿裡雲員工張揚透露,蔡英華帶着更加濃厚的華為風格與印記,他像任正非一樣喜歡發 " 紅頭檔案 ",下發的文檔以 " 一号令 "" 二号令 " 等命名。到任後,他把負責銷售的前線職位都改了個名字,重新換了組織架構," 從前銷售解決方案是一個部門,研發是一個部門,他将這兩個部門整合到了一起 "。
更重要的是,蔡英華改革了銷售策略。根據犀牛财經報道,蔡英華發布了新生态政策,相信 " 重賞之下必有勇夫 ",标準級以上分銷夥伴傭金率翻倍;增量消費最高傭金率從 4% 提高至 30%;對開拓新興下沉區網域的夥伴,新增額外保底傭金,最高漲幅 12%。向生态夥伴分利,也是華為模式成功的關鍵之一。
但有渠道商接受采訪時表示," 雖然傭金多了,但實際上限制條件也比較多,相當于大客戶都被阿裡雲拿走了,我們的客戶群變窄了,基本以小客戶居多 "。學習華為的嘗試最終沒起到明顯的效果,整個 2022 年,阿裡雲營收目标一降再降,僅實現營收 776 億元。
今年年初,王子木聽到了内部消息," 私有雲不做了 ",10 個月後,在 11 月的第三周,阿裡雲再次調整組織架構。據了解,蔡英華 " 基本處于即将離職的狀态 "。
這一次早有預兆的調整,只是今年阿裡雲動蕩的開端。
▲圖 / 視覺中國
" 不對 "
王子木覺得 " 不對 "。從今年年初開始,這個聲音一直響在他的腦海裡。" 我在阿裡雲這些年了,好像做事情也沒有什麼阻礙,整個人的狀态也不差,但就是感覺不對,好像自己在告訴自己,你得出去了。"
從年初到 9 月份離職之前,王子木經歷了許多調整。阿裡整個集團 " 一拆六 ",作為技術底座的阿裡雲,在拆分後多出來不少中台等技術人員。五月底,阿裡雲傳出 " 裁員 7%" 的消息,阿裡雲員工徐皓鵬記得,有些部門有優化的 KPI,每個組的主管都會領到幾個名額,徐皓鵬的一位師兄,一位剛 31 歲、TOP2 大學的博士,都在春天結束時離開了阿裡雲。
那時,時任 CEO 的張勇還計劃阿裡雲在未來 12 個月裡完成分拆上市,但短短 4 個月後,張勇就卸任阿裡雲董事長和 CEO 職務,由吳泳銘接任。
變化給人的影響是具體的。張揚原本準備内部轉崗,由于換 CEO,轉崗流程暫停,他只好離開,尋找新的工作機會。21 歲的楊天風在香港讀大學,九月初開始秋招時,阿裡 1+6+n 的獨立招聘中,他大部分都投了。淘天集團、阿裡國際商業集團很快回復了面試的要求,而阿裡雲直到 11 月 24 日才給他發來簡歷評估通過的消息。
11 月,阿裡在财報中宣布,鑑于多方面不确定性因素,不再推進雲智能集團的完全分拆,這也意味着,阿裡雲的上市計劃将推遲甚至取消;CEO 吳泳銘表示,未來阿裡雲的發展戰略将圍繞 "AI 驅動,公共雲優先 " 兩個方向展開。
按照他的說法,未來阿裡雲将減少項目制銷售訂單,也就是私有雲訂單,加大公共雲核心產品投入——短短的一年,戰略調轉了 180 度。在最新一個季度的财報裡(截至 9 月 30 日),阿裡雲的營收增速僅為 2%,在多個業務集團中排名靠後。這或許是又一次調轉方向的契機。
▲ 2023 年 10 月 31 日,2023 雲栖大會在杭州雲栖小鎮開幕。阿裡巴巴集團董事會主席蔡崇信在開幕式上致辭時表示,阿裡巴巴 " 要打造 AI 時代最開放的雲 "。圖 / 視覺中國
阿裡雲前員工林佳覺得," 阿裡雲的搖擺,本質上就是要掙錢,要完成那個目标,但在私有雲上花了大力氣,最終又回來重點做公有雲,說白了就是做私有雲也完成不了目标。如果做私有雲每年增速 100%,肯定不會有最近的調整,不會說公有雲優先,不可能的。"
阿裡雲順風順水的時候,營收增長,員工的薪資也漲," 大家幹得有勁,值個班、熬個夜,都覺得不算什麼。到雙 11 的時候,每天基本上不怎麼睡覺,依然是激情澎湃 "。但在業務增長緩慢,今年以來又頻繁調整的情況下,大量的員工,很久沒有再漲薪了。
王子木在阿裡雲工作 8 年,進入公司的第三年升職為 P8,之後再也沒有升職。在他看來,自己的晉升之路跟阿裡雲的發展重合,船不往前開,人也不會往前走。他因此萌生跳槽的打算。阿裡雲裁員的那段時間,字節的火山雲、小紅書、快手都在挖人,他找到了更好的機會。他所在的團隊裡,有近 10% 資歷超過 8 年的老阿裡人都跳了出去。
動蕩之下,更多的人處于觀望中,林佳說:" 你想想,如果你做一個工作,每天想的就是随時都會裁員,不知道什麼時候裁到自己,自己主動走還不如等着拿大禮包,這份工作還能投入去做嗎?"
公司的氣氛也有了些微妙的變化。另一位阿裡雲員工宋繁敏銳地觀察到,阿裡雲内部有一個技術論壇 ATA,從前的幾年,技術大佬們無償把自己的心得、經驗、新的想法分享在這裡,一片火熱,像一個小型的技術創新發電站。但今年以來,新帖罕見,舊帖也蒙上了一層時間的灰塵,很少有人再回復和讨論。
宋繁自己也變了。從前習慣每天早上看一篇最新的技術分析,裁員以來再沒看過。對工作,他少了激情和投入," 就是打一份工,賺一份錢 ",就算是早下班心裡也沒有負擔。在北京望京的阿裡雲工區," 下班時間明顯變早了,到了晚上 8、9 點公司很空,以前晚上還蠻多人的 "。因為難以接受 " 突然有一天,你的飯搭子都不見了 ",宋繁也正在考慮離職。
在某種程度上,11 · 12 故障的原因與人的心态、工作狀态變化有所關聯。
阿裡雲員工徐皓鵬和相關知情人告訴記者,這次事故來自于對象存儲 OSS 部門,由一個五六個人的小團隊負責。在一個配置更新更新時," 本來應該先發一小部分進行灰度測試,等測試沒問題,再一個區網域一個區網域地發布,最後達到全網域更新。但有技術人員未經測試,一次性全網域發布,最後導致了很大的故障 "。
對象存儲是一個基礎性服務,涉及到認證和鑑權,用戶想進入數據庫要先通過一道密碼門比對身份。而配置更新是一個很基礎的動作,相當于設定密碼和身份,只要嚴格規範操作,不太可能會出問題," 制度雖然存在,但是員工沒有把流程做規範 "。
另一位員工王珂則分析,11 · 12 故障出現在周日,一個非正常工作時間," 有些東西如果沒有很完整的測試流程或者框架的自動化,需要人手動測,耗時耗人,跑一次測試一天、一周都有可能,人在這樣的環境下對工作沒有耐心,可能就會在流程上不規範,出現人導致的纰漏 "。
尤其可靠性工程師這個職位,很難有產出,沒法通過不出故障來證明自己的價值,因為大家默認那是應該的,反而一出故障就會被追責,在降本增效面前,也承擔着巨大的心理壓力。
而針對 11 月的第二次故障,新的 " 安全與穩定性 " 舉措又開始了。上周五,阿裡雲的員工們都在填一張表格,"H2 财年(2023 年 10 月 -2024 年 3 月)會在安全方面做哪些事,每個人至少要投入 30% 的人力在這上面 ",王珂感覺很無奈,數字是這麼寫,但 30% 人力到底怎麼換算,誰也不清楚。
相比這些模糊的概念,大家更在意的顯然是自己的薪水、年終獎。填表時,王珂聽到同事在讨論," 今年整個阿裡雲的績效肯定是 3.25,那會不會全員 3.25?" 最終回答他的,只有 A4 紙翻動的聲響和眾人的沉默。
▲杭州雲栖小鎮,阿裡雲。圖 / 視覺中國
阿裡雲要往哪兒走?
故障對雲服務廠商而言是致命的。當前阿裡雲服務的客戶超過 300 萬家。十月底的 "2023 雲栖大會 " 上,阿裡巴巴集團主席蔡崇信指出,目前中國 80% 的科技企業和一半的大模型公司都跑在阿裡雲上。
最常見的商業故事是一條鲶魚攪亂池水,在大魚口中奪食,但阿裡雲自己就是那條大魚。當下的阿裡雲,面臨着最大的問題是,如何應對競争者們的挑戰,保住自己的地盤。
情況是緊迫的。在私有雲領網域,阿裡雲競争不過華為雲,全球權威信息與分析咨詢公司 IDC 發布的《中國數字政府大數據管理平台市場份額,2021:乘風破浪,風光再現》報告顯示,2021 年華為雲在中國數字政府大數據管理平台市場占有率為 17.9%,增速達 74%,市場份額第一,阿裡雲第二。而在優勢的公有雲領網域,騰訊雲、百度雲的成長也非常迅速。
和華為比,阿裡缺乏組織優勢,無法堆人頭來滿足政企客戶的定制化要求。王珂說," 華為雲是有很多人的,客戶想要什麼就給什麼,阿裡雲雖然能做出來,但是哪有那麼多人去投入?" 如果将他所在的部門跟華為雲對應的團隊相比,人數比例是 1:5。
從前做混合雲時,私有雲和公有雲的技術流程、體系也不同,但技術人員要同時兼顧。王珂所在的小組有 5 個人左右,大家在處理私有雲項目需求的同時,也要做公有雲產品," 太累了,一個人要負責的是方方面面,但是華為那邊可能一個項目就好幾十人去做,很聚焦 "。
與此同時,阿裡雲有大量早期就加入阿裡、經歷過高光的幾年升職加薪的老技術人員,和高薪挖來的員工,雖然人數少,但成本不見得比華為低。
阿裡雲原本有的技術優勢也逐漸削弱。每年雙 11,高流量、高峰值、高需求倒逼阿裡雲在技術上的創新,支撐體量越來越龐大的淘寶、成倍攀升 GMW。每年的慶功會,阿裡雲的技術人員代表業務去參加,心裡最大感覺是 " 值得 "。阿裡雲員工對于技術的追求是執着的,也是他們引以為傲的。
但随着阿裡電商業務增長放緩,對技術創新的要求沒那麼高了," 業務孵化不出來新的技術,技術的發展趨勢也是開源的,所有人都能做,許多產品變得同質化 "。其他廠商也在孜孜不倦地挖走阿裡雲技術人才,不斷拉近與阿裡雲的技術差距。
在創業公司和小公司們生存艱難的當下,技術似乎也不再那麼重要,只有安全和穩定性是最根本的需求。王子木反問," 如果我是企業老板,我會在乎是阿裡雲還是華為雲嗎?" 言下之意,誰的價格低,誰的服務穩定,誰就能獲得客戶,而故障必然會帶來客戶的流失。
競争對手的步步緊逼也不是問題的核心,根本原因在于,國内的雲計算市場是有限的,池塘裡養不下的魚,都要去更廣闊的海面上謀生。拼多多和字節跳動正是在出海業務上強勢,找到了更廣闊的市場,才有了業務發展和轉型的可能性,帶動着市值(估值)不斷提升。如何進入更大的海網域,這是阿裡雲的挑戰,也是騰訊雲、華為雲的挑戰。
▲圖 / 視覺中國
AI 或許能給阿裡雲帶來轉機——大模型創業公司和互聯網公司小步快跑加入 AI 賽道,自動駕駛公司和造車新勢力們也在新能源賽道裡争搶身位,對算力的需求不斷提升。阿裡依靠大量囤積的高算力 GPU,做起了賣水和鏟子給淘金者的生意。王小川的百川智能、李開復的 " 零一萬物 "、小鵬、理想等都是阿裡雲智算業務的客戶。
但這塊業務到底要怎麼做,還不好說。在智算業務上,囤了上萬張 A100 和 A800(AI 算力芯片)的字節跳動是阿裡的潛在對手,一位阿裡雲智算業務員工透露," 一直在跟字節搶單,業務方向也不是很清晰,有一系列的不确定性 "。
唯一可以确定的是,在不久的将來,雲服務戰場會掀起新的戰争,那将是更殘酷的厮殺,處于其中的人們還将面臨新的震蕩。而對阿裡雲來說,找準方向,做好準備,是當下最重要的事情。