今天小編分享的财經經驗:“沒有删庫,沒有跑路”!網易雲音樂“崩了”或與Curve系統有關,該團隊曾裁員,歡迎閱讀。
作 者丨賀泓源
編 輯丨駱一帆
圖 源丨圖蟲
網易雲音樂崩了。
2024 年 8 月 19 日,詞條 # 網易雲音樂崩了 # 登上微博熱搜第一。不少網友表示,網易雲音樂 " 一直刷新不出來 "" 一條評論也刷不出來 "" 搜歌也搜不出來 "。
不久後,網易雲音樂在官方微博回復," 因基礎設施故障,導致網易雲音樂各端無法正常使用,我們正在加緊修復,非常抱歉。"
另據 21 世紀經濟報道記者從多位有過網易工作經歷的技術人員處了解到,此番網易雲音樂出現技術故障,或與 Curve 存儲系統有關。該系統由網易開發,團隊曾經歷過裁員。
對此,網易雲音樂方面向 21 世紀經濟報道記者回應稱," 沒有删庫,沒有跑路,正在加速修復 "。但對于涉及 Curve 團隊問題,相關工作人員表示并不清楚。
随後,網易雲音樂官方微博表示,故障已陸續修復。同時,作為補償,8 月 20 日 0-24 時,雲音樂搜 " 暢聽音樂 ",可領取 7 天會員權益到用戶的賬戶。
網易雲音樂強調," 沒有删庫,沒有跑路 "。圖片來源:公司微博
什麼是 Curve?
事實上,網易雲音樂使用 Curve 有着歷史沿襲。
據網易雲音樂技術團隊在 2022 年 6 月對外披露,雲音樂使用雲盤的業務主要包括主站、UGC、曲庫等 Java 應用,其中主站是雲音樂核心業務,需要提供最高等級的 SLA 保障(年可用率 >=99.99%),面對提供上億級用戶量穩定的雲音樂體驗,這一直以來也是該平台的重難點。
2019 年之前雲音樂主要使用 Ceph 雲盤,但 Ceph 在大規模場景下存在性能缺陷,且很難保證在各種異常(壞盤慢盤、存儲機宕機、存儲網絡擁塞等)場景下雲盤 IO 響應時延不受影響;Ceph 雲盤的 IO 抖動問題,該團隊曾嘗試花很多人力精力做優化改造,但都只是稍微有所緩解,無法徹底解決;性能問題也投入大量人力進行分析優化,但仍然不能達到預期。因此網易雲音樂才立項了解 Curve 塊存儲分布式存儲系統。
網易雲音樂提到,Curve 塊存儲可以良好适配主流雲計算平台,并且具備高性能、易運維、穩定不抖動等優勢。在實際應用中,使用 Curve 塊存儲對接 Cinder 作為雲主機雲盤存儲後端,對接 Nova 作為雲主機系統盤,對接 Glance 作為鏡像存儲後端。
在創建雲主機過程中,Nova 會通過 Curve 塊存儲提供的 Python SDK 克隆出新卷作為雲主機系統盤使用。在創建雲盤過程中,Cinder 會通過 Python SDK 創建空卷或者通過已有的卷快照克隆出新卷,之後可以挂載到雲主機上作為雲盤使用。雲主機使用 Libvirt 作為虛拟化管控服務,使用 QEMU/KVM 作為虛拟化引擎。Curve 塊存儲為 Libvirt/QEMU 提供了驅動庫,編譯後就可以直接使用 Curve 卷作為遠端存儲,不需要把 Curve 塊存儲卷挂載到本地。
2020 年,網易數帆宣布,開源一款名為 Curve 的高性能分布式存儲系統。
當年的網易數字 + 大會上,網易副總裁、網易杭州研究院執行院長兼網易數帆總經理汪源透露,Curve 主要具有三大設計特點:高性能、高可用和自治。汪源公布了 Curve 和 CephL 版本的測試數據對比,在單卷的場景下,核心的 4K 随機讀 / 寫的 IOPS 性能,Curve 分别是 Ceph 的 1.84 倍和 1.58 倍,同時延遲相比 Ceph 分别降低 48.39% 和 37.50%。
當時,網易披露,Curve 系統上線 400 多天,從未出現數據不一致和丢數據的情況,沒有發生過重大故障,數據可靠性達到 100%,服務可用率達到 4 個 9 以上。
可變動來得比想象中快,近年網易杭州研究院裁員傳聞不斷,汪源本人已從網易離職。
機房遷移?
還需注意的是,此刻網易雲音樂本就處在機房遷移的适應關鍵節點,這可能也是此番故障誘因。
據網易雲音樂技術團隊在 2024 年 7 月對外披露,2023 年确定要将雲音樂整體服務搬遷至貴州機房,項目需要在各種限制條件下,保障 2000+ 應用、100w+QPS 的服務穩定遷移,是雲音樂歷史上規模最大、人員最多、難度最高的技術項目。在此過程中,解決了大量歷史技術債務,同時化解了大量新增系統性風險。
具體來看,此次需要雲音樂以及旗下獨立 App 的服務均整體遷移至貴州。涉及 2000+ 應用、100w+QPS 的穩定遷移,同時涉及中間件、存儲、機房、三方依賴服務等整體的搬遷,搬遷規模大。
業務復雜度亦高。其中,場景復雜。遷移規模大,帶來更廣的業務場景覆蓋。而不同的場景對數據一致性要求不同、延遲敏感度不同。遷移方案需要考慮各種場景帶來的問題,并提供标準化的解決方案。
另外,服務間依賴復雜。此次帶來約 2000+ 應用的搬遷,各服務間的調用和依賴情況復雜,在分批遷移方案中需要協調,以及解決遷移期間跨機房 30msRT 上升帶來的問題。
此外,相關歷史積弊也多。網易雲音樂提到,遷移貴州前,存在諸多歷史技術積弊,影響着全站整體的穩定性。
此次搬遷還有新增風險。網易雲音樂提出,遷移貴州帶來諸多新增風險,且解決難度高。部分場景無法做到真實環境全流程預演。在基礎技術建設上,也有一些不足的情況,影響整體搬遷執行效率、遷移準确性。
限制條件也嚴苛。雲音樂有着大量的用戶基數,此次搬遷要求:不停機遷移、不產生 P2 及以上事故。除此之外還有機器、網絡帶寬、網絡穩定性、網絡 RT、遷移方案等限制條件。
總體來看,前述搬遷推進、協調難度大。" 此次搬遷規模大,同樣,參與人員規模大,整體協調難度大。此外帶來較多的人因風險。可能因極小的細節未執行到位,就會造成全局事故。" 網易雲音樂技術團隊相關文章表态。
結構調整
回到網易雲音樂運營來看,該公司處于結構調整期。
财報顯示,2023 年,雲音樂營收 78.67 億元,同比下滑 13%;經調整淨利潤為 8.19 億元,上年同期為虧損 1.15 億元。
具體到業務來看,2023 年,網易雲音樂在線音樂服務收入為 43.51 億元,同比增長 18%。其中,會員訂閱收入為 36.49 億元,同比增長 20%,平均付費會員數同比增長 15% 達到 4412 萬,月均 ARPU 值同比增長 5% 達到 6.9 元。非訂閱收入為 7 億元,同比增長 6%。
但受政策影響,以直播為主要業務的社交娛樂業務收入在 2023 年同比下滑 34% 至 35.16 億元。付費用戶為 160 萬,同比提升 20%,月均 ARPU 同比下滑 45% 達到 179 元。
好消息是,網易雲音樂毛利率在提升。2023 年,該公司内容服務成本 45.99 億元,同比下滑 31%,占收入比從 2022 年的 75% 下降至 2023 年的 58%,主要因為音樂版權成本絕對值基本穩定,調整了社交娛樂業務的抽成比例,收入因流量分配調整等因素也有較大幅度的下滑,結合抽成比例收窄,帶來内容成本的大幅縮減。
2023 年下半年,網易雲音樂毛利率較上半年進一步提升,達到 28.7%。2023 年整體運營費用的絕對值同比小幅收窄。
2024 年一季度,網易雲音樂公布營收 39.6 億元,同比增長 3.6%。
客觀上,結構調整也是種行業性趨勢。
财報顯示,今年二季度,騰訊音樂營收 71.6 億元,同比下滑 2%;經調整淨利潤 19.85 億元,同比增長 25.7%。具體來看,在線音樂業務收入 54.24 億元,同比增長 28%;社交娛樂業務收入 17.36 億元,同比下滑 43%。
其中,社交娛樂 MAU 在二季度同比下滑 31.6% 至 9300 萬。付費用戶為 790 萬,同比增長 5%。季度 ARPU 為 220 元,同比下滑 45%。
總體而言,随着競争加劇,網易音樂每一步都需要更謹慎。