今天小编分享的财经经验:“没有删库,没有跑路”!网易云音乐“崩了”或与Curve系统有关,该团队曾裁员,欢迎阅读。
作 者丨贺泓源
编 辑丨骆一帆
图 源丨图虫
网易云音乐崩了。
2024 年 8 月 19 日,词条 # 网易云音乐崩了 # 登上微博热搜第一。不少网友表示,网易云音乐 " 一直刷新不出来 "" 一条评论也刷不出来 "" 搜歌也搜不出来 "。
不久后,网易云音乐在官方微博回复," 因基础设施故障,导致网易云音乐各端无法正常使用,我们正在加紧修复,非常抱歉。"
另据 21 世纪经济报道记者从多位有过网易工作经历的技术人员处了解到,此番网易云音乐出现技术故障,或与 Curve 存储系统有关。该系统由网易开发,团队曾经历过裁员。
对此,网易云音乐方面向 21 世纪经济报道记者回应称," 没有删库,没有跑路,正在加速修复 "。但对于涉及 Curve 团队问题,相关工作人员表示并不清楚。
随后,网易云音乐官方微博表示,故障已陆续修复。同时,作为补偿,8 月 20 日 0-24 时,云音乐搜 " 畅听音乐 ",可领取 7 天会员权益到用户的账户。
网易云音乐强调," 没有删库,没有跑路 "。图片来源:公司微博
什么是 Curve?
事实上,网易云音乐使用 Curve 有着历史沿袭。
据网易云音乐技术团队在 2022 年 6 月对外披露,云音乐使用云盘的业务主要包括主站、UGC、曲库等 Java 应用,其中主站是云音乐核心业务,需要提供最高等级的 SLA 保障(年可用率 >=99.99%),面对提供上亿级用户量稳定的云音乐体验,这一直以来也是该平台的重难点。
2019 年之前云音乐主要使用 Ceph 云盘,但 Ceph 在大规模场景下存在性能缺陷,且很难保证在各种异常(坏盘慢盘、存储机宕机、存储网络拥塞等)场景下云盘 IO 响应时延不受影响;Ceph 云盘的 IO 抖动问题,该团队曾尝试花很多人力精力做优化改造,但都只是稍微有所缓解,无法彻底解决;性能问题也投入大量人力进行分析优化,但仍然不能达到预期。因此网易云音乐才立项了解 Curve 块存储分布式存储系统。
网易云音乐提到,Curve 块存储可以良好适配主流云计算平台,并且具备高性能、易运维、稳定不抖动等优势。在实际应用中,使用 Curve 块存储对接 Cinder 作为云主机云盘存储后端,对接 Nova 作为云主机系统盘,对接 Glance 作为镜像存储后端。
在创建云主机过程中,Nova 会通过 Curve 块存储提供的 Python SDK 克隆出新卷作为云主机系统盘使用。在创建云盘过程中,Cinder 会通过 Python SDK 创建空卷或者通过已有的卷快照克隆出新卷,之后可以挂载到云主机上作为云盘使用。云主机使用 Libvirt 作为虚拟化管控服务,使用 QEMU/KVM 作为虚拟化引擎。Curve 块存储为 Libvirt/QEMU 提供了驱动库,编译后就可以直接使用 Curve 卷作为远端存储,不需要把 Curve 块存储卷挂载到本地。
2020 年,网易数帆宣布,开源一款名为 Curve 的高性能分布式存储系统。
当年的网易数字 + 大会上,网易副总裁、网易杭州研究院执行院长兼网易数帆总经理汪源透露,Curve 主要具有三大设计特点:高性能、高可用和自治。汪源公布了 Curve 和 CephL 版本的测试数据对比,在单卷的场景下,核心的 4K 随机读 / 写的 IOPS 性能,Curve 分别是 Ceph 的 1.84 倍和 1.58 倍,同时延迟相比 Ceph 分别降低 48.39% 和 37.50%。
当时,网易披露,Curve 系统上线 400 多天,从未出现数据不一致和丢数据的情况,没有发生过重大故障,数据可靠性达到 100%,服务可用率达到 4 个 9 以上。
可变动来得比想象中快,近年网易杭州研究院裁员传闻不断,汪源本人已从网易离职。
机房迁移?
还需注意的是,此刻网易云音乐本就处在机房迁移的适应关键节点,这可能也是此番故障诱因。
据网易云音乐技术团队在 2024 年 7 月对外披露,2023 年确定要将云音乐整体服务搬迁至贵州机房,项目需要在各种限制条件下,保障 2000+ 应用、100w+QPS 的服务稳定迁移,是云音乐历史上规模最大、人员最多、难度最高的技术项目。在此过程中,解决了大量历史技术债务,同时化解了大量新增系统性风险。
具体来看,此次需要云音乐以及旗下独立 App 的服务均整体迁移至贵州。涉及 2000+ 应用、100w+QPS 的稳定迁移,同时涉及中间件、存储、机房、三方依赖服务等整体的搬迁,搬迁规模大。
业务复杂度亦高。其中,场景复杂。迁移规模大,带来更广的业务场景覆盖。而不同的场景对数据一致性要求不同、延迟敏感度不同。迁移方案需要考虑各种场景带来的问题,并提供标准化的解决方案。
另外,服务间依赖复杂。此次带来约 2000+ 应用的搬迁,各服务间的调用和依赖情况复杂,在分批迁移方案中需要协调,以及解决迁移期间跨机房 30msRT 上升带来的问题。
此外,相关历史积弊也多。网易云音乐提到,迁移贵州前,存在诸多历史技术积弊,影响着全站整体的稳定性。
此次搬迁还有新增风险。网易云音乐提出,迁移贵州带来诸多新增风险,且解决难度高。部分场景无法做到真实环境全流程预演。在基础技术建设上,也有一些不足的情况,影响整体搬迁执行效率、迁移准确性。
限制条件也严苛。云音乐有着大量的用户基数,此次搬迁要求:不停机迁移、不产生 P2 及以上事故。除此之外还有机器、网络带宽、网络稳定性、网络 RT、迁移方案等限制条件。
总体来看,前述搬迁推进、协调难度大。" 此次搬迁规模大,同样,参与人员规模大,整体协调难度大。此外带来较多的人因风险。可能因极小的细节未执行到位,就会造成全局事故。" 网易云音乐技术团队相关文章表态。
结构调整
回到网易云音乐运营来看,该公司处于结构调整期。
财报显示,2023 年,云音乐营收 78.67 亿元,同比下滑 13%;经调整净利润为 8.19 亿元,上年同期为亏损 1.15 亿元。
具体到业务来看,2023 年,网易云音乐在线音乐服务收入为 43.51 亿元,同比增长 18%。其中,会员订阅收入为 36.49 亿元,同比增长 20%,平均付费会员数同比增长 15% 达到 4412 万,月均 ARPU 值同比增长 5% 达到 6.9 元。非订阅收入为 7 亿元,同比增长 6%。
但受政策影响,以直播为主要业务的社交娱乐业务收入在 2023 年同比下滑 34% 至 35.16 亿元。付费用户为 160 万,同比提升 20%,月均 ARPU 同比下滑 45% 达到 179 元。
好消息是,网易云音乐毛利率在提升。2023 年,该公司内容服务成本 45.99 亿元,同比下滑 31%,占收入比从 2022 年的 75% 下降至 2023 年的 58%,主要因为音乐版权成本绝对值基本稳定,调整了社交娱乐业务的抽成比例,收入因流量分配调整等因素也有较大幅度的下滑,结合抽成比例收窄,带来内容成本的大幅缩减。
2023 年下半年,网易云音乐毛利率较上半年进一步提升,达到 28.7%。2023 年整体运营费用的绝对值同比小幅收窄。
2024 年一季度,网易云音乐公布营收 39.6 亿元,同比增长 3.6%。
客观上,结构调整也是种行业性趋势。
财报显示,今年二季度,腾讯音乐营收 71.6 亿元,同比下滑 2%;经调整净利润 19.85 亿元,同比增长 25.7%。具体来看,在线音乐业务收入 54.24 亿元,同比增长 28%;社交娱乐业务收入 17.36 亿元,同比下滑 43%。
其中,社交娱乐 MAU 在二季度同比下滑 31.6% 至 9300 万。付费用户为 790 万,同比增长 5%。季度 ARPU 为 220 元,同比下滑 45%。
总体而言,随着竞争加剧,网易音乐每一步都需要更谨慎。