今天小编分享的科技经验:腾讯云发布4月8日故障复盘及说明 云API异常所导致,欢迎阅读。
【CNMO 科技消息】4 月 14 日,腾讯云发布 4 月 8 日故障复盘及情况说明:4 月 8 日 15 点 23 分,腾讯云团队收到告警信息,云 API 服务处于异常状态;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。
据 CNMO 了解,经过故障定位发现,客户登录不上控制台正是由云 API 异常所导致。故障发生后,依赖云 API 提供产品能力的部分公有云服务,也因为云 API 的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近 87 分钟,期间共有 1957 个客户报障。
本次 API 更新过程中,由于新版本的接口協定发生了变化,在后台发布新版本之后对于旧版本前端传来的数据处理逻辑异常,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地網域,造成整体 API 使用异常。
发生故障后,按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启 API 后台服务,但此时因为承载 API 服务的容器平台也依赖 API 服务才能提供调度能力,即发生了循环依赖,导致服务无法自动拉起。通过运维手工启动方式才使 API 服务重启,完成整个故障恢复。
腾讯云表示,综合盘点这次故障,最根本的原因是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,接下来将快速进行改进和完善——包括提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力,以减少故障的影响范围和影响时长。