今天小編分享的科技經驗:騰訊雲發布4月8日故障復盤及説明 雲API異常所導致,歡迎閲讀。
【CNMO 科技消息】4 月 14 日,騰訊雲發布 4 月 8 日故障復盤及情況説明:4 月 8 日 15 點 23 分,騰訊雲團隊收到告警信息,雲 API 服務處于異常狀态;随即在騰訊雲工單、售後服務群以及微博等渠道開始大量出現騰訊雲控制台登錄不上的客户反饋。
據 CNMO 了解,經過故障定位發現,客户登錄不上控制台正是由雲 API 異常所導致。故障發生後,依賴雲 API 提供產品能力的部分公有雲服務,也因為雲 API 的異常出現了無法使用的情況,比如雲函數、文字識别、微服務平台、音頻内容安全、驗證碼等。此次故障一共持續了近 87 分鍾,期間共有 1957 個客户報障。
本次 API 更新過程中,由于新版本的接口協定發生了變化,在後台發布新版本之後對于舊版本前端傳來的數據處理邏輯異常,導致生成了一條錯誤的配置數據,由于灰度機制不足導致異常數據快速擴散到了全網地網域,造成整體 API 使用異常。
發生故障後,按照标準回滾方案将服務後台和配置數據同時回滾到舊版本,并重啓 API 後台服務,但此時因為承載 API 服務的容器平台也依賴 API 服務才能提供調度能力,即發生了循環依賴,導致服務無法自動拉起。通過運維手工啓動方式才使 API 服務重啓,完成整個故障恢復。
騰訊雲表示,綜合盤點這次故障,最根本的原因是在版本變更過程中,沒有有效執行沙箱驗證和預案演練,暴露了在變更管理上的不足,接下來将快速進行改進和完善——包括提升系統韌性、強化變更管理與保護措施、增強故障響應與溝通能力,以減少故障的影響範圍和影響時長。