阿里云发布香港可用区C服务中断事件说明,称将尽快处理赔偿事宜( 三 )


2、现场处置不及时导致触发消防喷淋
原因分析:随着机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,增加了后续恢复难度和时长 。
改进措施:加强机房服务商管理,梳理机房温升预案及标准化执行动作,明确温升场景下的业务侧关机和机房强制关电的预案,力求更简单有效,并通过常态化演练强化执行 。
3、客户在香港地域新购ECS等管控操作失败
原因分析:ECS管控系统为B、C可用区双机房容灾,C可用区故障后由B可用区对外提供服务,由于大量可用区C的客户在香港其他可用区新购实例,同时可用区C的ECS实例拉起恢复动作引入的流量,导致可用区B管控服务资源不足 。新扩容的ECS管控系统启动时依赖的中间件服务部署在可用区C机房,导致较长时间内无法扩容 。ECS管控依赖的自定义镜像数据服务,依赖可用区C的单AZ冗余版本的OSS服务,导致客户新购实例后出现启动失败的现象 。
【阿里云发布香港可用区C服务中断事件说明,称将尽快处理赔偿事宜】改进措施:全网巡检,整体优化多AZ产品高可用设计,避免出现依赖OSS单AZ和中间件单AZ的问题 。加强阿里云管控平面的容灾演练,进一步提升云产品高可用容灾逃逸能力 。
4、故障信息发布不够及时透明
原因分析:故障发生后阿里云启动对客钉群、公告等通知手段,由于现场冷机处理进展缓慢 , 有效信息不够 。StatusPage页面信息更新不及时引发客户困惑 。
改进措施:提升故障影响和客户影响的快速评估和识别拉取能力 。尽快上线新版的阿里云服务健康状态页面(StatusPage),提高信息发布的速度 , 让客户可以更便捷地了解故障事件对各类产品服务的影响 。

阿里云发布香港可用区C服务中断事件说明,称将尽快处理赔偿事宜

文章插图

相关经验推荐