
文章插图

文章插图
(_原题为:阿里云发布香港可用区C服务中断事件说明,称将尽快处理赔偿事宜)
12月25日,阿里云发布香港Region可用区C服务中断事件说明,并向所有受到故障影响的客户公开致歉,称将尽快处理赔偿事宜 。阿里云表示,将尽一切努力从此次事件中吸取经验教训,持续提升云服务的稳定性 。在说明中,阿里云公布了本次事件的故障情况、问题分析和改进措施,具体如下:
处理过程
12月18日08:56,阿里云监控到香港Region可用区C机房包间通道温控告警,阿里云工程师介入应急处理,通知机房服务商进行现场排查 。09:01 , 阿里云监控到该机房多个包间温升告警,此时工程师排查到冷机异常 。09:09,机房服务商按应急预案对异常冷机进行4+4主备切换以及重启,但操作失败,冷水机组无法恢复正常 。09:17,依照故障处理流程,启动制冷异常应急预案,进行辅助散热和应急通风 。尝试对冷机控制系统逐个进行隔离和手工恢复操作,但发现无法稳定运行,联系冷机设备供应商到现场排查 。此时,由于高温原因,部分服务器开始受到影响 。
自10:30开始,为避免可能出现的高温消防问题 , 阿里云工程师陆续对整个机房计算、存储、网络、数据库、大数据集群进行降载处理 。期间,继续多次对冷机设备进行操作,但均不能保持稳定运行 。
12:30,冷机设备供应商到场,在多方工程师诊断下 , 对冷塔、冷却水管路及冷机冷凝器进行手工补水排气操作,但系统仍然无法保持稳定运行 。阿里云工程师对部分高温包间启动服务器关机操作 。14:47,冷机设备供应商对设备问题排查遇到困难,其中一个包间因高温触发了强制消防喷淋 。15:20,经冷机设备商工程师现场手工调整配置,冷机群控解锁完成并独立运行,第1台冷机恢复正常,温度开始下降 。工程师随后继续通过相同方法对其他冷机进行操作 。18:55,4台冷机恢复到正常制冷量 。19:02 , 分批启动服务器,并持续观察温升情况 。19:47,机房温度趋于稳定 。同时,阿里云工程师开始进行服务启动恢复,并进行必要的数据完整性检查 。
21:36 , 大部分机房包间服务器陆续启动并完成检查,机房温度稳定 。其中一个包间因消防喷淋启动,未进行服务器上电 。因为保持数据的完整性至关重要,工程师对这个包间的服务器进行了仔细的数据安全检查,这里花费了一些必要的时间 。22:50,数据检查以及风险评估完成,最后一个包间依据安全性逐步进行供电恢复和服务器启动 。
服务影响
12月18日09:23,香港Region可用区C部分ECS服务器开始出现停机,触发同可用区内宕机迁移 。随着温度继续升高,受影响的服务器停机数量持续增加,客户业务开始受到影响,影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务 。
阿里云香港可用区C的故障,没有直接影响客户在香港其他可用区运行的业务 , 但影响了香港RegionECS管控服务(ControlPlane)的正常使用 。因大量可用区C的客户在香港其他可用区新购ECS实例,从12月18日14:49开始 , ECS管控服务触发限流 , 可用性最低跌至20% 。客户在使用RunInstances/CreateInstanceAPI购买新ECS实例时,如果指定了自定义镜像,部分实例在购买成功之后会出现启动失败的现象,由于自定义镜像数据服务依赖可用区C的单AZ冗余版本的OSS服务,无法通过重试解决 。此时 , 部分Dataworks、k8s用户控制台操作也受到了故障影响 。API完全恢复可用为当日23:11 。
相关经验推荐
- 云南的云雾茶怎么样
- 明日方舟MBEX8突袭怎么打 明日方舟孤岛风云MB-EX-8银羊镀层攻略
- 明日方舟MBEX6箱子怎么摆 明日方舟孤岛风云MB-EX-6突袭低配攻略
- 明日方舟MBEX7怎么打 明日方舟孤岛风云MB-EX-7羊单核突袭攻略
- 明日方舟孤岛风云怎么刷材料 明日方舟孤岛风云活动刷哪关
- 明日方舟孤岛风云商店换什么材料 明日方舟工厂铁片兑换推荐
- 明日方舟罗宾是谁 明日方舟孤岛风云活动干员罗宾资料一览
- 明日方舟山档案资料 明日方舟孤岛风云六星近卫山满信赖档案一览
- 明日方舟山语音一览 明日方舟孤岛风云六星近卫山语音大全
- 明日方舟孤岛风云家具怎么获取 明日方舟新增家具曼斯菲尔德囚室
