联发科|云上春节“稳”字当头,致敬千行百业数字化的“守护者”( 二 )


以华为云为例 , 华为云2022年春节需保障百余个重点场景 , 覆盖音视频、社交资讯、政企、高速收费、旅游买票、酒店、物流、汽车、教育等行业领域 , 从11月5日起开始筹备 , 整个保障工作就已经在有序的推进 。
承担春节期间稳定性重担的“可爱的人” , 就是华为云SRE(站点可用性工程师)及云资源运营团队 。
为千行百业带来稳定可靠的服务体验
云计算公司的SRE , 就是维护云服务稳定的团队 , 是保障用户获得优质服务的真实守护者 。

华为云工程师实时监测运维设备平稳运行
面对云上的几百万台服务器 , 遍布在几十个站点的几亿行代码 , 很难不会出现问题 , 比如硬件的故障 , 软件的bug , 所以云厂商需要具备不中断、不延迟等服务能力 。 尤其针对春节这样特别的时间节点 , 要做到绝对的稳定性 , 华为云SRE团队 , 是如何实现的?
首先 , 从整体策略的角度 , 针对云上春节做足准备和应急预案 。 通过流量预测及站点扩容 , 华为云总结了一套精准的评估算法 , 按站点、客户等不同维度预测春节的流量模型 , 并提前做好资源储备 。

其次 , 从执行力的角度 , 将春节稳定视为保卫战 。 除夕当天晚上 , 分布于5个城市的华为云春节负责稳定保障的百人团队会全部就位 , 现场待命 。 同时 , 华为云会有一个例行的巡检队伍 , 每隔半个小时 , 会巡检流量情况 , 比较评估一旦流量和预期有较大出入时 , 会立刻告警 。 此外在凌晨的流量高峰结束以后 , 还会做复盘 , 并为元宵节的保障提前做准备 。
第三 , 从华为云SRE团队组成的角度 , 它可以说是一支王牌部队 , 集结了来自于各个研发领域优秀的工程师 , 整个团队对故障处理 , 故障优化的响应速度 , 以及解决效率是非常高效的 , 这是华为云在组织能力上的保障 。
第四 , 华为云SRE通过实践总结了一套“确定性”运维方法论 , 在IT行业快速发展 , 各种不确定挑战增大的情况下 , 保障业务高可用 , 让客户有确定性的感知 。 SRE用“确定性”这个词涵盖所有能力 , 作为对客户的承诺 。
华为云为什么是客户的首选?
华为云从2021年11月5日开始筹备虎年春节保障 , 已经识别了百余个重点保障场景 , 覆盖音视频、社交、高速、文旅、酒店、物流、汽车、教育等各行业关乎国计民生的重点业务稳定 。

华为河图机器人 , 自动AI检测数据中心故障及环境信息
另外一角度 , 如此多的重大行业将春节期间的云上保障工作交予华为云 , 也凸显了对华为云SRE的一种信任 。
华为云也的确在很多方面 , 做到了客户的首选 。
首先 , 是不断的自我审视 , 在实战中积累经验 。 一年以来 , 华为云已经进行了2000多次实战演练 , 涉及2000多名技术工程师220多个云服务 , 覆盖容灾 , 冗余 , 过载 , 数据备份 , 误操作等多种演练场景 , 全面提升了华为云的可靠性 。
据悉在某次演练中 , 总指挥临时决策 , 将演练时间从9点钟提前到凌晨5点钟 , 而华为云SRE工程师仍然能够做到立刻在线 , 在铁的纪律中体现了专业化的素质 。
其次 , 华为云希望把稳定可靠做成一种竞争力 , 并站在客户视角看待业务 。 例如把经验沉淀到工具体系中 , 孵化出智能运维平台 , 并经过持续的打磨 , 实现了非常复杂的流量算法智能调度管理 。 华为云会站在客户的视角与客户共同去提升其应用层的稳定性 , 从应用层到底层 , 双方联合在成本、质量、效率上达到最优 。
第三 , 这些能力的积累和客户的认可 , 都源于华为云自身实力的快速进步 。 2021年4月Gartner发布的《Market Share: IT Services Worldwide 2020》研究报告 , 华为云全球IaaS市场排名上升至中国第二、全球前五 。 截至目前 , 华为云已上线220多个云服务、210多个解决方案 , 聚合全球超过3万家合作伙伴 , 发展260万开发者 , 云市场上架应用超过6100个 。 在中国 , 华为云服务了80%的TOP50互联网客户 , 以及政务、制造、金融、交通、电力、矿业等行业TOP客户 , 成为政企智能升级首选 。

相关经验推荐