近日,在中国信通院组织的“首届云系统稳定安全运行优秀案例征集”活动中,腾讯云混沌演练平台斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。
中国信通院于2022年11月启动案例征集,活动旨在通过筛选行业最佳实践案例,为众多企业提供参考和指引,进而推动我国云服务稳定安全运行水平提升,保障各个行业数字化转型和稳定运营。作为首届活动,标志性、引领性意义重大。
该活动共收集到超过100份申报材料,历时3周,经过两轮专家评审共评选出7个技术领域、56个优秀案例。其中,腾讯云混沌演练平台凭借在腾讯云自研产品稳定运营领域工作中积累的实战经验和丰富成果,斩获了三项优秀案例荣誉,包括混沌工程实践、云系统运行故障应急处置、变更管控领域。
接下来一起来看看优秀案例介绍吧!
随着腾讯云业务的快速发展,规模逐渐增大,大规模断电断网事件也随之频发,导致腾讯云品牌形象和客户利益受到了损害,也引发了对云产品容灾能力的思考。由此,混沌练平台应运而生。
组织上,成立混沌蓝军,依托腾讯云混沌演练平台,以第三方视角对所有云产品进行非通知的月度大规模实战演习,驱动各个产品达成容灾标准,最终促进达成0故障目标。
其中,腾讯云故障演练平台以跨可用区容灾演练能力为主要核心,通过提炼转化历年典型故障案例,支持如 DB切换演习、模拟磁盘IO Hang、业务进程异常挂死等丰富故障场景,主要分类涵盖:1)基础设施类:主要覆盖跨 az 容灾、断电自恢复两种场景;2)数据类:保障关键数据不丢失,有备份并做好从备份数据恢复到现网效率的验证,覆盖数据备份和从备份恢复效率等场景;3)PaaS/SaaS 类:主要是基于云原生下的调度、服务set化(大小客户分级)、服务能力隔离,服务压测等场景。
在云服务发生重大故障时,明确的故障应急预案及处理角色分工,能够保证相关人员能迅速、有序、有效地开展故障处理及恢复工作,以减少服务不可用时间,降低对客户造成的影响。以腾讯云机房断电等重大故障演练实践为例,腾讯云混沌演练平台提供演练全生命周期管理功能,串联事前计划、事中演练、事后复盘等关键环节,从以下几个方面验证系统及应急预案的可用性:
1)云产品服务稳定性:故障注入以后,各云产品是否可以快速的感知并处理,电力恢复之后,云产品的服务恢复时间是否满足 SLA。 2)基础设施稳定性:基础网络,计算设施恢复是否及时,是否能够提供完整的服务给到上层依赖,包括基础的物理机设备,网络设备等是否会出现故障的情况。 3)各部门协作稳定性:云计算是一个整体性工程,从底层的机房建设,到网络,再到上层的服务,涉及到各个部门,一个机房的断电,势必需要各部门紧密配合,高效协作才可以完成,演练本身也在考验着各部门的协作能力。
腾讯云变更管控分为变更前、变更中、变更后三个阶段,覆盖变更的完整生命周期,在变更前进行风险预判、变更中实时感知变更状态和影响资源、变更后进行有效审计与数据溯源,有效降低现网故障的出现频率和现网故障对生产环境的影响。变更管控平台的落地,带来以下几个方面的价值:
1)可实施:多数情况下,变更的发起人是开发人员,而变更的实施人是运维人员,对于变更详细情况,并不是很了解,沟通效率低,很容易因为信息不对等原因带来变更风险,而变更审批中,详细记录了变更的背景、内容、灰度策略、回滚方案,减少了信息传递的误差,也提高了变更的可实施性。
2)可追溯:变更审批中记录了变更的详细方案,变更实施时,平台收集了变更的详细日志,如变更的实施人,操作时间,操作对象,操作步骤,为以后的问题追溯带来了极大的遍历。
3)可度量:整个变更会被系统详细记录,包括变更的背景,方案的制定和实施,会自动生成各种维度的变更报表,方便对变更质量做度量,为进一步的变更优化提供数据上的支撑。
4)可审计:变更过程自带严格的质量把控,自动增加审计,包括审批的各个环节,实施的各种步骤,也可以生成数据,做线下合规审计,规避变更带来的风险。
混沌工程平台能力评估
除了斩获三项优秀案例外,在中国信通院“2022下半年系统稳定性保障领域评估-混沌工程平台能力评估”中,腾讯云混沌演练平台(CFG)还凭借灵活、便捷、完善的故障演习功能和全面的安全防护保障能力,通过《Q/KXY SS001——2021混沌工程平台能力要求标准》检验,达到了混沌能力评估的“先进级”荣誉认证。
云服务稳定安全运行是电信网络运行安全的重要组成部分,事关人民福祉和经济社会发展大局。腾讯云混沌演练平台将持续完善自动化、可视化的混沌实验部署工具,探索致力于打造一个更完善的稳定性运营平台,满足企业在云迁移、云原生过程中的稳定性保障需求。