混合云演习常见案例

专线主备切换

架构

  • 用户 IDC 通过物理专线接入至少两个腾讯云专线接入点,在物理层面实现线路的高可用和负载分担。
  • 专线网关基于 DSR 系统设计,集成了 DSR 集群,作为腾讯云和 IDC 的桥梁与 IDC 本地路由器形成虚拟专用通道,通过腾讯云 VPC 或者 CCN 实现资源互通。
  • DSR 集群对外提供了2个腾讯云边界 IP 地址实现控制面路由双活机制(active-active system),这样 IDC 侧本地路由器通过 BGP 协议分别与两个 DSR 集群分别建立了 BGP 邻居关系,有效的保证了 DSR 集群升级或者单集群故障时业务的高可用,避免因单 BGP 邻居中断导致路由收敛而对业务产生的影响。
  • 同时在 DSR 集群内通过实时监测机制动态调整并剔除异常服务节点,保证了单集群的可用性;集群间通过大规模集群扩展技术,实现用户业务在多个集群间横向扩容,确保了跨集群的可用性。

目标

验证主要以下几点:

  • 当单条物理专线出现故障时,业务流量能够自动切换到灾备专线上。

实验设计

线路故障切换

当检测到物理线路1发生故障,系统自动将流量切换至物理线路2,保证业务正常运行。故障修复后,流量自动切回。

故障模拟

  1. 与业务人员确认好演练时间,通过SSH,登陆到IDC内的对应故障注入路由器中,shutdown对应的专线路由端口。
  2. 观察业务请求流量是否自动切换到路由器B上。
  3. 恢复路由器A的专线端口

混合云服务切换演练

架构

  • 配置DNS指向CLB,CLB后端绑定对应的云上CVM服务器资源和IDC机房的云服务器。
  • 云上数据库配置了DTS同步任务向云下数据库进行数据同步
  • 通过专线VPN, 实现云上云下请求互通。
  • 服务器资源都配置Mysql的Proxy,配置Proxy探测Mysql的HA。

目标

  • 验证当云上服务器出现AZ故障时,通过配置CLB健康检查,自动剔除掉异常的RS端口机器,自动将流量切换到云下服务器
  • 验证云上数据库出现不可读故障时,通过配置的CLB健康检查,将延时高(超出健康检查的响应阈值)的七层路径RS端口自动剔除,转发到线下;Mysql的Proxy生效,自动请求线下的云数据库。

实验设计

服务器单AZ宕机

模拟云上服务器单AZ宕机。通过腾讯云混沌演练平台对云上服务器注入【网络中断】的故障,模拟服务器宕机。观察业务流量是否正常切换到云下;是否如下图所示的网络路径运行

数据库不可读

通过腾讯云混沌演练平台对云上数据库注入【主从实例不可读】的故障,模拟数据库宕机。观察业务流量是否正常。配置的CLB健康检查是否生效。

故障模拟

服务器单AZ宕机

1.登录腾讯云混沌演练平台,选择故障注入类型CVM,然后选择对应的故障动作【网络】-->【网络中断】,并配置好相关参数后,点击【执行】开始注入故障。

2.通过相关监控指标观察业务流量是否正常切换到云下。

  1. 执行【网络中断】的恢复动作,恢复云上服务器网络,观察业务流量是否正常切换回来。

数据库不可读

1.登录腾讯云混沌演练平台,选择故障注入类型CDB,然后选择对应的故障动作【主实例和只读实例同时不可用】,并配置好相关参数后,点击【执行】开始注入故障。

2.通过相关监控指标观察数据库请求是否正常切换到云下。

  1. 执行【主实例和只读实例同时不可用】的恢复动作,恢复云上服务器网络,观察业务流量是否正常切换回来。
  2. 重新配置双向DTS。

参考资料:

  • 云专线高可用混合云网络最佳实践
  • 构建双向同步数据结构
  • CLB混合云部署