专线主备切换
架构
- 用户 IDC 通过物理专线接入至少两个腾讯云专线接入点,在物理层面实现线路的高可用和负载分担。
- 专线网关基于 DSR 系统设计,集成了 DSR 集群,作为腾讯云和 IDC 的桥梁与 IDC 本地路由器形成虚拟专用通道,通过腾讯云 VPC 或者 CCN 实现资源互通。
- DSR 集群对外提供了2个腾讯云边界 IP 地址实现控制面路由双活机制(active-active system),这样 IDC 侧本地路由器通过 BGP 协议分别与两个 DSR 集群分别建立了 BGP 邻居关系,有效的保证了 DSR 集群升级或者单集群故障时业务的高可用,避免因单 BGP 邻居中断导致路由收敛而对业务产生的影响。
- 同时在 DSR 集群内通过实时监测机制动态调整并剔除异常服务节点,保证了单集群的可用性;集群间通过大规模集群扩展技术,实现用户业务在多个集群间横向扩容,确保了跨集群的可用性。
目标
验证主要以下几点:
- 当单条物理专线出现故障时,业务流量能够自动切换到灾备专线上。
实验设计
线路故障切换
当检测到物理线路1发生故障,系统自动将流量切换至物理线路2,保证业务正常运行。故障修复后,流量自动切回。
故障模拟
- 与业务人员确认好演练时间,通过SSH,登陆到IDC内的对应故障注入路由器中,shutdown对应的专线路由端口。
- 观察业务请求流量是否自动切换到路由器B上。
- 恢复路由器A的专线端口
混合云服务切换演练
架构
- 配置DNS指向CLB,CLB后端绑定对应的云上CVM服务器资源和IDC机房的云服务器。
- 云上数据库配置了DTS同步任务向云下数据库进行数据同步
- 通过专线VPN, 实现云上云下请求互通。
- 服务器资源都配置Mysql的Proxy,配置Proxy探测Mysql的HA。
目标
- 验证当云上服务器出现AZ故障时,通过配置CLB健康检查,自动剔除掉异常的RS端口机器,自动将流量切换到云下服务器
- 验证云上数据库出现不可读故障时,通过配置的CLB健康检查,将延时高(超出健康检查的响应阈值)的七层路径RS端口自动剔除,转发到线下;Mysql的Proxy生效,自动请求线下的云数据库。
实验设计
服务器单AZ宕机
模拟云上服务器单AZ宕机。通过腾讯云混沌演练平台对云上服务器注入【网络中断】的故障,模拟服务器宕机。观察业务流量是否正常切换到云下;是否如下图所示的网络路径运行
数据库不可读
通过腾讯云混沌演练平台对云上数据库注入【主从实例不可读】的故障,模拟数据库宕机。观察业务流量是否正常。配置的CLB健康检查是否生效。
故障模拟
服务器单AZ宕机
1.登录腾讯云混沌演练平台,选择故障注入类型CVM,然后选择对应的故障动作【网络】-->【网络中断】,并配置好相关参数后,点击【执行】开始注入故障。
2.通过相关监控指标观察业务流量是否正常切换到云下。
- 执行【网络中断】的恢复动作,恢复云上服务器网络,观察业务流量是否正常切换回来。
数据库不可读
1.登录腾讯云混沌演练平台,选择故障注入类型CDB,然后选择对应的故障动作【主实例和只读实例同时不可用】,并配置好相关参数后,点击【执行】开始注入故障。
2.通过相关监控指标观察数据库请求是否正常切换到云下。
- 执行【主实例和只读实例同时不可用】的恢复动作,恢复云上服务器网络,观察业务流量是否正常切换回来。
- 重新配置双向DTS。
参考资料:
- 云专线高可用混合云网络最佳实践
- 构建双向同步数据结构
- CLB混合云部署