Cloudflare 大规模瘫痪:网络配置错误导致

Cloudflare声称,2022年6月21日一起大规模中断影响了其十多个数据中心和数百个主要在线平台及服务,这起中断是由本应增强网络弹性的变更导致的。

Cloudflare在调查此事件后表示:“今天即2022年6月21日,Cloudflare遭遇了中断,结果影响了我们19个数据中心的数据流量。”

“遗憾的是,这19个数据中心站点处理我们全球流量的很大一部分。

这次中断是作为一个长时间运行的项目一部分的变更引起的,原本旨在为我们最繁忙的那些站点增强弹性。”

据用户报告,受影响网站和服务的完整列表包括但不限于:Amazon、Twitch、AWS、Steam、Coinbase、Telegram、Discord、DoorDash和Gitlab等。

中断影响了Cloudflare最繁忙的站点

在全球各地的客户和用户开始陆续报告Cloudflare网络连接中断后,这家公司在协调世界时(UTC)上午 6点34分开始调查此事件。

Cloudflare声称:“如果客户试图访问受影响地区的Cloudflare站点,就会遇到500出错信息。该事件影响了我们网络中的所有数据平面服务。”

虽然Cloudflare的系统状态网站上发布的事件报告没有详细披露导致中断的原因,但该公司在官方博客上分享了有关6月21日这起中断的更多信息。

Cloudflare团队补充道:“这次中断是作为一个长时间运行的项目一部分的变更引起的,原本旨在为我们最繁忙的站点增强弹性。”

“这些站点处的网络配置变更导致了从06点27分开始的中断。在06点58分,第一个数据中心恢复正常运行,到07点42分有数据中心恢复正常工作。用户可能无法访问依赖Cloudflare的网站和服务,具体看用户所在的位置。在其他地方,Cloudflare继续正常运行。”

虽然受影响的位置仅占Cloudflare整个网络的4%,但它们的中断却影响了Cloudflare在全球处理的所有HTTP请求中的大约50%。

Cloudflare中断影响

导致今天中断的变更是一个更庞大项目的一部分,该项目将把Cloudlfare最繁忙站点的数据中心转变成更具弹性和灵活性的架构,该架构内部名为多托管入网点(Multi-Colo PoP,即MCP)。

今天这起事件中受影响的数据中心站点包括:阿姆斯特丹、亚特兰大、阿什本、芝加哥、法兰克福、伦敦、洛杉矶、马德里、曼彻斯特、迈阿密、米兰、孟买、纽瓦克、大阪、圣保罗、圣何塞、新加坡、悉尼和东京。

故障时间表:

3点56分UTC:我们将变更部署到我们的第一个站点。我们的所有站点都没有受到变更的影响,因为这些站点使用旧架构。

06点17分:变更部署到我们最繁忙的那些站点,但未部署到采用MCP架构的站点。

06点27分:部署范围扩大到了采用MCP的站点,变更部署到了我们的主干交换机。这时候此事件开始了,迅速导致这19个站点宕机。

06点32分:宣布Cloudflare遭遇内部事件。

06点51分:先对路由器进行变更,以证实根本原因。

06点58分:找到并搞清楚了根本原因。开始恢复有问题的变更。

07点42分:最后的恢复工作已完成。由于网络工程师相互检查彼此的变更,恢复以前的操作,导致这个问题偶尔再次出现,这方面的进度因此有所耽误。