性能不好怎么办?对着清单撸一遍[转]

Brendan Gregg是Netflix的资深性能架构师,著名性能调优专家。著有《性能之巅:洞悉系统、企业与云计算》)一书,可以说是性能调优领域的集大成之作。

前不久,Brendan Gregg在SREcon16上分享了《Performance Checklists for SREs》,也是干货满满。我们一起来看看。

对于单个实例,可以考虑这10条命令。10条命令,一分钟分析Linux性能问题 一文中有详细介绍。

什么是性能工程?SRE(Site Reliability Engineer,网站可靠性工程师)大家应该并不陌生。SRE遇到性能问题时,要作出应急响应。但性能工程与此并不相同。

性能工程的目标是尽可能获得最好的性价比,持续优化,而优化无止境。修复性能问题,需要的时间也长短不一,可能是数小时,数天,数周,甚至是数个月。需要花时间读文档和源代码,做各种实验。通常没有一个所谓的“良好状态”,好或不好,可能要靠实验或直觉。

这个图很重要,可以看看系统的不同部分分别能用什么命令来做性能分析。

再来看看SRE的应急响应处理。

目标是几分钟内解决问题。快速解决是王道。可以向上扩展,回滚,甚至是把流量转走。必须在压力下解决问题,可能要凌晨三点起来。这种情况下,历史状态就是“良好状态”。

Netflix的云分析流程。