每到五一、十一或者春节这样的时间节点,总需要对系统进行巡检,所以就想了下为什么有巡检?

关于好的系统
一个好的系统是时刻受控的。什么叫受控呢?就是具备足够的鲁棒性,能够抗住各种物理和逻辑的错误,在遇到问题的时候仍然能够提供正常服务,抑或是经过短暂的失效后自愈。但是回顾整个互联网能够做到这个的系统还是非常的少,毕竟可用性能够达到4个9的系统也算是比较难得了。
关于可用性
如果给我足够的资源,我可以无限的提高系统的可用率,但是可以达到100%可以用吗?我觉得未必,因为现在的系统架构都比较复杂,服务间呈现网状调用的形态,一个模块的故障可能会放大到整个系统。
关于巡检
正是因为系统不是完善的,所以会发生故障。根据XXX定律,真实发生故障之前已经有很多种征兆,随机的故障是较少的。
巡检就是梳理并回顾系统的薄弱环节,比如存储使用量、流量、活动、第三方服务波动。针对这些薄弱环节制定故障预案。
为什么有巡检?
系统不是完美的-》故障导致系统不可用-》平时会处理故障-》节假日墨菲定律-》节假日之前巡检来处理显而易见的潜在性风险。
巡检后系统处于一个较受控,较稳定,而且有预案的系统,再加上人值班就可以放心的过节了。
巡检存在的根本原因是系统不完美,鲁棒性不够。
巡检趋势
持续地进行混沌工程,来持续提升系统的鲁棒性,加强系统自愈、调度、容灾能力。