SRE

20221118163214

MTBF，Mean Time Between Failure，平均故障时间间隔
MTTR，Mean Time To Repair，故障平均修复时间
- MTTI (Mean Time To Identify，平均故障发现时间)，也就是从故障实际发生，到我们真正开始响应的时间。这个过程可能是用户或客服反馈、舆情监控或者是监控告警等渠道触发的
- MTTK (Mean Time To Know,平均故障认知时间)，更通俗一点，可以理解为我们常说的平均故障定位时间。这个定位指的是root cause,，也就是根因被定位出来为止
- MTTF (Mean Time To Fix，平均故障解决时间)，也就是从知道了根因在哪里，到我们采取措施恢复业务为止。这里采取的手段就很多了，比如常见的限流、降级、熔断，甚至是重启
- MTTV (Mean Time To Verify，平均故障修复验证时间)，就是故障解决后，我们通过用户反馈、监控指标观察等手段，来确认业务是否真正恢复所用的时间。

SRE只有一个目标：提升 MTBF，降低 MTTR

可用性目标

衡量维度：

这两种算法最后都会落脚到“几个 9”上

需要考虑：

快速识别 SLI 指标的方法：VALET：

在云服务中提供商SLA中，很少能制定像 SLO 这么细粒度稳定性目标，更多的是使用简单的可用性衡量：成功请求数/总请求数这种

SLO的验证：

[容量压测](/软件工程/容量保障.html#容量测试)
[混沌工程](/软件工程/架构/系统设计/混沌工程.html)，一定是 SRE 体系在服务治理、容量压测、链路跟踪、监控告警、运维自动化等相对基础和必需的部分非常完善的情况下才会考虑

在 SLO 落地实践时，SLO 可以被转化为错误预算，即你有多少次出问题的机会，以此来推进稳定性目标达成，为了达成 SLO，就要尽量减少对错误预算的消耗

当错误预算还很多，对异常及错误容忍就比较高，当错误预算快要被耗尽了，就应该尽量解决问题，减少或拒绝变更

第一件事，判断出现的问题是不是故障；第二件事，确定由谁来响应和召集

即建立完善的监控体系及 On-Call 机制

On-Call 的流程机制建设：

有效的故障应急响应机制：

由谁来承担主要的改进职责-故障判定三原则：