SRE&SLO
[[brn-google-sre]]
Site Reliability Engineer (网站可靠性工程师)
- 制定合理的SLO
- 季度错误预算
- 减少琐事自动化
经验:
- 第一要务是增强可见性,问题能报出来就解决了50%
- 第二要务是提供自动化修复问题的方法,可人工处理的工具,提高问题处理效率
SLO
SLI计算公式
- 错误率: 某段时间内,错误状态码数/请求重点接口总数*100%
- 可用率: 某段时间段内,成功状态码数/请求重点接口总数*100%
- TP95: 配置监控指标对应的阈值后,如500ms, 在某一时间段内请求时间小于监控指标(500)的占比
- TP99: 配置监控指标对应的阈值后,如1000ms,在某一时间段内请求时间小于监控指标(1000)的占比
错误率
- 默认阈值:status ≥ 300认为不合格, 具体阈值状态码根据业务指定
- 公式: 错误状态码量/访问总量*100%
- 单独错误率计算: 1分钟时间段内,错误状态码量/访问总量*100%
- 详细列表中错误率:按照天/月时间段内,错误状态码量/访问总量*100%
TP95
- 默认阈值:大于300ms认为不合格,TP95的指标可以根据业务来调整
- 公式:超过阈值的请求数/总请求数*100%
- 合格:合格区间为95%-100%,低于95%为不合格
- 单独TP95值: 1分钟时间段内,超过阈值的请求数/总请求数*100%
- 详细列表中TP99: 按照天/月时间段内,超过阈值的请求数/总请求数*100%
TP99
- 默认阈值:大于1000ms认为不合格,TP99的指标可以根据业务来调整
- 公式:超过阈值的请求数/总请求数*100%
- 合格:合格区间为99%-100%,低于99%为不合格
- 单独TP99值: 1分钟时间段内,超过阈值的请求数/总请求数*100%
- 详细列表中TP99: 按照天/月时间段内,超过阈值的请求数/总请求数*100%
服务SLO
- 错误率:服务内重点接口错误率*权重的均值
- 可用率:服务内重点接口可用率*权重的均值
- TP95: 大于95%
- TP99:大于99%
问题时长计算原则
- 默认阈值:1分钟时间段内,成功率低于99%的值,记问题时长为1分钟
- 采集标准:此系统任意接口成功率低于阈值的开始时间视为MTTR开始时间,高于阈值时间视为MTTR恢复时间