异常预警
异常预警功能介绍:
目前各个服务的调用链数据为分钟级别,可以对各服务的数据波动情况进行数据监控。
在确定需要监控的指标和维度后,需要给产品提供:
监控指标
监控服务,span
报警阈值:连续xx次,大于等于/小于等于xxx
接收报警的邮箱&手机号
产品配置完成后,进行测试,验证无误后,即可上线报警。
产品邮箱:wangyao3@cmcm.com
例:nlu服务调用文法服务的情况下,如果响应时间连续3次(连续3分钟)大于500毫秒,则发送报警。
监控指标:平均请求时长
监控服务:nlu_service
监控span:grammar
报警阈值:连续3次大于500毫秒
接收报警的邮箱:xxx@cmcm.com,xxx@cmcm.com
收到的报警邮件:
错误率连续3次超过1%
监控指标详情:
指标含义 | 计算方法 | 监控维度 |
---|---|---|
请求次数 | 累加计算,相当于pv | span,IP,服务 |
错误次数 | 累加计算(过滤tags.error不为空) | span,IP,服务 |
错误率 | 错误次数/请求次数 | span,IP,服务 |
平均请求时长 | duration平均值 | span,IP,服务 |
平均请求时长 | 以serviceName维度聚合,需要提前对每条调用链进行聚合处理(traceId相同),取出每条调用链中duration的最大值,并标注是否为异常链(有一条异常则整条链标注为异常);之后的聚合逻辑与上面相同。 | serviceName |
请求次数 | serviceName | |
错误次数 | serviceName | |
错误率 | serviceName |