异常预警

异常预警功能介绍:

目前各个服务的调用链数据为分钟级别,可以对各服务的数据波动情况进行数据监控。

在确定需要监控的指标和维度后,需要给产品提供:

  • 监控指标

  • 监控服务,span

  • 报警阈值:连续xx次,大于等于/小于等于xxx

  • 接收报警的邮箱&手机号

产品配置完成后,进行测试,验证无误后,即可上线报警。

产品邮箱:wangyao3@cmcm.com

例:nlu服务调用文法服务的情况下,如果响应时间连续3次(连续3分钟)大于500毫秒,则发送报警。

监控指标:平均请求时长

监控服务:nlu_service

监控span:grammar

报警阈值:连续3次大于500毫秒

接收报警的邮箱:xxx@cmcm.com,xxx@cmcm.com

收到的报警邮件:

错误率连续3次超过1%

监控指标详情:

指标含义 计算方法 监控维度
请求次数 累加计算,相当于pv span,IP,服务
错误次数 累加计算(过滤tags.error不为空) span,IP,服务
错误率 错误次数/请求次数 span,IP,服务
平均请求时长 duration平均值 span,IP,服务
平均请求时长 以serviceName维度聚合,需要提前对每条调用链进行聚合处理(traceId相同),取出每条调用链中duration的最大值,并标注是否为异常链(有一条异常则整条链标注为异常);之后的聚合逻辑与上面相同。 serviceName
请求次数 serviceName
错误次数 serviceName
错误率 serviceName

results matching ""

    No results matching ""