异常预警

目前各个服务的调用链数据为分钟级别，可以对各服务的数据波动情况进行数据监控。

在确定需要监控的指标和维度后，需要给产品提供：

产品配置完成后，进行测试，验证无误后，即可上线报警。

例：nlu服务调用文法服务的情况下，如果响应时间连续3次（连续3分钟）大于500毫秒，则发送报警。

监控指标：平均请求时长

监控服务：nlu_service

监控span：grammar

报警阈值：连续3次大于500毫秒

接收报警的邮箱：xxx@cmcm.com,xxx@cmcm.com

错误率连续3次超过1%

指标含义	计算方法	监控维度
请求次数	累加计算，相当于pv	span，IP，服务
错误次数	累加计算（过滤tags.error不为空）	span，IP，服务
错误率	错误次数/请求次数	span，IP，服务
平均请求时长	duration平均值	span，IP，服务
平均请求时长	以serviceName维度聚合，需要提前对每条调用链进行聚合处理（traceId相同），取出每条调用链中duration的最大值，并标注是否为异常链（有一条异常则整条链标注为异常）；之后的聚合逻辑与上面相同。	serviceName
	请求次数	serviceName
	错误次数	serviceName
	错误率	serviceName

results matching ""