如何保证监控的有效性

监控可以说是整个运维工作中最最重要的事情。 可我们如何去保证监控是有效的呢? 如何来确认自己加的监控是有效的。

这个大家肯定有很多种想法,去监控从网络到操作系统,再到中间件数据库,再最终到应用程序本身。

可经常发现的问题是监控总有加不全的地方。那如何来保证监控有效性呢。

跳出技术角度,从公司的业务层面去看待。因为从boss层面,他根本不关心你kafka加了多少个监控,你数据库有多少慢日志。 他只关心我们的服务有没有对客户造成影响。

当然不是说技术角度的指标不重要,但是这些指标是为了更方便的判断问题的。我们的核心问题是是否产生了SLA的事故。

比如我们最后定的指标那就是用户的请求数和实时的连接数,消息数这3个指标。 但是我们需要看下各个渠道的来源的这3个指标。

毕竟对于我们来说,不同渠道的差异是巨大的,这样也方便更快速的定位问题。

虽然这个指标是出来,但是当出现指标数据有问题的时候,需要建立一个标准流程如何去排查问题。不然容易出现被人疏忽的漏洞一直没关注。