关于sre
《sre工程师应知的应会的97件事》里第一篇就是用6个词来概括sre,作者用到了:度量、分析、决策、行动、反思和重复。
这个其实是一个环状结构。

度量
首先我们要确认为何度量,我们这个度量的东西是否是用户真正感知的。拿我比较了解的sns和im来说,那自然是登陆,守法消息,搜索添加好友,添加组什么的。这些就必须放入到我们SLO。
但是这个标准并不是越高越好,不是一切都要99.9999%,用户也不是要求这样的。比如之前有见过一家智能手表厂商,有一年他们在北美的腾讯云挂了一天,他们就这样等待腾讯云修了一天,挂了就挂了,因为对他们来说数据并没有丢失,都是存放在手表本地的,只是上传和找寻好友这些功能没有了,但是对于这种厂商来说数据一致性是最重要的。



