X通双11事故总结

发表于 2018-11-17 更新于 2025-02-10 分类于樱桃沟本文字数： 684 阅读时长 ≈ 1 分钟

本来想着双11就是买买买，结果今年接了X通这样的客户，这简直是灾难啊。

首先是rabbitmq挂了，原因是突然consummer下降一半，倒是queue message迅速提升，然后越积越多，导致最后都没法正常使用了。

而在这个之前我们对于rabbitmq这个一直没有关心，使用的都是默认的配置。而看到的日志就是client意外断开连接。

而从程序侧看到的日志是，重启consumer，但是一直连原先的exchange，但是那个exchange已经不存在了，导致无法连接成功。

然后也看到在这个情况下，mysql的慢日志里有一些大的查询，都是结果集比较大，有些连表的慢查询原先情况下是没有的，但是在高负载下是都显现出来了。

熬了2个通宵，改了rabbitmq server端的参数，改了client端重连exchange的逻辑，终于在第二天早上彻底把这个问题给解决了。

但是后面居然又出现事故了，这次是redis的问题，虽然用哨兵做了主从的切换，还用本地haproxy进行了代理，但是突然就连接不上了。后来一看是redis的cpu负载比较大导致的。

我们已经把很多redis进行了拆分，可怎么还有这个问题呢。后面查下来是X通不在线的人太多了，导致很多进行无谓的计算了。这个东西可不好改，只能临时进行redis的拆分，可一拆分后发现redis一天进行了好几次的主从切换，这TMD到底是什么原因啊。

这个就是用的什么破物流云导致的。

虽然这里总结的很简单，但是要找到这些问题都是多少人花费了多少个日日夜夜啊。

微服务如何快速定位问题，如何整理出所有的业务逻辑，这个貌似是一个不可能完成的任务。