说说阿里云

这两天阿里云香港区宕机24小时的新闻还是挺热的,今年华为云香港区也发生过这样的。

可能大家不知道香港的机房在哪里,在大陆一般旧的机房在电信局大楼里,都是当年电报站改过来的,一般都是比较乱的;比如上海电信武胜路机房,北京兆维机房。 还有一种是整体构建好的,比如上海电信南汇康桥机房,联通土城机房;这种因为都是新建的,所以网络电力都会比较好,而且电信一般都只给大客户用,所以看着比较整齐。

香港因为寸土寸金的原因,所以那边的机房一般都是在大楼。比如之前用过一个机房在IFC地下3层,是之前香港同事选的,去了之后真怕暴雨把机房给淹了。于是后来我们又搬去葵涌了,这里好像是个工业基地,结果那机房在一个工业楼的27层,电梯都换了2部才能上去。

想想原因主要还是当年香港的it行业没有起来导致整个互联网的基础设施不怎么样。但是港大的HKIX没有里面参观过,但是外面看着也是很一般的,不过至少不是商业楼了。

话说回来,阿里云的稳定性到底怎么样,这个要看这个机房是阿里云自己的还是临时租用的。这个因为大陆合规问题,完全有能力自建机房的除了几大运营商,就只有在2000年刚开放的时候申请到牌照被运营的世纪互联和鹏博士了。就算世纪互联和鹏博士后来也基本上被弄死了。

所以我们说稳定性能说的也就是技术了。基本上阿里云从15年到18年的故障我都碰到了。比较大一次是阿里云北京C区存储全挂了,还有一次是阿里云的所谓的安全客户端把进程全部干死。如果是海外的话,那基本上都是网络的原因,新加坡电信的故障,塔塔的故障就比较多,这都是每年的常规节目。

但整体而言近3年的稳定性也还是可以的,也没有原先的6,7月新手魔咒这样的事情发生了。这里说的就是ecs,slb,rds,redis这几个产品。如果是阿里云自己开发的产品,比如polarDB,tair这些产品,各位看官还是自己多考虑考虑自己的数据量。

ddos这些就跟aws有很大的差距。不过也难怪,aws自己是运营商,而阿里云这些都是给电信打工的。

最近1年多贵司也用上了高大上的aws,传闻非常好。但实际用起来就是just so so。但是也有好的,比如aurora,ga,nlb这些确实都比阿里云强。

比如aws的ec2只要是宕机,那我们的经验是重启1次是起不来的,必须要强制关机3~5次后再启动就可以了,这种问题反馈过多次,但是没有任何改进。这个只能说明aws ec2的技术不太行。整个az宕机的事情他们可每年都会有的,有时候还3个az同时宕机也都有过。

rds和elasticcache这些基础配置都特别坑,但是这个你花钱是可以解决的。衍生的就是计费规则比较坑,磁盘iops也要钱,内网传输要钱,日志要钱,api要强,流量不能突增突减,机器内网带宽太低。支持这些就更不要说了,话说当年贵司每月100多万dollar的消耗也没有任何支持,有就是提工单。

所以千万别看机器每小时多少刀,实际想用的好点,那基本是个无底洞了。

但是阿里云,腾讯云这些要想在国内做的更上一层楼,一个是数据库的问题要解决好,polardb这些里aurora还是很有差距的,另外一个就很难期待大宋会再发idc牌照了,不然这些运营商在网络上应该不会有大的进步了。