aliyuncs.com被ban
早上5点多被电话直接吵醒,说是aliyuncs.com这个域名无法解析了。需要赶紧处理。
可我们也没有收到对应报警啊。
整个事情的时间线
- 02:57:监控发现 aliyuncs.com 域名解析异常,被劫持至安全组织Shadowserver的服务器( sinkhole.shadowserver.org )。
- 04:04:工程师确认劫持原因为国际执法机构通过域名注册商威瑞信( VeriSign )强制修改解析。
- 08:11:解析异常修复,但全球 DNS 缓存刷新延迟导致部分区域持续故障。
- 09:00:受影响云服务( OSS 对象存储、CDN等)基本恢复。
但是实际上一直到中午12点海外还是有很多地区没有恢复呢。
我们通过这个可以发现,在发现后的1个小时内阿里云的工程师才找到原因。这个是十分失职的。
这个简单的whois信息就能找到原因的,这里可以很清楚的看到这里的whois信息都被改了,那唯一能改这个信息只能是VeriSign呢,因为他们是com域名的管理机构。连注册局都从万网变成了rolr了,这就没啥可考虑的了。
然后又过了4个小时才恢复。这里需要做哪些事情呢。
- 跟VeriSign进行沟通,把域名信息改回来。
- 联系cnnic,将aliyuncs.com的相关解析同步阿里云自己的服务器,而暂时不要同步其他根域的。尽快恢复国内。这种我理解阿里云肯定是沟通渠道的。如果是这样的话至少国内可以恢复的快点,虽然国内只是一个镜像站,但是有比没有强。
- 将自己内部的dns server和自己控制的dns server修改正确。不过这个得平时演练过才行,不然容易出现次生灾害。
这里第一条估计比较难一点的,但是还好是工作日,要是改完刚好是休息日,那就完球了。
然后我们回头再看看这种问题是怎么发生的。
https://dashboard.shadowserver.org/zh-hant/
shadowserver根据资料来说是一家非盈利的安全组织,全职员工16人。但是它比较牛逼的地方是跟各个执法机构以及icann,VeriSign这些机构合作执法,然后把域名指向到sinkhole.shadowserver.org上,最后再会ban.
但是我觉得这种机构要做上面操作也应该有流程吧,至少也要通知一下,怎么说aliyun也是世界第五大云厂商,shadowserver不知道,icann和VeriSign应该也知道啊。
所以这块信息只能等aliyun,shadowserver以及VeriSign来补充了。这个事情要交代不清楚,那大家对于com和net的信任度就跟大辽国的债券一样了。也许后面还有别的势力,这又谁知道呢。
按照现在传闻的说shadowserver发现aliyun的oss上面钓鱼网站,所以把域名干了,那aws s3上的还少吗? 这怎么不干掉aws啊。github上也有一堆风险软件,那也没有见被封了。
从这个角度来看,各个互联网公司的命脉都被icann和VeriSign,说哪天干掉你就干掉你了。
那作为云厂商应该怎么做呢?
- 加大oss上风险的管控。
- 不同的业务要拆分不同的域名,不要把鸡蛋放在一个篮子里。oss一个主域名,kafka一个主域名。oss这种风险高的还能根据客户等级或者风险等级进行拆分。
- 使用自己的顶级域(TLD), 比如aws注册了 .aws, aliyun其实也注册了 .xin, 那理论上要封的话也联系aws和aliyun了,而不是VeriSign想搞你就搞了。
你看阿里云本来自己已经是注册商了,aliyuncs.com也在这个注册商了,但是架不住com的管理机构是VeriSign一家的。
而作为我们这样的客户应该怎么做呢?
- 多套域名,虽然增加了复杂度,但是关键时刻是可以保命的。当然还是那句话,平时要演练好。
- 多云部署,每家云那种全局性的故障都是时有发生的。
- 降低请求链路的复杂度,每次请求必然都会涉及到域名解析,这里随便哪里出问题了,对于业务都是损失的。