运维的价值

发表于 2017-09-01 更新于 2023-08-04 分类于樱桃沟阅读次数：本文字数： 1k 阅读时长 ≈ 1 分钟

已经很多场合说过普通运维在未来5年内是要消亡的言论。只有大型IT企业才会需要专职的运维，就跟网络工程师的消亡是一样的道理。先看看运维对于一个公司的价值是在哪里。 成本： 一般而言运维是花钱的部门，控制成本自然是从多方面都要做。购买云服务和各种固定资产，一个合格的运维自然懂得最高性价比的东西，之前我们这些每年省下的钱招5个工程师，或者加20个服务器都有富余。控制成本另外是减少产品成本，之前有过一个很简单的例子是，产品要求点播节目单是实时推送的，这个算出一个很大的天文数字来，但是如果我们改成5分钟推送一次，这样可以降低80%的费用，而且本来这个节目单的变更也不是非要实时的。除非你们家产品完全没有成本压力，不然很明显知道选哪个。数据驱动：之前在做SNS的时候，会把每个广告位进行编号，总能发现一些位置的点击率就是比另外的高，而在带宽支出是一样的情况下，很明显推算出哪些是需要提高价格投放，哪些是降低价格，至于DSP这样的就另说了。 技术架构： 稳定，安全，高效，复用，冗余是运维要考虑的出发点，这个跟大部分开发的出发点是不一样的。稳定的意思是说，这个东西是大家熟悉的，迭代过多年的，在高可用方面有成熟的方案。之前我们有用redis要当存储，虽然redis本身有bgsave，那时候也没有redis cluster，哨兵浪费机器有点多，还有IP切换等问题，但是redis本身又不适合作为最终存储，但是开发人员为了要在99.9%请求要在2ms内返回，那就只能用这个，但是数据的安全性就必须要处理，那就得跟开发一起讨论了，最终讨论出来基于一致性hash的redis集群，一致性hash在redis客户端进行实现，每个key至少存放2份，同时加上redis node的监控（响应时间，内存剩余），这样这个系统在上线前我们基本就心中有底了。效率对于外面人来看这个就是救火的速度。但是对于内部来说一个是平时的演练，另外就是一个自动化的程度。这个一定是自己来做的，因为当平时没有故障的时候，这些东西是完全看不出的。随着现代应用越来越复杂的趋势，要做好故障演练，benchmark这些是非常耗费资源和人力的。安全同效率一样，这个只有大公司才会重视的，当初创公司连业务都做不完谁会去关心这个呢，而且这两项都是需要花钱的。安全一个是对外的安全，比如外部防火墙和入侵检测，DDOS这些。另外一个是内部的安全：账号密码管理，操作审计，备份安全等等。同样这个也是平时根本看不出成绩，