sre和ai
AI能力之于SRE来说,我觉得可能在问题在预测和寻找问题根因上是比较有用的。这个在很多公司也都有了很好的实践。
这次主要是看了SREcon2025上有个《Why-Risk-Management-Requires-Taking-Risks-A-Practical-Guide》演讲,了解下英伟达这样公司的sre都是怎么使用ai的。
他们其实是维护了一个游戏平台,https://play.geforcenow.com。
其中有26个SRE分布在北美和印度,150个不同服务和组件。但是分布在35个地区,25K的服务服务器和大概100K多的GPU,其中一些服务是跨云厂商的,个人理解就是一些前台的服务为了快肯定是放不同的云厂商上。
然后说了为什么用ai





