来自16年经验老程序员的靠谱回答华为云服务器宕机。
主要有以下几个原因
1.凌晨时服务器很忙首先华为云服务器宕机,确实服务器的宕机一般都发生在凌晨使用率最低的时候,但是这个使用率只是针对用户而言的。
实际上,在凌晨的时候,服务器是很忙的华为云服务器宕机。主要忙哪些事情呢?主要是一些定时任务,还有数据库备份等。很多比较耗时的操作比如报表统计都会安排在半夜,以免半天影响正常业务,所以这个时候,服务器都是在高负荷运转的,容易产生事故。
2.一般晚上的时候会上线新功能同理,发布新代码或者更改功能,也会选择在晚上的业务低峰期。无论前期的测试工作做的多么到位,也难免会隐藏一些bug,到了凌晨,这些bug(比如死循环)已经跑了一段时间了,在无人值守的情况下就可能触发各种故障。
如果上线时间比较短还好,遇到更新比较大的情况下,程序员奋战到大半夜,这个情况下人是很疲惫的,更容易忙中出错。
3.无人值守导致修复变慢比如死循环和内存泄漏,是需要经过一段时间才能表现出来的。白天有人实时监控,自然出现故障的几率比较小,就算出现故障了,也能很快修复,让用户无法觉察。
4.凌晨是黑客作案高峰期夜黑风高,杀人越货。这个时间点是正常人休息时间,而黑客则选择在这个时候活动,不论是安全攻击,或者是DDOS,都可能造成服务器故障。
阿里云服务器今天出现宕机,对企业有什么影响,您怎么看?
是的,阿里云又宕机了,这几年阿里云基本上每年都要带大家玩一下心跳,阿里云宕机是正常的,笔记服务器最终还是硬件设备,但对于企业来说损失却是巨大的,不是说阿里云承诺补贴就能挽回的。
这次事件发生至少证明了一个道理,有钱还是要异地多活、还是要自建服务器、还是要多重备份、还要养一堆靠谱的运维人员。当然这次事件也不完全是一件坏事,至少又让一部分人意识到灾备的重要性。
服务器宕机损失是不可逆转的对于创业公司、或者说一个企业需要上线新的项目,不管是App还是,尤其是刚刚上线的时候,尤其是你好不容易网站被Google等搜索引擎收录了,突然服务器就宕机了,最终损失是巨大的,用户不来了、搜索引擎降级了,这种打击是毁灭性的。
目前所有公有云厂商对单一可用区产品的可用性保障是99%到99.95%,达不到99.99%更达不到100%,这不仅仅是阿里云,几乎国内所有的云服务厂商华为云、腾讯云等都差不多是这个数据。
2015年阿里云大规模宕机、2016年阿里云大规模宕机、2018年阿里云几乎全线崩溃、2019年1月、3月两次阿里云故障、阿里云疑似造成企业源代码泄漏......这些年阿里云的故障就没断过,并且随着阿里云规模的增加,还有更加严重的趋势。
混合云、去中性化可能是未来最佳方案对于初创企业来说,公有云还是最具性价比的解决方案,不过企业到了一定的发展规模,还是强烈建议应该采取更加健全的解决方案,混合云可能是未来最为靠谱的方案,纯公有云、纯私有云都是不太安全的解决方案。
有实力的企业应该尽可能自建服务器,如果要减少成本依然要使用一定比例的公有云服务器,毕竟公有云减少了大量的运维、服务器成本,我建议自建服务器应该用在刀刃上,核心数据、核心业务逻辑放在自己的内网服务器上,前端模块等往公有云服务器上放,这样的话可以最大限度的实现分离。
此外还要跨区部署、尽可能的实现异地多活、分布式的设计方案,这样可以最大限度的降低风险,毕竟鸡蛋放在不同的篮子还是要安全很多。
最后一点是,很多企业觉得为什么百度、淘宝、微信这样的服务器这么能扛,都经受了极端情况的考验,但是要注意的是,这些互联网巨头企业在IT运维、弹性资源等方面的人力投入几乎是不计成本的,而这些事实大多数人都忽略了。
服务器宕机其实也是给企业敲响了警钟,公有云不是万能的,阿里云也没有大家想象中或者吹嘘中那么强大,每年双十一阿里的服务器其实都没能扛住峰值那会儿。
出现了问题时而实习生经验不足、时而一行代码问题、时而人为操作的问题......阿里云在技术策略、管理策略其实都还是有很大问题的,这次春晚百度一战成名,扛住了春晚流量洪峰,让我们不得不重新去挖掘技术的本质,底层架构始终是基础,很显然阿里云现在做得还不够好。
文章为字节跳动作者Emacservimer悟空问答原创专稿,未经允许转载、抄袭必究!