宕机事件:昨天微软Azure出现全球性宕机事件吗?

北京时间5月3日凌晨3点43分开始,微软的Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复宕机事件。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。

宕机事件:昨天微软Azure出现全球性宕机事件吗?

现在微软官方发布声明,表示本次出现全球性宕机问题是由于“名称服务器授权”问题所导致的宕机事件。微软解释道:“工程师确认是由于影响DNS解析的名称服务器授权调整影响底层root,并影响下游对计算,存储,应用服务,AAD和SQL数据库服务。在将旧DNS系统迁移到Azure DNS期间,Microsoft服务的某些域未正确更新。在此事件期间,没有客户DNS记录受到影响,并且整个事件期间Azure DNS的可用性保持在100%。该问题仅影响Microsoft服务的记录。”

根据公司的声明宕机事件,尽管工程师在几个小时内确定并解决了该问题,但是一些访问具有错误配置的域的系统存储了该信息,从而导致更长的恢复时间,直到错误的缓存过期。也就是说,微软仍在调查这个问题,并承诺将在72小时内发布详细的根本原因分析(RCA)。

这不是Azure第一次受到全球中断的打击; 2016年,全球DNS中断影响了许多基于Azure的服务,包括SQL数据库,应用服务/ Web应用,API管理,服务总线,HDInsight,媒体服务和Visual Studio团队服务。今年早些时候,由于类似的中断,许多Office 365用户无法访问其邮箱。

为什么服务器的宕机一般都发生在凌晨使用率最低的时候?

来自16年经验老程序员的靠谱回答。

主要有以下几个原因

1.凌晨时服务器很忙首先,确实服务器的宕机一般都发生在凌晨使用率最低的时候,但是这个使用率只是针对用户而言的。

实际上,在凌晨的时候,服务器是很忙的。主要忙哪些事情呢?主要是一些定时任务,还有数据库备份等。很多比较耗时的操作比如报表统计都会安排在半夜,以免半天影响正常业务,所以这个时候,服务器都是在高负荷运转的,容易产生事故。

2.一般晚上的时候会上线新功能同理,发布新代码或者更改功能,也会选择在晚上的业务低峰期。无论前期的测试工作做的多么到位,也难免会隐藏一些bug,到了凌晨,这些bug(比如死循环)已经跑了一段时间了,在无人值守的情况下就可能触发各种故障。

如果上线时间比较短还好,遇到更新比较大的情况下,程序员奋战到大半夜,这个情况下人是很疲惫的,更容易忙中出错。

3.无人值守导致修复变慢比如死循环和内存泄漏,是需要经过一段时间才能表现出来的。白天有人实时监控,自然出现故障的几率比较小,就算出现故障了,也能很快修复,让用户无法觉察。

4.凌晨是黑客作案高峰期夜黑风高,杀人越货。这个时间点是正常人休息时间,而黑客则选择在这个时候活动,不论是安全攻击,或者是DDOS,都可能造成服务器故障。