华为云服务器宕机:如何看待华为云4月10日出现部分服务异常?

感谢邀请!这个事情的原因可能是因为华为云北京的机房发生了故障,所以导致华为云部分用户登录异常华为云服务器宕机

华为云服务器宕机:如何看待华为云4月10日出现部分服务异常?

华为云服务器宕机:如何看待华为云4月10日出现部分服务异常?

整个事件的过程如下华为云服务器宕机:

华为云服务器宕机:如何看待华为云4月10日出现部分服务异常?

华为云服务器宕机:如何看待华为云4月10日出现部分服务异常?

4月10日上午9半左右,华为云无法运转,一大批网友在微博上反馈到,华为云出现了宕机现象,用户大面积登录异常华为云服务器宕机、后台已经无法正常访问等情况。事情发生后两个小时,华为云官方微博对外界做出回应,因为检测到华为云部分主机出现异常情况,目前故障已经得到基本的修复,部分客户的业务也在配合着修复当中。

这个事件,我认为应该是华为云北京区域(Region)的某个可用区域(AZ)出了问题,这个问题可能是这个AZ内的出现了异常。

首先解释一下在公有云中,什么叫Region,什么叫AZ。Region实际上可以理解为按地域划分的的区域,比如北京Region、上海的Region、杭州的Region等等。而AZ是Region内的可用的区域,可以理解为本市的不同地方的数据中心。

相同的Region内的不同AZ物理资源完全隔离,这个物理资源包括水、电等基础设置。相同Region内的不同AZ,采用传输直连,以保证低时延。

从公有云的可靠性讲,如果公司数据很重要,一般会选择数据备份在不同的Region,也就是异地灾备,如果数据比较重要,也可以选择备份在相同的区域不同的AZ,也就是同城灾备。但是如果不选择备份的话,那么一个AZ出现问题,公司业务就全挂了。

华为云这次出现的问题,八成是这个情况。北京的某个AZ出现问题,可能是供电异常、遭到攻击、网络设备异常,最终导致没有选择备份业务的公司数据全断。

公有云出问题屡见不鲜,所以数据备份非常重要,建议至少选择同城灾备,重要业务选择异地灾备,这样一旦某个AZ出现问题,公司业务依然可用。