宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

本周日宕机事件,谷歌在全球范围内遭遇了大规模中断,包括Gmail、YouTube和Google Drive在内基于谷歌云架构服务的诸多谷歌服务均受到影响。本次宕机于北京时间6月3日凌晨2点58分开始,用户访问谷歌服务出现各种错误提醒,并且阻止用户访问电子邮件、上传YouTube视频等等。

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

宕机时候YouTube上出现的错误界面

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

根据谷歌官方状态页面显示,包括Gmail, Calendar, Drive, Docs, Sheets, Slides, Hangouts, Meet, Chat和Voice在内的谷歌服务均无法使用宕机事件。那些依赖于谷歌云架构的第三方服务同时也受到影响,目前谷歌官方并没有完全恢复的预估时间,也没有公布关于本次宕机事件的根本原因。

苹果的iCloud服务也受到轻微影响宕机事件,苹果报告称有不到1%的用户出现了响应时间低于正常值的情况。AppleInsider也进行了测试,但是并没有出现任何中断或者卡顿的情况。

凌晨4点45分:谷歌报告称,由于网络比较拥挤“用户可能会看到性能下降或者间歇性错误”。谷歌表示已经确认了造成拥堵的根本原因,预计很快会恢复正常。

凌晨6点:在简讯中,谷歌承认这些问题, 并表示工程团队已经完成缓解工作的第一阶段,目前正在实施第二阶段,应该会尽快修复正常。

如何来预防服务器宕机的发生?

从题主所问的问题来看楼主应该是IT运维人员或者软件开发人员吧。据小编多年的IT领域工作经历来看,主要可以从如下四个方面来预防服务器宕机:

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

1、选择合适的服务器进行使用,也就是我们经常说的,以需求和业务为主。比如服务器上层所运行的应用就决定了底层该使用那种服务器硬件设备,不匹配搭配,会给硬件带来加速损耗进而出现宕机故障,比如在高性能计算(Deep learning,深度学习)场景下选用低档次服务器,进而出现小马拉大车。

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

2、为服务器提供合适的机房环境,众所周知,服务器在运行的时候会产生大量热量,机房温度和干湿度等如果不控制在合适水平,会大大降低服务器的使用寿命,增加宕机风险。

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

3、针对服务器硬件做完善的硬件监控和日常巡检,做到有日常小故障的时候及时维修和更换,避免大的宕机事故出现。

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

4、当然,未来主流还是以云计算为主(IaaS服务),使用云主机服务时使用者不需要关注所使用的具体物理机,具体的高可用由云计算底层集群架构来保证,完善的故障热迁移,也就是基本上根除了宕机问题。

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?

当然除了这四个方面,还有很多其他措施,就不在此一一列举了。

宕机事件:近日谷歌服务出现大规模宕机,怎么回事?