AWS 数据中心再出断电事故,丢失数据超过1TB

2019-09-09    来源:天下数据IDC资讯

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

美国劳动节(9月第一个星期一)周末,亚马逊网络服务中心的一个数据中心发生断电,导致部分客户数据丢失。

我们被告知,当电源耗尽,备份生成器随后出现故障时,一些虚拟服务器实例就会消失,而一些云承载的卷就会被销毁,必须从备份中恢复(在可能的情况下)。

今天一位注册读者向我们透露,周六上午,亚马逊的云业务开始在其us - east -1地区遭遇崩溃。

我们的情报人员告诉我们,他们在Amazon的云托管Elastic Block Store(EBS)中有超过1TB的数据,这些数据在宕机期间消失了:他们被告知“与您的EBS卷相关的底层硬件发生了故障,与卷相关的数据不可恢复。”

我们的读者要求保持匿名,他能够手动从大约8小时前方便地拍摄的EBS快照中恢复数据。没有这个备份,他们可能无法恢复任何丢失的信息:亚马逊的工程师们能够恢复绝大多数被击落的系统,尽管不是所有的存储容量都能在这次硬着陆中幸存下来。

AWS工作人员告诉那些不幸的客户,尽管他们试图恢复丢失的比特和字节,但有些1和0被永久打乱了:“少量的卷是驻留在硬件损失的不利影响的力量。但是,由于power事件造成的损坏,这些卷的底层EBS服务器还没有恢复。

“在进一步尝试恢复这些卷之后,它们被确定为不可恢复的。”

与此同时,一个客户和技术顾问Andy Hunt,不仅在推特上抱怨说,他们的数据在断电时被破坏,但还声称失败的原因并不是迅速传达到用户:“AWS电源故障,备用发电机失败,造成他们死亡EBS服务器,它带着我们所有的数据。然后他们花了四天的时间才弄明白并告诉我们。

“提醒:云只是莱斯顿的一台电源不好的计算机。”

记者无法联系到AWS发言人置评。

“受损”

虽然AWS的状态页面上公布了一些停机时间的细节,但El Reg看到了一系列更详细的通知,这些通知向客户解释了这个错误。

就在 11:00 PDT之前,AWS指出,“在US-East-1地区的六个可用区域之一的十个数据中心中,有一个出现了公用电力故障。备用发电机立即启动,但由于我们仍在调查的原因,在 06:00 PDT左右开始迅速失灵。”

“这导致该可用性区域中7.5%的实例在 06:10 PDT之前失败,”报告继续说道。“在过去几个小时内,我们已经恢复了大多数实例,但在可用性区域内仍有1.5%的实例有待恢复。EBS也存在类似的影响,我们将继续恢复EBS中的卷。在该区域启动新实例将继续正常工作。”

大约几小时后,在太平洋标准时间13:30分,AWS澄清并扩展了它的说明如下:

在 04:33 PDT,位于US-East-1地区六个可用区域之一的十个数据中心之一出现了公用电力故障。我们的备用发电机立即启动,但在06:00 PDT左右开始失灵。这影响了可用性区域中7.5%的EC2实例和EBS卷。

在PDT为 07:45 时,受影响的数据中心已完全恢复供电。到 10:45 PDT时,除1%以外的所有实例都恢复了,到 12:30 PDT时,只有0.5%的实例仍然受损。自影响开始以来,我们一直在努力恢复剩余的实例和卷。少量剩余的实例和卷托管在硬件上,这些硬件受到断电的不利影响。我们将继续努力恢复所有受影响的实例和卷,并将通过个人健康仪表板与其余受影响的客户进行通信。为了立即恢复,我们建议尽可能替换任何剩余的受影响的实例和卷。

因此,根据Amazon的说法,实际上,在美国西海岸时间周六凌晨,AWS数据中心断电,一个半小时后,备份生成器发生故障,在可用性区域内,每10台EC2虚拟机和EBS卷中只有1台宕机。

几个小时后,99.5%的受影响系统已经恢复,而在那些仍然“受损”的系统中,有些是不可恢复的,这迫使订阅者取出备份——假设他们保留了备份。

延伸阅读:

  • 因服务器过热,AWS日本区一小部分EC2停机
  • AWS在中国不再低调,迎接云计算竞争
  • 亚马逊最赚钱的AWS业务,是谁说了算?

标签: AWS数据中心 数据中心断电

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:UPS电源无法启动时该如何处理?

下一篇:黄业晶:工信部将通过三方面努力加快数据中心