从香港宕机事件看如何选择云服务器

2015-07-02    来源:

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

接踵而来的宕机事件对于云服务提供商和他们的用户来说,2015年的夏天就像当前的股市一样,显得极不寻常和让人心惊肉跳。


在经历了接踵而来的陌陌、网易、支付宝、携程网、艺龙网、招商证券、同花顺、齐鲁证券网络故障之后,2015年的5月被不少圈内人士揶揄为“黑色五月”。然而在“黑色五月”过去之后,宕机事件却并没有就此平息。


2015年6月6日下午,青云的服务商睿江科技机房因雷暴天气引发电力故障,导致青云广东1区全部硬件设备意外关机重启,青云官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。


2015年6月21日,阿里云香港节点出现全线宕机,业务中断超过12小时,甚至有部分用户数据出现损毁,在业界引发轰然大波。


阿里云事故发生伊始,坊间就传出了令人眼花缭乱的各种解释,包括光纤挖断、电力故障、消防警报等等,不一而足,让一起机房宕机事故演变成了一出“罗生门”。


6月21日晚,阿里云发布公告称,本次故障因香港运营商IDC电力问题所致,阿里云已责成香港运营商尽快完成机房整改措施,规避此类问题的再次发生。


阿里云的香港数据中心服务商名气通则声称,其香港二号数据中心于2015年6月21日上午9点40分因电力故障导致部分客户服务中断。名气通第一时间启动应急方案进行紧急抢修,下午2点恢复部分客户服务,晚上9点50分完全恢复电力供应,客户服务全部恢复正常。


对于这起宕机事故,业内人士普遍表示“难以置信”。因为对于中断1分钟都可能让客户难以忍受的云服务来说,这类故障通常在几分钟之内就能解决,12个小时显然有些不可思议了。


但是,阿里云还不是最惨的。有用户反映,其租用的恒创主机在本次事故中瘫痪超过24小时。对此,我们也许只能用“没有最惨,只有更惨”来形容了。


为什么香港倍受青睐6月21日的宕机事故,将香港数据中心一下子推到了风口浪尖。那么问题就来了:为什么香港经常有台风等自然灾害,但还是有越来越多的企业选择香港数据中心?


总结归纳一番,其原因不外乎以下几点:


一、香港的国际金融中心地位。这一点自然不用多说,只要是想要开拓金融行业客户的云服务商,自然都不会放弃香港。而另一方面,金融行业对计算能力、稳定性及数据安全的要求是所有行业中最为严苛的,因此只要能够搞定这些金融客户,对于云服务商本身也是一个很好的正面宣传。


二、香港的黄金地理位置。作为“东方之珠”的香港,在地理位置方面也有着得天独厚的优势。香港是亚太地区海底光缆集中交汇地区,基础设施完善,通讯覆盖全面,并建有多个世界级的数据中心,可满足国际化用户的需求。这也使得香港除了国际金融中心之外,还俨然有成为亚洲数据中心枢纽之势。


三、香港政府的大力支持。对于数据中心建设,香港政府一直都是鼎力支持,不但在选址、价格等各方面都有各种优惠政策,而且还为很多机房提供了免费的制冷供电。


四、企业的海外业务需求。近年来,包括消费电子、游戏开发、电子商务等众多领域的中国企业,都对拓展海外市场业务有着旺盛的需求,因此将香港作为走出国门的第一站,实在是再合适不过了。


五、减少麻烦和规避风险。除了以上原因之外,还有一点是许多企业通常都不太愿意提及的,那就是可以绕过内地的数据备案制度。


正是因为有着诸多的优势,再加上如今“大众创业、万众创新”的主旋律,所以即使是在发生宕机事件之后,香港数据中心未来还是会有大批创业公司和想要拓展海外市场的企业不断涌入。



宕机事件暴露的问题


长久以来,香港数据中心在云服务商和广大企业用户心目中的形象都非常靠谱。但是这一次的宕机事件,却暴露出了相当严重的问题。


按照阿里云的官方公告,本次故障因香港运营商IDC电力问题所致。但是为了保证数据中心7×24小时的不间断运转,像阿里云这样规模的云服务,名气通应该为其配备两个独立的变电站或者一个变电站二个独立仓位出来的供电线路,也就是双路供电。这样即使其中一条线路出现电力故障,数据中心也可以瞬间切换到另一条供电线路,用户根本察觉不到影响。


就算是遇到了不可预料的重大自然灾害,两条供电线路都被切断,那么也用不着惊慌,因为数据中心可以通过备用的柴油发电机为机房供电。


如果“屋漏偏逢连夜雨”,连柴油发电机也出现了故障……好吧,那就只有靠最后一招――UPS了。不过考虑到大型数据中心不断攀升的功耗,这可撑不了多久。


正是因为有着完备的防范措施,所以在正常情况下像电力故障这类问题,数据中心通常只需要几分钟就可以解决,这也是业内人士对阿里云香港机房断电12小时普遍感到“难以置信”的原因。因此有资深人士推测,在宕机事故的背后可能还有更深层次的因素,譬如出现了难以维修的控电设备故障、备用柴油发电机故障、阿里云与名气通之间的协调沟通不畅导致工作效率较低、修复进度受阻等等。


关于数据中心应该自建还是外包这个问题,业界一直众说纷纭,莫衷一是。就在上个月,针对Zynga先租用亚马逊云服务、再自建数据中心、而后又关闭数据中心重新使用亚马逊一事,我还写了一篇《两小儿辩云:数据中心该自建还是外包?》做了一番调侃。目前看来,在香港宕机事件发生之后,关于数据中心是否应该自建这个话题的争论势必还将继续下去。


什么样的云服务才可靠


身处“互联网+”时代,互联网已经像吃饭睡觉一样,成为了许多人生活中不可或缺的一部分。这在对相关云服务提供商提出越来越高要求的同时,其所要承担的风险也在急剧增加。以金融行业为例,如果某银行系统中断1小时,将直接影响其基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。由此我们不难想见,一旦云服务出现故障,用户将会多么抓狂。


正是因为对业务持续性有着极高的要求,业界对数据中心供电提出了“5个9”的可用性标准,即一年之内保持99.999%的时间不断电。换句话来说,也就是数据中心一年之内断电时长不超过5分钟。不过即使是亚马逊AWS这样的巨头,也很难达到这样高的标准。


为了更好地对不同标准的数据中心基础设施进行区分,国际正常运行时间协会(the Uptime Institute,简称UI)将其划分为从T1到T4等四个级别:


一、T1第一级数据中心:基础类型


T1有计算机电力配送和制冷,但不一定配备架空地板、UPS或发电机。即使有UPS或发电机也是单模块系统,具有多处单点故障。为了进行预防性的维护和维修,一般基础设施每年需要完全关闭一次,在紧急情况下甚至可能需要频繁关机。对各部件的操作错误或自然故障,将导致整个数据中心运行中断。T1数据中心的可用性为99.671%。


二、T2第二级数据中心:组件冗余


T2配备架空地板、UPS和发电机,并具有一些冗余组件,因而引发数据中心中断的可能性小于T1数据中心。不过T2的UPS和发电机的设计容量是N+1且为单回路设计,有单点中断可能。对关键电路和其他基础设施进行维护,需要程序式地关闭设备。T2数据中心的可用性为99.741%。


三、T3第三级数据中心:在线维护


T3可以在不引起计算机硬件运行中断的情况下进行所有的计划性现场活动,包括保护性和程序式的维护、维修和元件替换,增加或减少与处理能力相关的部件,对部件和系统进行测试以及更多活动。使用水冷的大型系统需要两个独立通路提供充足的处理能力和配电通路,允许在一条通路承担负载工作的同时,用另一条通路进行维护和测试。不过操作错误或设施部件自然故障等非计划活动,还是会引起数据中心的中断。T3数据中心的可用性为99.982%。


四、T4第四级数据中心:容错系统


T4需要所有的硬件都具备双路供电,其容错能力不但可以保证任何的计划性活动不会引起关键负载的中断,而且还能为基础设施提供至少可以忍受一次的最糟糕情况――非计划性故障或非关键性负载事件的冲击的能力。这需要同时活动的两条配送途径,通常是双系统(S+S)配置,从电力角度来说则需要两个独立的(N+1)UPS系统。不过根据消防和供电安全规范的要求,还是会有因为火灾报警或启动紧急停电程序而导致的停机时间发生。T4数据中心的可用性为99.995%。


目前常见的数据中心基础设施,其等级大多介于T3和T4之间。而选择亚马逊、阿里云、腾讯云这类IaaS(Infrastructure as a Service,基础设施即服务)云服务提供商的企业,则是租用其提供的服务器,然后自行安装配置各种软件环境。其中作为众多同行学习的行业标杆,亚马逊AWS用的是自建数据中心,功能很强但是价格也偏贵;而由于规模原因,阿里云、腾讯云等国内互联网巨头在香港的数据中心则是租用了合作伙伴的,这种非自建的租用模式对合作伙伴的能力和内部协调效率都是一种考验。最近两个月来一连串的宕机事件也说明,大厂商、大品牌并不一定可靠,构建多IDC的同城灾备或异地灾备系统才是王道。不过包括阿里云和腾讯云在内,其在香港都是单一数据中心,尚未构建同城灾备系统。


云服务器租用选西部数码,四重备份,安全稳定:http://www.west.cn/services/CloudHost/


标签: idc 安全 标准 电子商务 服务器 服务器租用 服务商 互联网 互联网巨头 机房 计划 金融 配送 企业 网络 问题 西部数码 香港机房 行业 选择 用户 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:怎么保障云服务器的安全

下一篇:教你购买便宜稳定的云主机