范承工:当云计算遇到海量数据

2019-03-01    来源:多智时代

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

2011年5月19日,第三届中国云计算大会在北京国家会议中隆重开幕,EMC全球高级副总裁范承工先生参会并进行演讲。

EMC全球高级副总裁兼中国卓越研发集团主席 范承工

以下是演讲实录:

各位朋友下午好,我叫范承工,来自EMC公司,今天下午跟我们讲一讲云海缘。我记得在小学的时候,有了和武侠小说的第一次接触,那时候看的是一本连环画,叫《云海玉弓缘》,当时我觉得文绉绉的,不知道什么意思,现在才知道讲的是当云计算遇到海量存储,所以这就是叫云海缘。今天跟大家分享一下,当云计算看到海量存储有什么样的机会可以产生。

今天是我第三次参加云计算大会。记得在第一次的时候,那时候云还是一个比较新鲜的概念,大家还说是不是流行的词语,过了12个月、24个月就会消失了。我们现在知道,随着这三年的过去,云不仅没有消失,而且更无可争议的成为现在一个浪潮,这张图表大家也见过很多次了,我们的计算技术,从当初的主体机到小型机,到PC,到互联网分布式计算,到现在云计算,是一个浪潮接着一个浪潮,长江后浪推前浪。现在很清楚,无论是对于个人,对于小公司,甚至对于大公司,云计算都是一个不可忽略的浪潮。为什么会这样呢,在过去的10年里有很多类似概念出现,都没有这次这样深入人心,而且逐步越来越大。我觉得有两个原因,第一个原因是IT的原因。

第一条路是叫做IT之路。大家看左边的图,随着IT的发展,无论是数据的增长还是计算能力需求的增长,还是用户需求的变化,使得IT用已有的架构已经不能满足在将来几客户的需求。

第二条路呢,是人的需要,尤其是新生代的需要。大家知道每20年到30年就有一代新的人群会产生,而这一个人群和下一个人群之间也有代沟,在过去的二三十年是PC的时代,包括在座的大多数对PC非常熟悉。而现在,我们知道已经进入了一个Post-PC,后PC时代。所以现在大家手中各种各样的智能手机或者平板机越来越多,而PC会在将来的10年中渐渐地淡出主流计算。随着这两个不同的变化,使得一个新生的计算模式的产生,有了它的土壤。

再讲一下这个IT预算的困境。大家知道每年公司都要花很多的钱在IT上,这些钱做什么呢?根据调查显示,73%的IT预算都只是用于使得已有的这些设备能够运行,而真正用于对商业起到决定性作用的开支只占四分之一。对于企业来说,更希望IT是一个致胜的法宝,而不希望只能使灯能够继续开亮,所以这就是一个预算上的困境。一方面他还希望继续花钱,但又看不到钱得到回报,而只是越来越臃肿,IT环境就是这样的。在下一个十年,这个趋势没有质的改变,还会继续。根据下十年的展望,从2010年到2020年,服务器的数量会增长10倍,增长1000%.而IT人员的增长,根据预估,在将来的10年里,只会增长不到50%.

怎么样能够使得这两个非常不均衡的增长趋势同时实现?必须要有新的架构,于是我们来到了云时代,而现在更加准确地是我们来到了混合云时代。

什么叫混合云?第一,混合云包括私有云,在过去一年中发生了非常大的发展,非常大的变化。在最近做的调查里面,有35%的CIO说他们在他们的公司里已经在2010年,已经开始在部署这个私有云;而除了这35%之外,另外有30%的CIO说他们预计在2011年,也就是今年,也会部署私有云。所以加起来有将近三分之二的公司已经开始了私有云的部署工作,和过去24个月之前已经有了非常大的质的变化,私有云在广大的公司中正在发生。

而除了私有云之外,公共云更是蓬勃的发展。大家在上午的演讲中听到了很多在公共云中的领先者的演讲。在过去的12个月中有更多的公共云的服务商,包括电信服务商,包括外包服务商,包括一些非常专业的对于某些行业的提供公共云服务的服务商,都逐渐涌现出来,公共云的服务商的选择也会更多、也会更好,而有很多也是更加瞄准企业对于公共云的需求,使得企业能够更有利地用到公共云上。所以现在对于企业来说,它有两种选择,他可以在自己的防火墙之后造他的私有云,也可以去用那些专门满足需求的公共云的服务。这两者结合就会成了一个新的基础架构,就是我们所谓的混合云。

再来仔细看一下IT面临的挑战,包括我们刚才提到有新一代的用户,比如现在的微博用户群或者Facebook用户群对IT带来的挑战。而在IT里面的一些应用程序,这些程序必须要进行维护,否则你的定单无法处理,工资发不下去,有些已经有处理,必须进行维护,而很多已有的程序,是建在已有的架构上,现在由于云的产生,使得你有了新的基础架构,在新的基础架构上,你要开发新的应用程序。可是,很多应用程序现在已经是20年、30年了,有些应用程序都是用COBOL语言写的。现在很多公司如果要找COBOL程序员,会非常难找,有些程序已经到达了它的自然寿命,已经需要新一代的应用程序需要显示出来,能够满足新一代人群的需要。同时有很多公共云提供的软件及服务SaaS的应用程序,这个应用程序一般来说CIO都是不欢迎的,因为它使CIO的控制权失去了,无论是对数据还是对应用程序的控制,都变成不是由CIO控制了,而是外面的SaaS等等,都到他们那儿去了,很多时候并不是CIO或者说CEO能够掌控。我现在在EMC工作,听到一个企业的故事,它的CIO做了一下调查,现在企业IT环境里有多少SaaS应用程序在运行,就查了一下,居然有17个,而这17个没有一个是CIO批准的,没有一个是CEO批准的,就说明SaaS无孔不入,基本上你想堵很难堵得住。很多企业机关作为CIO并不是希望这些应用程序发生,但它实际上进入到各个小组里头去了。而同时在过去的20年中,CIO刚刚掌握怎么样管理PC,管理几千几万、几十万个在员工手里的PC,能够统一地杀毒,统一更新软件。但是,在他们做到这些之前,他们的员工手里很多时候已经不是PC,而是iPad,或者是其他的智能设备了,这些也不是他们能够堵得住的,很少有公司能够拒绝iPad进入公司网络。

怎么样能够接受这些挑战?一方面是这些新的完全不受掌控的终端设备的出现,在我们的企业网里,一个是我们的应用程序需要更新。我又要能够管理我的员工,既用了自己提供的程序,又用这些云服务商提供的这些SaaS软件服务的程序,而同时我又需要管理我的基础设施,一部分基础设施是在防火墙后头在我的数据中心里的,一部分基础设施是在公共云里的,所以这就是非常严重的挑战,需要一个新的设备、新的架构来完成。所以,我们认为需要把过去的IT,从硬件到软件,从操作系统到数据库,到应用程序,而用新的云的层次的运算环境来取代。而简单分析云的运算环境,我们把它分为三层,最底下一层是基础设施层,中间一层是应用程序的平台,而最上一层是终端用户管理不平衡。

所以这三层架构,就是我刚才说的把过去老的几层架构,怎么样把它非常稳妥地转移到新的云的架构中去。下面我仔细里看一下每一层架构到底有什么东西。第一层是基础架构的管理,在这层架构里我们认为有几个非常关键的组件,第一个就是虚拟化,就是刚才张院士说的,要实现云比较关键的内容就是使得硬件和软件变成互相独立,同时使运算能力跟存储能力,甚至是运算内存与存储都相互独立,可以各自平行扩展,而存储技术就是达到这个关键的技术。存储技术本身不是云的技术,但是很少有云能够在没有存储技术的情况下能够实现。

第二个,在传统的基础上怎么能够达到自动化管理。在云的架构里,一般需要几百几千几万台的服务器,有很多TB数量的存储,非常多T的内存,这么多的硬件,怎么样能够使它进行逻辑化的管理。看起来就像一台电脑一样,怎么样把整个云的架构像一个新时代的以软件架构起来的新的大型机,这就是云的自动化的重要工作。

第三点,也是最重要一点,怎么样能够保证新的架构下,安全性能够得到保证。这也是使得这些大型企业,这些CIO们能够接受云的一个非常比较条件。而在存储云的基础架构里,整个安全的是一个崭新的挑战,还有很多新的难题需要解决,只有这些问题解决了,才能使得云的基础架构在企业级的环境里得到完全转型。这是三个在第一层管理架构中,我们认为最重要的组件。

这是一个使得云计算能够产生的催化剂。去年是30%的数据中心的所有的服务器被虚拟化了,今年是40%,而且市场上预估,继续会以每年10%的速度上升,所以如果这个速度不变的话,在将来的五年里,绝大多数的服务器都虚拟化,所以底下一层虚拟化就已经完成了。

我们再看一下第二层,云的应用平台,怎么样有一个新的应用程序的开发与部署的环境,使得在云的基础平台上,它的感觉就像我们以前在PC机上开发程序、运行程序一样简单?大家知道我们以前或者现在如果在PC上要开发一个程序,我们首先有一个开发环境,可以在这儿写程序,可以调试程序,把它打成一个包,如果用户把这个程序放到他的PC上,会有一个RPM,有个应用的安装非常简单,运行一下,它就能够自动把程序帮到你的PC里了,把硬盘也管理好了,你什么时候要用这个程序,只要双击图标就运行了。而在云里头很大程度上没有达到这一点,怎么样在云里很简单地编写、调试、安装以及运行程序,都只要一个双击就能进行了,这是现在非常关键的。这是使云能够在广大的应用程序开发中,能够星火燎原的最重要的必需步骤。而我们认为这里现在有很多机会、很多工作可以做,怎么样做一个新的在云中应用程序的开发与运行环境,我们也认为有几个非常重要的组建,第一个组建,这些新的程序开发环境,可能我在那时候,我已经好几年没编程了,我那时候编程在Window系统里,现在在云里头很难用Visual Studio来编程了。

现在有很多新的基于云的开发技术和环境产生,包括针对Java,包括我们的Ruby on Rails,以及现在的Node.js,无论是新的语言,为这些语言相配置的环境都在产生。而这些实际上是有颠覆性的趋势,这是新的云计算平台的重要组成部分。就是新的开源的程序开发以及运行环境。第二个就是现在大家谈论很多的平台及服务,这些就使得大家能够在开发程序完之后,很容易把这个程序在云里头能够安装、能够运行,你不需要知道这个云里头到底基础设施是怎么样的,很多程序员他没有兴趣知道到底你的服务器在哪里,你的存储器在哪里,你的网络的构成是怎么样的,他只需要知道他这个程序有这些需求,你这个基础设施能不能满足他这些需求,他能不能很简单地把程序在这个基础设施上运行。而且他的程序一开始运行的时候,可能规模很小,我可能刚写出一个新的在新浪微博上的应用程序,一开始可能只有很少的用户。但也许突然就引起了大家的,一天之内就有10倍、100倍的增长,我需要很容易通过我的PaaS,能够使它从一台数据库变成1000节点数据库,变成数十万节点的数据库,使它由一台的软件变成一千台节点上的软件,而PaaS就能起到这方面的作用。

第三点就是新的数据的架构,在过去几年中有很多新的数据概念产生,我们认为现在我们处于非常关键的节点,从一个数据库能够满足你所有的需求,我无论编什么程序,我只要买个甲骨文的数据库就行了,把我的所有数据,我的照片、我的各种各样数据都往我的数据库里放。现在不是这样了,现在有越来越多的不同的数据存储模式产生,从结构化的数据、半结构化的数据到结构化的数据产生。各种各样的数据都在产生,我们认为对云时代的应用程序,很多时候一个应用程序需要的数据就是多种多样的,它可能继续需要传统的数据库,他同时可能需要一个Blog这样一个放大的非结构化数据的东西,同时它可能需要一个半结构化的东西,它需要这些东西同时为他一个应用程序服务。怎样能够在云的计算平台里提供数据存储,而不是简单的数据库,能够为这些应用程序服务,成为一个新的机会,新的机遇,新的挑战。

所以有这三个重要的变化,使得有一个非常激动人心的时代,从现在开始到将来的三年里,在这个计算平台上,我相信我们会看到很多新鲜的革命性的东西会在我们的业界产生。

简单讲一下第二层云应用平台,VMware公司在这里面有很多的投入,它纳入了Spring公司带来的从数据到中间件的产品,同时VMware在一个月前宣布了开放式的PaaS,它是一个开源的PaaS,它可以让VMware自己的或者我们所有的合作伙伴以及在座的每一位都可以下载这个软件,可以你自己搭建起最合适的PAAS,为企业内部提供服务,或者是你可以做一个服务商进行服务。

再讲一下第三层,云的终端用户,终端用户里有几个重要的改变,第一个改变就是刚才提到的,每一个用户的终端的设备已经很不一样了。另一个就是我们现在的人群,是所谓的社会软件培养起来的一群人群,而以后会越来越是这样,怎么样你的应用程序能够更满足这样人群的需要,我们不能够以DVS,从DVS你很难控制你的员工了,你必须通过应用程序能够对你的环境有一个很好的掌控。这里面有很多非常好的项目,其中包括我们的VMware是我们的桌面虚拟化软件,以及两个现在看起来是还是机密的项目,为移动平台,以及……为我们通过应用程序管控应用程序的平台,在将来会有更多的新闻让大家知道。

刚才讲的云很大,但有没有什么东西比云更大呢?这就是我们的大数据和我们的海量数据。2010年的数字世界,就是我们全世界一共有多少数据,多少零和一的数据,有1.2的ZETTABYTES.在2020年这个数据会增长到35个,而且没有终点可以看到,所以数据爆炸会继续进行。企业的调查,在将来的10年会上升50倍。所以海量数据会改变我们的世界。刚才提到的,在数据里,种类也越来越多,有结构化数据、非结构化数据、半结构化数据,必须把数据管控好,才能够完成我们从现在传统的数据中心往云的改变。怎么样能够更好地支持海量数据,第一我们需要海量存储,从往上扩展的结构变成一个往外扩展的结构。EMC在过去两年,在海量存储上有了非常大的动作。在过去几个月我们收购的Isilon公司,它的软件系统无论从FormisIO(?)的软件上来说比第二个要高10倍的速度,从容量上来说,单个文件系统能够达到15P,比起第二名也要大很多。

所以这个海量数据需要海量存储。第二呢,除了存储之外,你必存储上要知道这些数据到底在说什么,所以海量数据也需要海量数据的分析,我们需要从传统的数据库转到一个成为数据云的架构,使它能够非常可扩展性,非常快速产生快速消失的这么一个特征,能完成对海量数据上的数据分析,这是我们在过去一年中另外一个收购Greenplum,它提供了业界最可扩展的MPP,对结构化数据的分析,还有超大规模的可购买性,以及业界最快的数据载入,它比第二名数据载入要快5倍。

同时在上个星期,在EMC大会上,我们宣布了EMC也会拥抱我们的开源软件,同时我们会提供一个,由EMC来提供支持,可以使得我们的大型企业能够更快地完成对非结构化数据的分析。同时我们在上个星期开展了全球第一届数据科学家的高峰会,他们能够在数据上得到以前没有得到的智慧,能够想出更新更好的办法,所以越来越多的数据,越来越多不同的来源,从数据变成智慧。所以我们看到现在这个应用程序,我觉得如果看它的计算与存储特征,逐渐会有两种不同的应用程序:一种应用程序是以数据为中心,另外一种是以计算为中心。在过去的数据中心中,那边,左边是计算机,里面是英特尔的CPU,右边是存储器,里面是硬盘或者动画或者是数据,中间是网络,在传统架构中,你在这里做计算,那里有数据,你在计算的时候把数据移到CPU这边来计算完再送回去。而在海量数据时代,网络会成为数据的凭据。因为应用的特征,可能以后这两边不会分别的明显,各类数据会直接地到服务器中,同时在存储器中有更强大的计算能力,以计算为主流的应用程序可能在服务器上直接进行,不需要外接存储,同时我们认为更多的应用程序可能是以数据为中心的应用程序,而这些程序可能会直接在存储器上进行运行,不需要把数据通过网络再到服务器上,而运行这样的程序也许不需要服务器,所以将来的数据中心随着不同的数据,可能有不同的架构来满足这些应用程序的需求。

总结一下,在云计算和海量存储的交汇处,我认为在未来的5年至10年,是IT的机会之所在,机缘之所在,这也是我们EMC的主要点,在过去八年中为这个机会的到来做了很多的准备。我们同时进行内容的开发,同时进行外部的收购,总共花了250亿美元做内部的开发和外部的收购。所以我们希望能够和在座的朋友一起在云海的交际之处能够掌握这个机会,能够驾驭在云海之上,谢谢大家。

标签: 安全 大数据 防火墙 服务器 服务商 互联网 数据分析 数据库 网络 移动平台 云服务 云计算 云计算平台 中国云计算 转型

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:谨防云中断,数据中心冗余如何设计?

下一篇:解析:SaaS从1.0到2.0用技术平台的要求