管理海量信息的妙招

2019-02-26    来源:多智时代

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

管理海量的大数据所面临的挑战涉及到存储大型文件、创建一个长期的存档,当然还需要让这些数据能够被访问。

Winter咨询服务公司分析师Richard Winter称,尽管数据管理是公司IT部门的一个关键职能,但是目前让人抓狂的情况已经将市场行为推到了一个新的水平。Winter咨询服务公司一直致力于研究大数据发展趋势。

知名公司和新成立的公司都会定期推出一些新产品。他称,无论是Hadoop、MapReduce、NoSQL,还是数据仓库工具、文件系统、新架构,数据分析领域正在蓬勃发展。

Winter称:“我们已经让产品的重点转向了移动、复制和联机分析数据。随着厂商致力于解决来自社交网络、传感器、医疗设备及其它数据源的海量数据,可扩展架构开始被普及。”

一些厂商非常清楚在管理真正的大数据中所面临的与生俱来的挑战。在Amazon.com、尼尔森、马自达和美国国会图书馆,这一任务需要采取一些创新方式以处理数十亿个对象和千兆级存储媒体,以快速检索标记数据和发现错误。

美国国会图书馆每年需要处理2.5拍字节数据,相当于每周要处理40TB数据。国会图书馆企业系统工程组长Thomas Youkel评估认为,随着图书馆继续执行双重指令以为历史学家提供数据服务和保护所有形式的信息,数据负载在今后几年翻两番。

国会图书馆在两个数据中心的600台服务器上配置了15,000至18,000个硬盘以存储信息。大约90%,超过3PB的数据被存储在光纤连接的SAN,剩下的被存储在网络连接的存储设备上。

咨询公司StorageIO的分析师 Greg Schulz称:“国会图书馆有一个很有意思的模式,被存储的信息有一部分是元数据,另一部分是真正的内容。” Schulz称,尽管有大量的机构在使用元数据,但是让国会图书馆与众不同的是他们的数据存储的规模,以及为他们收集的所有东西都贴上标签,包括古老的录音、视频、照片和在其它类型媒体上的文件。

Schulz解释称,对于那些很少被访问的真实内容最理想方式是离线保存在磁带上,同时一些小样或是低分辨率的拷贝保存在硬盘上。元数据可保存在一些不同的存储库中以进行搜索。

为了最大程度的保护数据,国会图书馆使用了两套独立的系统。一套系统是大型的磁带库,拥有6000部磁带驱动器插槽,其使用的是IBM的通用并行文件系统(GPFS)。该文件系统使用的理念与Flickr.com的元标记照片相似,即通过算法对文件进行编码,以让这些数据能够被更容易处理和被更快的检索。

第二套系统拥有9500部磁带驱动器插槽,由甲骨文/ Sun磁带库组成,其在甲骨文SL8550磁带库中使用了Sun快速文件系统(QFS)。

目前,国会图书馆每个数据库拥有大约5亿个对象,不过Youkel预测这一数据将会增长到50亿。为了对这增长做好准备,Youkel的团队已经开始重新考虑命名空间系统。他称:“我们正在能够处理这么多对象的新文件系统。”

Gartner公司存储分析师Gene Ruth称,正确的升级和扩展非常重要。当数据存储增长超过10PB,备份和处理这些文件的时间和成本将迅速攀升。一个方案是:在一个主要的场所设置一个基础设施用于处理主要数据的获取,然后再设置一个辅助性的长期文件存储设施。

勇于尝试云计算服务的电子商务巨头Amazon.com正在快速成为全球最大的数据存储商,为了满足自身的存储需求和客户的存储需求,亚马逊在其云计算上存储了4500亿个对象。亚马逊Web服务的存储服务副总裁Alyssa Henry解释称,这个数量相当于全美每人分配到1500个对象,等于银河系每个星星都可以分配到一个对象。

数据库中的一些对象相当的大——大到每个5TB,大到他们自己都可能成为一个数据库。Henry称,她预测到2016年,单个对象的大小将增长至500TB。

她称,应对这些大型数据的秘密是将这些对象分解成数据块,这一过程被称为平行化。

对于亚马逊S3公有云存储服务,亚马逊使用了他们自己的自定义码将文件分解为每片1000MB的数据块。这是一个通常的做法,但是亚马逊的方法与众不同的地方在于实时对这些文件进行分解。

Henry解释称:“这一永远可用的架构与一些存储系统形成了鲜明的对比,后者将数据在存档和使用状态间移动,这为对数据检索带来潜在的延迟。”

损坏的文件是存储经理在处理海量数据时不得不面对的挑战。许多公司并不担心偶然损坏的文件,但是当你有4490亿个对象,即使很低的失败率也会带来一个存储挑战。

亚马逊使用定制的软件对损坏的内存分配中的每个数据进行分析,计算出总和检查,分析如何快速修复损坏以传输云存储所需要的吞吐量。

Henry称,由于客户将越来越多的数据存储在S3系统上,因此亚马逊数据存储需求增长显著。比如,一些用户存储用于基因排序的海量数据集,一名美国客户使用他们的服务存储奶牛身上的传感器数据以追踪这些奶牛的活动和健康情况。Henry并没有预测这一数据收集可能会达到多大。Henry称,面对这些需求,亚马逊准备迅速增加节点以进行扩展。

在不久的将来,云计算一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏云计算,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

标签: 大数据 大数据发展 电子商务 服务器 公有云 媒体 数据分析 数据库 搜索 网络 云计算 云计算服务

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:惠普转型云计算 时间所剩无几

下一篇:阿里钱盾安全专家提醒:Google Play也可能存仿冒应用