您的位置: 网界网 > 周报全文 > 正文

[周报全文]“小”成本实现大存储

2013年11月12日 15:21:44 | 作者:CNW.com.cn | 来源:网界网 | 查看本文手机版

摘要:大数据对存储容量的高需求,让CIO不得不为新增的存储容量买单。但或许可以通过几种方法来降低大数据存储带来的成本提升。

标签
存储
大数据
云存储

低端存储开始发力

在政治领域,数据也至关重要。政治分析公司Catalist需要存储和分析1.9亿注册选民,以及9000万未登记选民的数据,从其分析工具得出的信息能够让竞选组织者了解应该如何开展工作,甚至可以让候选人一夜之间改变他们的选民政策。

Catalist首席技术官Jeff Crigler指出:“我们曾经有一个大型存储系统,后来我们弃用了它,因为太昂贵,且消耗的能源也太多。”并且他说大型存储系统占据的空间也非常大。于是,该公司构建了一个NAS服务器集群,每个服务器承载PB级数据。“这基本上是一大盒具有处理器的磁盘,它们能像大型存储解决方案一样运行。例如它也拥有高密度磁盘驱动器、一些‘花哨’的配置软件,以及运行配置软件的CPU。”

Csaplar发现现在的趋势是,人们逐渐远离成本超过10万美元的存储产品,而转向能够做更多工作的较低成本服务器。“随着服务器变得更加强大,”他表示:“它们现在能够完成以前专门设备完成的工作。”这与网络从网卡演变为NIC卡类似。

Csaplar表示,企业不再购买大型昂贵的存储阵列,他们开始采用JBOD(只需要一堆磁盘)的方法,使用非智能设备用于存储,使用这些服务器的计算能力来管理。同时他又指出:“这将降低存储的总体成本,而你不会失去任何功能。或者说,它只需花20%的成本却能完成80%的工作。”

Catalist公司使用四个价值4万美元的NAS存储单元替代了其价值10万美元的产品。Crigler表示:“每个NAS存储单元花费1万美元就可以使容量翻两番,这还是一年半之前的情况。”目前,存储的成本仍在持续下降。

Csaplar表示,他预计市场上会出现更多低端存储系统,因为越来越多的企业会发现低端存储的价值。一些大型存储供应商也意?到了这一点,已经开始收购较小型的存储公司。

有针对性地选择数据库

数据分析工作流程工具允许存储的数据更靠近分析工具,而同时其文件压缩功能保持存储需求在控制之中。例如,惠普的Vertica产品具有数据库内分析功能,使企业能够执行分析计算,而不需要将信息提取到单独的环境进行处理。EMC的Greenplum产品也提供类似的功能。这两个产品都属于新一代列式数据库,与基于行的数据库相比,这种数据库技术旨在提供更好的性能、I/O、存储空间和效率。

Catalist选择了Vertica数据库来实现这些功能。因为这个数据库是列式数据库,而不是基于行的,它着眼于列中的数据的基数,并能进行压缩。这些基数描述了一个数据表与另一个数据表的关系,并进行一对多和多对一比较。

“在数据库中每个人的记录里,有一列被称为‘国家’,但在3亿注册选民的数据库中,它只在我们的数据库中出现50次。” Crigler表示:“在基于行的开源关系型数据库管理系统(例如Postgres和MySQL)中,它会出现3亿次。所以,如果你复制从街道名称到姓氏等所有信息的压缩时,这种方法能够帮助你节省大量的存储空间。这就是说,所选择的数据库技术确实影响着你需要多大的存储空间。”

在存储方面,重复数据删除[注]、压缩和虚拟化将继续帮助企业减小文件大小和供以后分析的数据量。并且数据分层能够帮助更快地将最关键的数据带给分析工具。

固态硬盘(SSD)是另一个流行的数据存储介质,它能够确保数据随时可用。基本上闪存驱动器已经成为数据分层的底层,SSD以非常快的响应模式保存数据。Csaplar说:“SSD让数据非常接近处理器,使服务器能够分配I/O来快速分析数据。”SSD一度被认为太昂贵,而现在其价格已经下降,即使是中型企业也可以在其磁盘和处理器之间部署SSD层。

1 23

参考资料

1.重复数据删除:是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]