您的位置: 网界网 > 周报全文 > 正文

[周报全文]重复数据删除:从边缘到主流

2009年12月29日 10:22:33 | 作者:网界网 邢小萍 | 来源:网界网 | 查看本文手机版

摘要:几年前,重复数据删除(Data Deduplication)还被认为是存储领域的一个边缘技术。但在2009年,由于很多企业受经济不景气影响削减IT开支,而重复数据删除因为能帮助企业大幅降低成本而大受欢迎。

标签
重复数据删除

【CNW.com.cn 专稿】几年前,重复数据删除(Data Deduplication)还被认为是存储领域的一个边缘技术。但在2009年,由于很多企业受经济不景气影响削减IT开支,而重复数据删除因为能帮助企业大幅降低成本而大受欢迎。

重复数据删除是一种数据缩减技术,旨在减少存储系统中使用的存储容量。全球知名调研机构lnfoPro对全球1000多家企业的IT经理[注]做过一项调查,多数受访者都对重复数据删除和虚拟带库表现了极大的关注。特别是重复数据删除技术,被业界列为十大存储热门技术之一。

存储厂商们也纷纷通过收购或OEM等手段,在产品中添加重复数据删除功能。比如,不久之前,EMC高价与NetApp竞购Data Domain,最终以21亿美元成功收购Data Domain。这一举动实际上向市场传递了一个信号,即重复数据删除作为数据存储优化的一个技术,将成为未来的一大发展趋势。此前,EMC已收购了Avamar,IBM则收购了Diligent来扩充自己的重复数据删除产品线。

技术种类优劣对比

依据数据处理方式的不同,重复数据删除技术可分成两种:其一是在线处理(In-line),Data Domain就是这一技术的代表厂商。这一方式中,数据在读进来之后,当存到磁盘之前就已经进行了重复数据删除;其二是以昆腾作为代表的后处理(Post-Processing)。如采用这一方式的话,数据在存到磁盘上后才会进行重复数据删除,在存到磁盘前,数据没有减少。

这两种方式各有优缺点。In-line方式的优势是节省了磁盘空间,同时重复数据删除一步到位,特别简单。但缺点是对CPU的损耗非常大,会占用大量CPU资源,导致性能下降。相比之下,Post-Processing方式对CPU的占用会小很多,但缺陷在于重复数据删除的环节比较复杂。

在这两种处理方式的基础上,现在还出现了一种适应性重复数据删除技术(Adaptative Data Deduplication)。这一方式结合了之前两种方式的优点:在性能要求比较低的环境下采用In-line方式,性能要求比较高的时候则采用Post-Processing的方式。

如果从重复数据删除发生的位置来看,则可以分为基于主机、基于备份、基于主存储的重复数据删除等。就目前来看,Avamar的技术主要是基于主机的重复数据删除,Data Domain是基于备份的重复数据删除,国外一些新兴厂商Ocarina,以及Storwise则致力于基于主存储的数据删除。

国内存储厂商SOUL在重复数据删除方面也有独到之处。其基于Storage-On-Chip平台的嵌入式芯片级的连线重复数据删除技术,具有高效率、低能耗等优势,使重复数据删除在主存储中的应用变成可能。此前业界通常认为,重复数据删除过程会使系统性能有所衰减,所以更适合于二、三级存储。应该更多地被应用于备份和归档,而非主存储。

用户选型建议

对于用户来说,他们在选择重复数据删除相关的产品或解决方案时,有哪些注意事项?对此,ESG中国区总经理王丛的建议是,最终用户应该先弄清楚自己的重复数据在哪里发生的最多,再决定是不是在那个位置来进行重复数据删除。她举了两个例子来作为说明。比如银行,虽然每天有很多用户,会发生很多次交易,但这些交易都是一次性的。因此就不应该在主存储上来做重复数据删除。假如是在一个企业内部,发件人给所有员工发了一封带附件的邮件,这些数据都是存储在主机上的,如这种情况,可以采用基于主机的重复数据删除。(更多内容详见http://www.cnw.com.cn/P/2028)

要点

重复数据删除的三种方式

1. 在线处理。数据在存到磁盘之前就已经进行了重复数据删除。这一方式节省了磁盘空间,但会占用大量CPU资源。

2. 后处理。数据在存到磁盘上后才会进行重复数据删除。其好处在于对CPU的占用较小,但相对比较复杂。

3. 适应性重复数据删除。结合了上述两种方式的优点,在性能要求比较低的环境下采用在线处理,性能要求比较高的时候则采用后处理的方式。

12

参考资料

1.重复数据删除:是一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复...详情>>

2.CIO:(Chief Information Officer),首席信息官,亦可称之为信息主管、信息总监等,是企业中信息化建设“统筹”人,是企业中不可或缺的高级主管职位之一,主要负责企业内部信息...详情>>

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]