您的位置: 网界网 > 周报全文 > 正文

[周报全文]数据分类:只是看起来简单

2010年05月11日 15:26:39 | 作者:CNW.com.cn | 来源:网界网 | 查看本文手机版

摘要:分级存储背后的概念很简单。根据数据的价值、读取频度和存储要求来划分数据,然后相应地处理每一类数据。这听起来虽然很简单,然而完成起来可能并不容易。

标签
分级存储
数据分类

【CNW.com.cn 专稿】分级存储背后的概念很简单。根据数据的价值、读取频度和存储要求来划分数据,然后相应地处理每一类数据。这听起来虽然很简单,然而完成起来可能并不容易。

网络存储行业协会(SNIA)在其网站主页上表示:“我们获悉,当客户开始部署基于ILM(信息生命周期管理)的分级存储时,所面临的最大挑战是难以在信息和数据分类上达成一致,而明确数据分类是成功实施ILM的关键。”

好的分级存储方案必须将存储费用、数据的生命周期、数据检索的频率和速度,以及可用技术加以权衡。

目前只有3个存储基本层,即在线存储、近线存储和离线存储。不过有些企业的分级存储系统中可能有十多种分类。由于这些类别必须进行组合才能满足特定业务的需要,因此严格地说有几百种规则,这些规则之间差别通常很小。

但是,为一个分级存储系统建立数据类,不完全是存储管理问题,它也是用户问题。

收集各类用户的数据需求

在进行数据分类时,你需要收集各类用户的意见。企业中的每一类用户都必须参与分类规则的制定。存储经理一般承担细化分类和选择支持分级存储的技术。

建立数据分类委员会可能是必要的,因为数据一般为多个部门所共同使用。例如,对于一个部门3个月都没有用上的数据,可能在几年后对另一个部门却有用。

只要有可能,分类应该自动完成。即系统应该能够在不询问用户如何分类的情况下自行决定每一个文档该归到哪类中。这通常根据文档的类型(电子报表或Word文档)、创建时间、创建人和存储地点来完成。这就是说,分类必须足够简单,以便系统能够自动处理。

下一步是合理化这些分类,并且在需要时把它们组合起来。这涉及到向用户询问他们的分类特征。例如,一位用户可能只需要使用某个文档3多个月,但是如果将规则设为保持该文档6个月后删除该分类,而且不会造成问题的话,这可能值得去做。

容量规划变得更复杂

数据分级会导致容量规划变得更复杂。你必须决定你需要哪类硬盘(例如快速SCSI、中速SCSI、SATA、RAID 10、RAID 5等),而非仅仅购买更多的硬盘。不要认为存储设备种类将同步增长。分级存储通常会导致有些类存储设备的需求量迅猛增长,有些根本不增长,有些甚至还萎缩。例如(+本站微信networkworldweixin),当曾经永久保存的数据被重新分类为只保存有限时间,归档需求常常会萎缩。

一旦数据分类完毕,业务规则和部署技术就建立了。利用存储管理软件和数据归档软件划分数据可能会简单些。

如果数据量比较大,分级存储中的一些数据最好由专门的数据归档程序来处理,这点特别适用于电子邮件系统。因为电子邮件系统产生大量的小数据文件,且对于归档需求远大于检索需求。

一旦建立分级存储系统,其分类应当被严格遵守。假如法庭要求提供记录,对你而言,最关键的是能够提供所有要求提供的记录,以及你认为所有该销毁的记录都已真正被销毁。

如果员工忘记在个人电脑中删除本应被删除的电子邮件,那可能造成严重隐患。公司应制定政策,确定什么类型的信息可保存在何处,并且必须提供员工培训。(更多内容详见http://www.cnw.com.cn/P/2408)

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]