您的位置: 网界网 > 周报全文 > 正文

[周报全文]四种方式击败数据膨胀

2012年08月08日 14:18:28 | 作者:CNW.com.cn | 来源:网界网 | 查看本文手机版

摘要:应对数据爆炸性增长,不仅仅可通过扩充存储容量来实现,一些注意事项或许就能够成功帮助你“减负”。

标签
存储
大数据

毫无疑问的是,对大多数用户而言,90%,甚至更多的存储资源将会被电子表格、电子邮件、文档、多媒体文件等非结构化数据占据。用户的存储系统将会充满音乐、视频或者PPT文件。更加糟糕的是,Gartner和IDC的分析师预测,在未来5年内,IT机构的数据量增长率将会达到800%。

用户可以通过使用一些小工具来发现那些重复的、从不使用的,或者不经常访问和违反法律法规的文件数据。简而言之,就是总会有一些办法来摆脱那些TB级别的不必要数据。以下是一些技巧,可以帮助数据中心用户减轻自身的存储系统负担。

1.盘点已有的工具

大多数公司并不知道自身面临的问题有多大。他们不知道自己拥有多少数量级别的文件内容,不知道谁创建了这些文件,这些文件正在消耗什么资源,以及这些文件存在多大的重复度。当笔者开始与一些企业进行合作的时候发现,对于很多企业来说,他们NAS中存的数据大约有50%到60%已经很多年未被访问了。

由于许多人认为好坏数据的筛选非常复杂,这导致问题变得更糟糕。传统上,手动的分析是非常困难和昂贵的。这种高成本的方式使得用户对数据的分析频率越来越小,有时一年才一次,这导致公司无法了解这些存储的数据对他们的公司和存储资源造成了什么样的影响。

在确定找出无用文件、二层存储,或者存储使用模式的趋势之前,用户需要了解现有的存储容量,并且确定哪些工具是必须的。有几个提供不同程度可视化的工具可以帮助用户改善非结构化数据的环境。

一些本地的阵列监视工具只能提供阵列容量的检测,并不能提供文件级别的信息,例如该文件上次被访问的时间。此外,这种趋势也会导致用户往往会过高地估计自身的需要,而不得不提前购买新的磁盘阵列。针对文件树的解决方案往往很烦琐,并逐渐成为用户系统上的沉重负担。不仅会减缓用户获得可视性报告的速度,潜在的还会减缓网络整合的速度。上述的工具往往需要几个月或几年的时间去部署,有可能会迫使用户安装代理来服务于监测相关的数据库,这又对系统负担和可扩展性带来了挑战。

更轻量级的解决方案可以在几周之内部署完毕,并且不需要代理。有些使用一个专门的数据库来收集文件元数据,这使得用户可以比标准数据库快10到100倍的速度来收集10亿个文件数据的属性和报告。上述解决方案中的大部分可以搭配一个数据移动或用户脚本来实现数据删除、归档或数据的重新分层。

2.确定不合适的文件

最终用户的数据占据企业非结构化数据中的很大一个比重,并且这些数据往往会包含很多存储在不同位置的重复版本。这些数据包含员工个人的照片、视频、播放列表、潜在的病毒,还包括老旧的文件数据,几乎每一家公司都存储着大量的上述形式的文件。这些文件非常耗费资源,企业需要确定这些文件的优先级,以定期删除或对这些数据重新进行分层存储。

已经离职或重新分配工作的员工数据同时也包含着安全隐患。这些数据必须迅速被确认、隔离或者归档,以确保数据的所有权和数据保留时间方面的准则。如果企业的数据中心需要一个特定的规则,一定要确保管理员能够收集和分析所有信息的文件类型,以确保管理员能够作为监督者的身份,使得数据中心的数据保留和未经授权的数据使用准则更加有效。

3.对数据重新分层

还有一个重点就是企业需要确保能够了解所存储数据的价值。IT机构往往会对通过自动分层技术识别了百万级别的非关键数据感到震惊。纯粹的数据增长使得在最具成本效益的层级去存储非结构化数据显得尤为重要。分层的标准包括可用性、安全性,以及这些文件的可靠性。例如,第一层级的数据,每年的运行成本大约是8000美元每TB,这就说明在第一层级最好用来存储有关商业的最关键数据。

一旦你确定了诸如上次访问时间等有用信息,你就可以确定该文件对于企业的价值,并根据此价值存储到不同的层级。此外(+本站微信networkworldweixin),每个文件的价值确定之后,管理员可以建立一个数据存储策略。上述的规则可帮助管理员建立起自动分层策略,简化程序,并确保只有最重要的信息才被存储在昂贵的第一层级存储。

4.了解数据增长趋势

对于所收集的数据进行监测非常重要,可以帮助用户了解数据的增长状况。捕获影响用户公司数据的变化趋势,帮助用户对于自身数据资源的使用情况有更进一步的了解。这种知识可以帮助用户设置更可操作的策略,以便更好地管理数据。

取决于管理员所用的工具,你需要更加经常地监控存储环境。你可能会想要避免一些只提供文件级别信息分级,却不提供分级信息可访问的工具,因为你无法利用这些工具来预测未来的数据增长趋势。想象一下,如果你可以随时看到一段时间内的数据分级信息,并能够看到未来一段时间的数据趋势,这无疑可以带来很大的便利。

总而言之,就是一定要了解你的数?。肆无忌惮的数据增长使得管理员对很多敏感和非文件数据经常忽视,这也带来了潜在的安全风险。识别重复的最终用户文件、存储位置,以及数据所有者,可以帮助管理员删除无效文件、旧版文件和重复的文件,以为关键业务信息腾出存储资源。

若是管理员遵循了上述的四点提示,企业用户的NAS卷最终可能会成功摆脱一些“体重”。

[责任编辑:孙可 sun_ke@cnw.com.cn]