您的位置: 网界网 > 周报全文 > 正文

[周报全文]构建存储梯田

2003年08月25日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:构建存储梯田

标签

    构建存储梯田

    ■ 本报记者 张峰

    一种技术或者概念,只有符合而且能够满足用户迫切的需求,才会赢得更多用户,才会获得广泛应用。分级存储就是这么一种技术。

    那么,分级存储到底能够满足用户什么样的需求?它的具体含义是什么?对于应用来说,用户最关心哪些问题?希望读者能够从本专题中获得些许答案。

    梯田,沿着山坡开辟的一级级农田,凝聚了多少人的智慧,提高了光、热、水、土资源的利用率,减少水土流失,增加固水能力,并提高农业生产力。在高山陡坡上充分利用每一寸土地资源,以获得最大面积的生产空间。

    在有些干旱地区,由于每块梯田的阳光、水土的资源都不尽相同,所以真正高产的梯田在山坡的不同位置种植的农作物会有一定差别,有的位置种玉米,有的种大豆,还有的种马铃薯。

    分级存储,将用户拥有的所有存储资源统一管理,提高了每种存储设备的利用率,节约了成本。

    存储的分级是十分明显的,仅从设备上说,就有磁带机、磁带库、NAS、中低端盘阵、高端存储系统等等,如何根据用户数据的不同价值合理利用好每种存储资源是一个不小的挑战。

    需求篇 数据价值与存储投资的矛盾

    “今天企业的数据中心非常复杂,数据保护是其关键。但是,并非所有的数据都具有同样的价值;并非所有的企业都具有同样的需求。”

    ——John McArthur,IDC存储研究部副总裁

    企业拥有海量的数据,但往往只有有限的预算用于数据保护。因此,很有必要基于精心定义的风险规避政策来为精选的数据分配适当的保护资源。

    IT企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件。用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。因此,目前的潮流是购买更多的软件。然而,这种解决方案产生了非常复杂和笨拙的存储环境,不仅需要更多的维护和管理,而且需要更多的金钱来维持。

    系统中60%至80%的数据经常在一个月,甚至一年中都不会被访问。(如上图所示)

    而在经常访问的数据中,重要性差别也十分突出,有的数据与用户的业务联系紧密,可靠性、可用性及性能要求都很高,有的尽管经常使用但是与业务联系不是特别紧密。

    一般来说,重用数据的概率自数据创建3天之后就会下降50%,当数据创建30天后,重用的概率通常会降至很低,而高达90%的数据超过90天后就不会或很少被读取。

    为了提供良好的数据保护,IT部门通常都保留巨大的空余空间,用以防止出现容量不足的现象。分析专家曾报告说,Unix和Windows的存储利用率只有20%至50%。这也就是说,许多企业支付巨资购买的大量存储空间都被浪费掉了。这种浪费是体系结构造成的,使用者要支付系统资源费用,系统需要管理员的维护,备份的成本也增加了,而且恢复数据的时间也更长。

    只要解决了这种效率低下的问题,企业就能避免为这些未使用的存储空间进行灾难恢复操作,并且能够通过合并硬件来减少日常运营开支。但怎样才能实现这一目标呢?解决办法看起来应该是对比较陈旧或未使用的数据进行删除或存档。这样做可以释放大量的空间,但这种办法远不够理想。删除是一项手工作业,要冒数据丢失风险,甚至会导致法律纠纷。存档虽然是一个自动的过程,但却要迫使企业对用户进行存档应用的培训和支持,而且经常需要专用的存储设备。

    还有一个很重要的问题是,在一个大型用户那里,拥有从高端存储系统到低端带机、带库全系列的存储设备。高端存储系统中存放的数据不一定都为价值最大的数据,相反,在低端带机、带库中也会有价值很高的关键数据。这样的坏处是,增加了数据保护工作的风险也降低了整体存储资源的利用率,一定程度上造成了投资的浪费。因此,合理利用存储资源并且尽量降低数据保护的风险是一个巨大的挑战。

    方案篇 三级存储有机结合

    企业业务数据从产生到存储、利用、归档,最后超过存储期限被删除,数据被读取的频率会逐渐下降,数据存储的位置也应该随之变化,以提高存储设备的使用率,降低存储成本。

    传统的数据存储一般分为在线(On-line)存储及离线(Off-line)存储两级存储方式。所谓在线存储就是指将数据存放在磁盘系统上,而离线则是指将数据备份到磁带上。但随着数据量的猛增,这种只使用在线和离线两级存储的策略已经不能适应企业的需求。近线存储市场近来成为热点,出现了一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备,作为近线存储设备。

    在线——高端发展无止境

    总体上讲,在线存储多采用高速磁盘阵列等存储设备,存取速度快,当然价格昂贵。

    我们在今年第二期作了关于高端存储系统的专题,时隔半年,高端存储领域就发生了巨大的变化。当时我们讲,高端存储系统具有一些“高端”属性,比如,高容量、高性能、高可用性、冗余性等,现在我们看到,这些特点已经不再是高端特有的了,许多中端产品也大都采取了这些设计。

    笔者采访EMC高级顾问杜国强时,他表达了这样的看法,高端存储的含义已经发生了重大变化,更确切的定义为“为未知的世界提供可预知的性能”。

    SAN技术的高性能依赖于三个重要领域的性能支持:存储容量、计算能力和传输能力。在传统SAN存储系统中,存储容量这一环节由于存储介质技术的快速发展已经得到了很好的解决。存储容量通过多磁盘容量的叠加已经能够达到数千TB的水平。而在计算能力与传输能力两个环节上,传统SAN却存在很多先天的弱点。最近在高端存储领域出现了两种新技术——点对点直连技术与并行存储技术。

    点对点直连技术是EMC近期推出的一种全新的点到点互联架构,在性能方面,由于它采用了点对点对接,消除了总线或交换机方式造成的延迟,专用的数据通道意味着不会出现交换机竞争的情况,减少数据从存储位置传输到目标位置的延迟。它还具有32个独立高速缓存区,而且每个高速缓存区都具有独立的逻辑访问,可以为用户提供更强大的处理和访问能力。

    S2A是DataDirect Networks公司推出的并行存储技术。S2A没有采用传统的光纤通道交换机的交叉矩阵交换机制,它所采用的高度并行端口技术消除了交换机制所带来的不可避免的时间延迟,能够持续不变地提供充满端口带宽的数据吞吐量。S2A控制器内部的四个主机通道之间采用虚拟的并行体系结构,通过提供并行处理和并行数据读写的途径,使得在多主机的存储区域网络环境中具有非常高的不受多主机环境影响的使用性能。

    离线——更加注重“智能”

    离线存储采用磁带作为存储介质,其访问速度低,但能实现海量存储,同时价格低廉。

    以前用户有这样的想法:反正数据存放在磁带上面,性能都不高,只要在灾难发生时能够使用它们将需要的数据恢复回来就可以了。其实,这是很不正确的。要知道,用户的数据越来越多,原有的数据也不能丢弃,当这些数据逐年累积以后管理它们就成了一件十分困难的事情,而且还要进行磁带定期维护的工作。

    因此许多带库厂商在这方面进行了加强,提供了完整的数据生命周期管理,专为数据密集型SAN环境而设计,尤其适用于高强度、大容量的数据访问和数据存储,减少了管理 SAN数据的时间和成本,从数据生成到其生命周期结束,其中的每一步骤都提供了相应的功能。这也说明带库管理更注重“智能”。

    近线——活跃的中间层

    随着用户需求的日益细分,人们越来越发现原有的两级模式(在线与离线)已经不能很好地满足用户的存储需求,在这两个“极端”之间有大量的空白,于是就产生了近线存储的概念。近线存储的概念一产生就得到了厂商与用户的赞同,定位于此领域的产品很快就纷纷出现,形成了近一时期最为活跃的中间层。

    去年,NetApp推出了R100近线存储设备,获得巨大成功,仅1年时间在全球就拥有了100多个用户,总部署容量超过3PB。

    Quantum推出的基于磁盘的产品DX30,能够模拟各类磁带库,保留了与存储管理软件的兼容性,而又具有比磁带库更高的速度,用户可以先将数据备份到DX30中,然后再转移到磁带上。

    以磁带产品知名的StorageTek公司在业界较早提出了数据生命周期管理的概念,并拥有针对数据的不同生命周期提供的相应的解决方案,包括磁带设备和磁盘系统及软件产品,以帮助用户“将适当的数据,在适当的时间,存储到适当的设备上”。

    Legato公司备份软件的最新版NetWorker7.0,引入了磁盘备份与磁带备份相结合的新方式,通过磁盘备份可以为用户提供更多性能优势。采用磁盘进行备份避免了一些磁带备份的弊端:磁带只能进行顺序读写,而且每盘磁带都需要完全倒回才可取出,加载卸载时间很长。磁盘备份解决方案还完全包括了“虚拟带库”的功能,而且可以在读一部分内容的同时进行写另一部分内容,因而可以实现了在设备进行备份时的恢复、搬移/克隆操作。

    管理篇 分级存储重在管理

    存储实现分级以后,在线、近线与离线存储存放的数据价值不同,在同一级别存储内部(比如在线和离线存储),存放的数据也应该不同,实现每一级别内的“分级存储”。如何将各个级别存储中数据统一管理起来便成了最为关键的问题。

    分级存储管理

    分级存储管理(Hierarchical Storage Management,HSM) 起源于1978年,首先使用于大型机系统。近10年来,HSM被广泛应用于开放系统的Unix和Windows平台。

    分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在带库、盘库等离线介质上,只在盘阵上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到盘阵中;同样,盘阵中很久未访问的数据被自动迁移到磁带介质上(+微信关注网络世界),从而大大降低投入和管理成本。

    HSM应用也具备监测磁盘容量并在关键容量情况下作出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,如20%。

    如果软件发现该卷的剩余容量已经不足20%,数据就会被从该卷移动至备用存储介质。这样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。

    由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。

    信息生命周期管理

    目前,许多厂商和用户都认为,数据是具有生命周期的。因此,有厂商提出了信息生命周期管理(Information Lifecycle Management,简称ILM)理念。

    Legato中国区总经理李飚介绍说,ILM不是某个硬件或软件产品,而是评估和管理信息的存储方式。它教育客户平衡信息价值和管理费用,根据数据对企业生存的关键性以及企业发展带来的价值决定存储费用。信息从产生到使用直到灭亡,其全部过程都需要进行管理,因此,信息生命周期管理是用户发展到一定阶段的存储需求,只不过它是一种很复杂的需求,具体来说,就是如何建立一个更完整、更具有价值的信息系统,能够完全满足用户对于数据的以下五种需求:随时访问、按时间恢复、方便的共享、所有数据受到适当的保护以及按照一定的时间规定(比如法律规定)管理数据。

    企业的业务信息随着时间的推移而变化,企业的存储策略也应随之改变。以高投入存储那些已经不再为其产生收入的信息得不偿失。信息生命周期管理为企业提供了平衡信息价值与存储费用的战略手段。

    Legato将信息生命周期划分为7个阶段,包括了数据从产生直至灭亡的全部过程。(如图所示)

    李飚表示,仅仅意识到用户的需求而简单地提出一种概念是远远不够的,由于是一个“周期”的管理,因此,在这个周期的每个环节都要有相应的产品来满足需求,包括系统咨询、信息采集、数据保护、迁移、归档等等产品。在一定的时期,用户可能只会应用到其中的某个或某几个环节,但是,把整个信息系统作为一个整体来管理是一个必然的趋势。

    分级存储问与答

     问:分级存储主要应用在哪些领域?

    答:笼统地说,凡是拥有巨大数据量的用户都可以从应用分级存储中获得更大利益,尤其是电信、气象、地震以及图像处理等领域。以电信行业为例,在线业务系统需要在线存储;有些业务需要查询客户3个月或6个月以前的信息记录,近线存储就很适合;更久的信息同样不能删除,这就需要离线存储。同时,随着业务的不断进行又会产生新的数据,如何将在线、近线以及离线的数据统一管理好需要利用分级存储管理和信息生命周期管理技术。

     问:是不是某些用户可能只用到其中的部分技术?

    答:是。比如,有的用户只有数据保护的需求,有的用户只有数据归档的需求,他们就只会使用相应的技术。在数据量巨大的用户存储系统中,也可能使用了分级存储的所有技术,但是相对独立一些,还没有将它们作为一个统一的整体进行管理。

     问:分级存储最大的好处是什么?

    答:最大的好处是提高了整个存储系统的利用率,把信息的管理提高到战略的高度。

     问:用户如何部署分级存储?

    答:对于还没有建立存储系统的用户来说,可以从全局统一考虑,按照数据生命周期的每一步建立相应存储系统,并使用分级存储管理和信息生命周期管理技术将各存储系统集中管理;对于已经建立独立存储系统的用户来说,可以采用保护原有投资的方法补充没有的环节。

    编看编想

    ■ 本报记者 张峰

    分乎?合乎?

    合久必分,分久必合。存储领域也是一样。

    首先,在我们看到了“分”,存储需求方面越分越细。

    当初将存储系统分为在线和离线存储,随着用户要求的提高,发现这种划分有些粗略,于是出现了近线存储,用户立刻感觉到这种需求很“亲切”,能够更好地与业务系统结合在一起。延续这种趋势,将需求划分更细一步,最近有些厂商更是提出了“联线存储”——定位于近线存储与在线存储之间的存储系统。

    数据生命周期也是需求细分的一个表现。以前,用户在建立存储系统时在客观上也是为了满足数据在其整个生命周期的存储需求,但是没有划分得那么具体,比如,有些厂商现在将数据的整个生命周期划分为7个阶段,每个阶段的存储需求都具体而独立。

    与“分”相对应,在存储的某些领域也表现出“合”的趋势。在线、离线与近线存储在表面上显得相对独立,因此,使用分级存储管理将它们“合”在一起;数据生命周期划分为多个阶段以后,使用信息生命周期管理技术将它们整合到统一的信息系统之中。

    “分”为满足存储需求,“合”亦为满足存储需求。从用户的角度来说,要从需求细分中考虑如何以最低的成本获得最高的价值,而不是采用以往单纯的“购买更多容量”的解决方式和态度,徒增存储费用和管理复杂程度,从而以战略的角度考虑整个存储系统的建设问题。

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]