您的位置: 网界网 > 周报全文 > 正文

[周报全文]驯服非结构化数据

2003年11月24日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:驯服非结构化数据

标签

    驯服非结构化数据

    ——企业内容管理软件的核心技术及应用方向

    ■ 秦磊 赵亮

    虽然一提到数据管理,大家首先想到的是数据库技术,但实际上这只为企业解决了15%的结构化数据管理问题,85%的非结构化数据怎么来管呢?这也就是企业内容管理软件的职能所在。

    需求篇

    信息激增催生内容管理

    在当今信息爆炸的时代,信息每天都在以惊人的速度增长。有统计表明,来自交易中的数据每年增长的速度达到61%,而其他各种相关信息的每年增长率甚至超过92%。同时,信息的种类也在不断地扩展,越来越多的非结构化信息不断出现,包括企业的各种报表、账单、电子文档、网站的各种元素、图片、传真、扫描影像,以及大量的多媒体的音频、视频信息等等。而信息爆炸的背后,我们面临的巨大挑战是如何有序地存储、管理并利用这些信息,尤其是对于那些大量的、非结构化的信息。如果一个企业无法将这些信息进行有系统地编目和管理,则随之面临的危机是不断流失的生产力。另一个统计数字值得我们深思,企业员工为了完成自己的工作而用于寻找信息的时间平均占整个工作时间的30%,这等于将员工每周40个小时的工作时间缩减为28个小时。没有一个公司允许员工每年用30%的时间去休假,然而现在,这是一个很多企业和组织不得不面对的现实。从另一方面,企业和组织也希望对这些信息有更多的控制,保障信息的安全,挖掘信息的价值。

    在过去几年中, 我们接触过许多不同行业的客户对于内容管理方面的各种需求, 并成功与客户一起实施了许多企业内容管理应用。在我们试图为企业内容管理明确一个定义之前,不妨让我们从几个实际的案例来分析客户对于企业内容管理的需求。

    用户1:中国银行广州分行

    中国银行广州分行,从1998年开始实施电子报表管理应用。而在此之前,所有的报表都是打印到纸张上,每年用于打印的开销超过600万人民币。广州中行在进行系统选型时要求,应用的平台必须基于成熟的技术,支持开放的标准,可以支持从PC到Unix系统到AS/400到ES/9000等各种硬件平台,支持存储管理各个业务系统各种报表。系统要求具有工业化强度、可扩展性,适应中行的大集中模式。今天,基于内容管理平台,中国银行广州分行的电子报表管理系统已经成功实施并经历了三个发展阶段,即从广州市行扩展到广东省行再扩展到华南区域中心。目前,该系统支持存储管理华南中心下辖五省一市的来自各个业务系统(包括会计、零售、信用卡、信贷、消费信贷、国际结算、收付清算、 电话银行、基金、中间业务、NETS、SCAN、EFT、BEPS、ATM、POS等)的394种报表,支持超过1000个用户的并发访问。通过多层级存储管理,报表可以被自动迁移到光盘库中保存15年或者永久保存。目前,中国银行还希望基于该系统管理更多类型的内容,包括各种影像单证、OA系统的公文和电子文档等。

    用户2:北京移动通信公司

    北京移动通信公司需要提供话费详单的多种服务渠道,包括邮寄、营业厅、1860、Internet等等,而原来每个服务渠道都有各自处理详单的方式,造成系统压力、响应时间、运营成本、客户服务等多方面的问题。今天,基于IBM的内容管理软件,北京移动成功实施了统一的详单管理平台,实现了详单的海量存储。通过高效压缩,系统可以节省超过90%的存储成本,而详单的保存时间可以支持2年甚至更长的时间。即便在峰值时,查询的时间也仅在1到2秒钟。这样一个统一的平台目前可以支持营业厅、1860、Internet以及安全保卫部门等多渠道的详单服务,在实现系统响应时间缩短、客户服务质量提升的同时,还大大节省了运营的成本。在扩展性上,该系统可以很好地支持北京移动未来的个性化详单服务要求。

    用户3:某图书馆

    某图书馆的实验型数字图书馆系统,需要发布6000张拓片,最初采用的方式是基于数据库加上Web服务器进行自主开发。数据库采用12个字段描述关于拓片的索引信息,而最后一个字段是URL地址,对应Web服务器的文件目录、子目录、文件名,每条记录对应三个图片,分别为150DPI的高分辨率JPEG图、 75DPI的中分辨率JPEG图以及拇指图,这三张图片都是从平均大小为7M左右的TIFF转换得到的。该系统上线后,业务部门提出了很多新的需求,他们希望能够通过层次存储管理原始的TIFF图片,能够支持更复杂的层次型元数据描述,以提升拓片的价值;他们希望将系统从单纯的图片发布平台扩展为拓片的专业研究平台,可以增加关于拓片各种背景资料、专家研究文档;希望支持工作流,以实现对拓片的专业化标引流程;通过水印等技术实现拓片信息的版权保护。系统本身也需要从底层解决元数据和拓片影像之间的一致性、完整性保障,保证系统的安全性;支持参量检索、全文检索等多渠道复合检索方式。现在,该图书馆已经开始通过内容管理软件管理拓片、电子图书、博士论文、音频、视频等各种多媒体数字资源,实施了八个数字资源子系统。

    在上面的几个案例中,我们谈到了报表、账单、影像、电子文档、图片、音频、视频等各种信息,这些信息都是非结构化的大对象,难以用传统的关系型数据库管理,我们将这些非结构化的信息称为内容(Content)。而上述的各种客户需求也反映了客户对于内容管理系统的基本需求,包括基于成熟开放的技术、标准;支持各种硬件环境、提供从部门级应用到企业级应用的扩展;具有高可用性、安全性、工业化强度;支持多层级海量存储管理、强大的开发能力;保证信息的一致性、完整性、灵活的数据模型、工作流、数字版权保护等等。

    定义篇

    是技术也是策略

    那么,到底什么是企业内容管理(Enterprise Content Management)呢?Meta Group的定义精确地反映了今天的技术发展以及客户需求。

    企业内容管理(ECM)是技术也是策略。从产品方面讲, 企业内容管理是技术、工具以及方法,以实现在企业范围对内容的捕获、管理、存储、保护、发布,同时也是策略,负责管理企业或组织所有的非结构化信息。企业内容管理不仅仅是网站内容管理——它要远远更复杂,更重要。在最基础的层面,企业内容管理工具支持企业或组织有序管理并利用非结构化信息,而无论信息身处何处。

     —Meta Group

    可以看出,企业内容管理向IT的主流技术提出了挑战,企业内容管理的范畴过于广泛,以至于无法用几个简单的应用来定义其特征。同时,我们的客户对于企业内容管理的需求却是多样且不断发展的,我们无法将他们各种各样的需求都融合到一个开箱即用的应用里面。客户现在更加需要的是一个定位于中间件的企业内容管理平台。在这个平台上,客户可以将自己的具体需求不断添加上去,快速开发出自己的企业内容应用并可以不断扩展和完善,厂商也可以通过对客户需求的理解,在这个平台上开发出适应客户特定需求的垂直应用。

    发展篇

    三阶段发展

    与数据库类似?

    数据管理从60年代出现到80年代形成通用的关系数据库,经历了三个典型的发展阶段。而内容管理从80年代出现至今,也同样经历了三个典型的发展阶段,如下图所示。

    今天,正好是各厂商向企业内容管理平台转型期,这样就造成目前的内容管理产品多样性。我们可以把目前的内容管理产品分为三大类。

    第一类是定位于企业内容管理的产品,主流厂商包括IBM、FileNet、Documentum、Open Text、Inter Woven等。这些产品致力于解决企业内部的非结构化信息平台的建设,完成企业对内容管理提出的各种需求,并基于企业内容管理不断提供各种内容管理的垂直应用。而这些主流厂商在加强自己产品能力的同时,也在不断通过并购的方式提升自己的竞争力。仅在今年就发生多起并购。2003年4月,FileNet收购Aptrix;8月Open Text收购Gauss Interprise;10月ECM收购Documentum;10月Open Text收购IXOS。

    第二类是仅关注于网站内容管理系统(Web Content Management)的产品。网站内容管理指专门面向网站内容的编辑与发布的应用系统。由于一些网站内容管理产品在宣传上和说明上进行混淆,用户经常难以区分企业内容管理和网站内容管理的区别。网站内容管理只是企业内容管理中一个很小的部分。在企业或组织中,用户可能会需要对网站进行管理。例如,用户需要将一些内部的文档和资料发布出去,这时用户可以去选择一些网站发布工具。这些工具通常会提供模板、工作流、发布等功能,可以准许多个网站制作人员共同制作和维护网站的。现在,大大小小的各种网站内容管理软件非常多,因为与企业内容管理相比,网站内容管理是易于实现的。但是,网站内容管理难以完成用户对企业内容管理的所有需求。同时,延续上面提到的并购趋势,网站内容管理以及第二梯队的企业内容管理厂商,例如 Mobius、Percussion、Stellent、Tridion、Hummingbird等等,面对生存和持续发展的压力,也在积极寻找买主,或者并购其他厂商,或者必须更加清晰地定位自己的产品。

    第三类则是一些特定的内容管理应用,如上面提到的拓片应用;或者是单独功能的产品,如全文搜索引擎等。特定的应用和单独功能的产品所针对的客户需求都比较狭窄,往往用户在实施了这样的系统后,会发现无法满足更多的需求,或者发现难以实现系统的扩展。这一类产品将会逐渐淘汰或作为组件之一合并到其他企业内容管理平台上,或者转变为企业内容管理平台之上的应用提供商。

    技术篇

    平台是主流

    明确了企业内容管理,认识到平台的重要性,那么到底何处入手了解、掌握并开发出适合您的企业内容管理应用呢?最好的方式是从成熟商业软件入手。

    一个统一、完整、集成、开放、可扩展的内容管理架构应该包含以下内容:

    我们就其中的一些重点技术做详细的探讨。

    1、 系统架构

    对于任何平台来说,良好的架构对于系统的重要性是不言而喻的,尤其是企业内容管理系统。内容管理平台软件需要考虑如何实现灵活高效的数据模型,如何设计各种语言的API接口,如何实现完善的访问控制管理,以及如何架构系统的拓扑以完成数据迁移、缓存,如何支持PB级的存储和上千的并发用户。企业内容管理尤其需要考虑到未来的扩展能力,如何在最大化保护用户现有投资的情况下,提供无限的可扩展空间。由于企业内容管理牵涉的范围太广,使得平台在选择技术时,必须使用大量的成熟稳定的技术,而且必须符合业界标准。此外,当这些技术发展时,企业内容管理平台必须能够支持这些新的技术以及新的标准。同时还要在技术、软件、平台本身升级时保护用户先有的数据。

    作为企业内容管理的厂商通常需要掌握数据库、应用服务器、存储等必需的核心技术。然后将这些技术整合在一起,以满足用户的需求。比如,下图中的三角形架构是一种代表性架构,充分利用了各种软件技术的优势,设计出了高效、灵活、高扩展的企业内容管理平台。该体系结构是由一个索引服务器、一个或多个资源管理器和一个或多个客户程序构成的三角形客户/服务器模型。

    索引服务器(又称图书馆服务器)负责存储管理用户安全控制信息和关于数字对象的元数据信息等。底层基于关系数据库管理存储所有的元数据信息、安全权限控制信息、用户信息,并支持参量检索、文本检索、参量/文本混合检索等多渠道检索方式。

    资源管理器负责存储管理数字对象,支持从硬盘到磁带库、光盘库的多层级存储管理,支持从一个资源管理器到多个资源管理器的扩展。通过基于流媒体的媒体资源管理器支持对音频、视频信息的流媒体服务。

    当用户想获取某内容对象时,客户程序发送查询请求至索引服务器,然后索引服务器返回搜索结果并将内容对象存储的具体存储位置加密形成安全对象令牌。客户端根据索引服务器发来的安全令牌发出获取内容对象的请求至资源管理器,最后资源管理器响应并解析请求,并将内容对象直接返回至客户端。这种方式可以保证“安全尽在控制,信息一站必达”。

    在这个三角形架构下,可以支持多个分布式资源管理器,具有很好的扩展性。而客户对系统的所有操作,包括增加、更新、删除、提取等等,都通过统一的库访问协议完成,从而保证信息的一致性、完整性和安全性。

    2、 数据模型

    数据模型的设计应该是企业内容管理中最有挑战性的技术实现之一。数据模型的能力直接表现出一个企业内容管理平台适应用户需求的能力。在实施企业内容管理的初始阶段,我们只能了解很少的一部分需求,如果我们设计数据模型时仅基于这些特定的需求,那么这个应用可能只能适应客户当时的需求,而无法适应客户的需求变化。在内容管理中,通常元数据越复杂,内容提升价值的潜力就越大。而丰富元数据的模型不是一蹴而就的,这就要求一个面向客户内容管理的通用数据模型,以适应客户不断变化的需求,提升信息的价值。如下图这个抽象的内容管理数据模型非常值得借鉴。

    在这个模型中,在对一个内容进行描述时,支持多层级的元数据模型,支持对各种复合文档的精确描述,可以对同一文档中不同的资源对象实施不同的处理和控制;该模型也可以灵活地描述内容和内容之间的关系以及内容在使用中的工作状态。而图形化的建模工具以及支持建模的API可以帮助方便客户和应用开发商通过不同方式快速建模并进行调整。现在,某些行业已经开始定制行业元数据标准来描述复杂的需求,例如数字图书馆行业和广电行业开始基于都柏林元数据定制自己行业的多层级元数据标准,并以XML描述。XML与通常的关系型数据库不同之处在于其数据是有结构的,并且可能在同一个Tag下包含多值。如上图所示的元数据模型可以方便地支持从XML文件向内容管理数据模型的转换。在描述不同内容之间的关系时,准许用户在初始模型建立时或者在使用过程中随时建立链接(Link)、数据库外键和引用属性(引用属性是一种可以将一个字段变成指向另一条记录的指针)。这是一种可以将系统中任意两个记录关联在一起的方法,不管这两条记录在数据模型上是否相似,也无论他们是否已经和其他记录建立了链接关系,从而为客户建立描述内容的组织方式提供了便利的条件。出于性能和稳定考虑,目前基于关系型数据库还是保存元数据最好的手段。未来的趋势是越来越加强对XML的支持,包括对XML数据库的支持。

    3、 检索查询

    对于企业内容管理的最终用户来说,如何高效准确地找到自己所需要的资源是首要课题。尤其是企业内容管理的数据模型逐渐复杂、来源更加多样化,使得检索查询就变得更加重要,同时也变得非常困难。因此企业内容管理系统需要支持标准,支持多渠道复合检索以及查询优化。

    用户可以实现在对单一系统的查询,也可以使用信息集成技术,完成一次检索对多个数据源的查询。

    从数据模型的分析上得出,企业内容管理系统的元数据可以非常复杂。例如各种基于XML的元数据标准,其定义都极其详细。举例来说,广电标准数据模型规定了广播电视音像资料编目著录项目和规则,适用于广播电视音像资料的编目著录,将主要用于广播电视音像资料的收藏、管理、检索、资料获取,具有实用、简单、灵活、易转换、可扩展等特性。这个数据模型,包括了4级信息,每个级别的信息包括15大属性,属性里面又包括多个子属性,很多属性则是用多值的方式实现的。这样的模型创建后,需要一个简单、强大且基于标准的检索方式,而查询中可能会涉及到元数据参量查询、元数据的全文检索、文本对象的全文检索等复合检索等等,单纯使用关系型数据库的SQL语言很难满足这种多渠道检索的需求。对XML查询的支持是业界普遍采用技术基础。例如有的产品从XQuery和XPath上设计出了非常好的查询方法。IBM Content Manager通过查询解析器,将用户的查询重新处理,并进行优化,然后向底层的数据库发出查询语句。这种被称为XQPE(XQuery Path Expressions)的查询语言可以完全阐释所有可能用到的数据模型,并且使用简单,高效。

    在内容管理平台中,除了对关系型数据库的元数据进行参量检索外,对元数据以及文本对象的全文检索也是非常重要的。所谓全文检索(Full Text Search),通常是指对文字型的处理对象,根据数据资料的内容(+微信关注网络世界),而不是根据外在特征来实现的信息检索手段。例如,IBM Content Manager可以在文本正文及文本字段属性上建立全文搜索。全文索引是对字的检索。另外还有一个概念是智能检索,或者称为Token Search,这是基于词的检索,涉及到分词、对词的概念和意图分析等等。

    需要注意的是,全文检索查询,尤其是中文智能检索只是内容管理系统中的一种检索方式。现在有很多误导的信息,试图将“全文检索”、“中文智能检索”曲解成内容管理。客户实施了这种“内容管理”系统后,肯定无法达到预先的期望。因为单纯的全文搜索引擎无法完成客户对内容的管理需求。而且,单纯的全文搜索引擎不能有效地与关系型数据库的结构化息集成,在整合检索时的效率也是必须注意的问题。

    4、 内容管理的API

    为了更好支持在企业内容管理平台上快速开发出满足用户需求的应用,内容管理平台必须提供出完整的API以满足各种客户端的开发。完整的API支持是区别企业内容管理平台和一般的内容管理应用重要依据。通过企业内容管理平台提供的API,厂商可以开发出面向各种不同客户需求的垂直应用,也可以支持应用开发商和客户开发自己的内容管理应用。因此,如何设计好API就成为关键的问题。做过软件的朋友可能都有体会,做一个应用不难,但是做一个平台非常难,其中的一个原因就是需要为使用者提供出完整的API。这些API既要保证体现平台所有的功能,又要尽量遵循标准。只有遵循业界标准,才可以保证开发人员容易上手,应用容易移植。但是,与关系型数据库这种成熟的平台不同,内容管理平台还处在发展阶段,并没有像关系型数据库那样有JDBC和ODBC等成熟的标准。JSR 170 (Content Repository API for Java)、XQuery (XML Query Language)和JSR 225 (XQuery API for Java)等都是企业内容管理的候选标准。只是目前这些标准还无法完全满足客户需求,所以必须基于这些标准进行扩展。

    5、 工作流

    在企业内容管理软件中,工作流是必须考虑的要素。通常实现工作流的方法有两个不同层面,一个层面是使用软件内置的工作流,支持在单一系统内部的工作流。这种工作流简单易用,使用成本低,而且效率很高。

    另一层面则是基于第三方的工作流引擎,为企业搭建企业工作流程管理的总线,实现跨不同系统的企业工作流程管理。

    在企业内容管理软件中,还有很多因素都是需要考虑并值得关注的。例如对于内容的版权保护、数字水印;安全认证和权限管理;捕获和创建的方式;以及计算机输出管理、电子记录的管理(Record Manager)、流媒体服务等等。因为篇幅的关系,这里就不在一一详述了。

    从上面的技术浅析,我们可以看到,内容管理已经从当年的“特殊应用管理内容”到“特定领域的内容管理系统”发展成今天的“通用企业内容管理平台”了。企业和组织也迫切需要将内部的各种内容进行有序管理、挖掘信息的价值,并支持前端不同的应用。统一性、完整性、集成性、开放性、可扩展性、技术成熟度以及标准支持是进行企业内容管理系统选型的重要因素,也是快速启动内容管理的垂直应用并使之不断扩展的基础。

    方案篇

    多层次展示

    由于内容管理解决方案种类比较繁多,我们仅从中选择了几款主流的软件给用户参考。

    IBM DB2内容管理解决方案

    IBM DB2内容管理家族是一套全面的企业级内容管理集成软件解决方案,它提供了在Intranet或Internet上立即访问文档信息的能力,可以有效地保证所需要的文档并按照正确的工作流程在正确的时间提供给正确的使用人员。该方案具有实时和无缝访问数字化、索引化内容的能力,因而公司内外的合法用户都能获得最高的信息使用效率,而不是把时间浪费在信息搜索上。

    作为IBM企业内容管理系列产品的一个关键组成部分,IBM DB2 Content Manager(内容管理器,CM)是下一代企业信息集成基础设施。其功能支持事务处理、安全性、流程集成和生命周期管理。内容管理器在单一、开放式的体系架构中处理所有类型数字化内容的管理、共享、重用和存档。内容管理器支持基于HTML和XML的Web内容、图象、电子办公文件、视频和音频等多媒体数据。为了强化这些功能,内容管理器增加了DB2 Content Manager OnDemand,这是一种电子化报表管理和电子账单解决方案,能够大量捕获计算机的输出结果。

    DB2 Content Manager OnDemand支持高性能的自动化捕获、索引、归档、搜索、读取、展示和重新制作计算机生成的文档 /报表,以及其他的企业相关文档。通过该产品,用户可以削减纸张、胶片或磁性存储设备的费用;通过按需读取和展示来改进信息的管理;自动管理报表的存储需求,支持硬盘、光学和磁带存储设备。

    Interwoven 6

    Interwoven公司日前最新发布的内容管理平台Interwoven 6平台不仅应用涵盖广泛,通过Interwoven的旗舰产品TeamSite 6.0内容服务平台,使内容管理能够贯穿整个企业;而且其行业解决方案致力于提供行业性的应用,包括销售、服务、IT和市场机构等多方面商业挑战的解决方案;在业务拓展领域,基于Interwoven 6可开发满足企业内容管理相关的内部及外部应用需求。

    Interwoven 6是向所有企业现有的数据资源“开放”的内容管理平台,它能够“动态”地同时处理编码和内容,“灵活”地智能浓缩来源于元数据的内容,“迅捷”地利用其特有的专利技术和基于标准的组件。它是定位于为企业需求而设计的内容管理平台,以TeamSite 6.0内容服务器(TeamSite 6.0 Content Server)为基础。TeamSite 6.0引进了突破性的用户体验ContentCenter,为用户能够迅捷简易地使用而专门设计。ContentCenter使所有的用户能够在内容方面做出贡献和协作,包括商业投资者、商业管理用户和技术开发者。

    Interwoven 6还能提供一个全新的用户化架构——ContentServices UI Toolkit,使得为ContentCenter契合的用户化得以解决,如同定制完全客户化的界面。 Interwoven 6提供行业内第一个基于服务导向架构(Services Oriented Architecture)的内容管理。Interwoven ContentServices SDK 2.0使企业商务应用软件能够更加迅捷、灵活地衔接。

    微软Content Management Server

    微软 Content Management Server是一种允许企业快速、高效的建立、部署并维护高度动态化Internet、企业内部网络及企业外部网络Web站点的企业级Web内容管理系统。

    该产品是用于管理企业级Web内容的全面系统,允许内容提供者创建、管理并发布其自己的内容,同时允许IT部门快速部署具备伸缩能力的动态站点。 通过企业级Web站点针对多种访问者、设备及目的提供动态内容。相关内容的个性化特性能够确保为潜在客户、客户、企业员工及商务合作伙伴提供积极的用户体验,帮助用户部署企业级可伸缩性动态电子商务Web站点,并实现比其他任何Web内容管理产品都要明显加快的投资回报。

    TRS内容管理解决方案

    TRS是国内中文内容管理的推动者,致力于开发领先的内容管理技术基础设施和应用产品,目标是成为中文内容管理领域技术和市场的领导者。

    TRS内容管理解决方案以XML和JAVA为基本标准,其全能信息检索和中文知识管理技术是TRS内容管理产品的核心竞争优势,TRS能够全面满足内容采集、内容创建、内容传递和内容分析完整价值链管理的集成化产品。TRS 内容管理解决方案是企业内容管理(ECM)、网站内容管理(WCM)和电子商务内容管理的利器。TRS产品系列包括从数字图书馆资源整合门户、内容协作平台、全能内容检索系统、网络信息雷达系统等涵盖企业内容管理应用多个层面。

    其中TRS内容检索服务器突破了传统全文检索和网页搜索引擎的种种局限,是基于知识的智能内容检索系统。TRS全能内容检索系统,采用TRS具有先进水平的信息检索和中文自然语言处理研究成果,具有优秀的检索效果和查询性能,是信息检索的技术和市场领导者之一。

    让非结构化数据“结构化”?

    ■ 潘永花

    咱们且不用说企业,就是个人,我们也有各种各样的“非结构化数据”,每个人都会拥有大量的Word、Excel、Powerpoint文档以及各种音频、视频文件,还有每天都收到的大量邮件,可这些东西如果不进行及时整理,日积月累之后,我们往往再查找其中对自己有用的信息,就要颇费一番工夫。网络的迅猛发展给这些信息的传播制造了优厚条件,随着企业无纸化办公水平的提高,它们所拥有的这种非结构化数据更是数不胜数。记者曾经采访一个银行的用户,它们在采用内容管理软件之前每年花费在纸张上的费用高达1500万,而在实现公文流转通过网络进行,通过内容管理软件对之进行有效管理之后,1500万的花费就可以完全节省下来。

    虽然我们谈了很多内容管理软件带来的好处,但企业级内容管理技术目前还不是很成熟。我们知道用来管理结构化数据的关系数据库从理论到技术上经历了数年发展,已经相当成熟,而非结构化数据的复杂程度远远高于结构化数据,所以内容管理技术还存在很多有待解决的难题,比如,如何很好地解决多种异构数据源的存储和查询就是其中的关键问题。虽然有人认为将来XML数据库将能比较好地解决非结构化数据的管理问题,但将现有文档映射到XML文档的工作才刚刚开始,XML查询语言也远不如SQL成熟,我们曾经目睹的面向对象数据库的失败更给XML数据库敲响了警钟。将XML以及其他内容管理技术与关系数据库的结合可能将会是一条主流道路。同时,内容管理软件应用层面往往不会孤军奋战,它还需要与企业门户、协作软件、企业应用集成这些技术紧密结合在一起。将非结构化的数据实现“结构化”管理正在走进我们,但要想成为如同关系数据库一样成为主流,还是一条漫漫长路。

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]