您的位置: 网界网 > 周报全文 > 正文

[周报全文]数据挖掘之道

2003年09月29日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:数据挖掘之道

标签
    BI系统选型系列报道

    数据挖掘之道

    ■ 张立明


    何时需要使用数据挖掘工具

    数据挖掘,简单说,就是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。随着信息技术的迅速发展和企业信息化的深入,企业积累的数据越来越多。数据的背后应隐藏着许多重要信息,企业自然希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据库系统可以高效地实现数据的录入、修改、统计、查询等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,导致了“数据爆炸但知识贫乏”的现象。

    可以说,数据挖掘是企业数据积累的必然结果和自然需要。而各行各业日益加剧的市场竞争,进一步加速了对数据挖掘的需求和数据挖掘技术的发展。客户保持、客户价值分析、客户流失预测、客户信用分析、交叉销售等等,已经不再是诱人的口号,而是已经成功应用到电信、金融、零售、保险等行业。

    此外数据仓库技术的发展和广泛实施为有效的数据挖掘提供了可能。IDC的调研报告中,2003年数据仓库将达到200亿美元的市场规模。数据仓库将海量复杂的客户行为数据集中起来,建立一个整合的、结构化的数据模型,在此基础上对数据进行标准化、抽象化、规范化分类、分析,为企业管理层提供及时的决策信息,为企业业务部门提供有效的反馈数据。现在,NCR、IBM、Oracle等等厂商都在数据仓库领域有所建树,一些预见性的模型和解决方案已经被建立起来,数据仓库已不仅仅是简单的数据存储,而成为对客户资料进行分析、挖掘客户潜力的基石。

    可以说,如果企业在发展中已经积累了大量的数据,也希望从这些宝贵的信息财富中得到为企业降低成本、增加利润、提高核心竞争能力效率的秘诀,那么,该是实施数据挖掘的时候了。当然首先建立企业数据仓库是有效进行数据挖掘的基础。

    如何进行数据挖掘工具的选择

    数据挖掘和数据仓库一样是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施过程中不断磨合,才能够取得成功。因此我们在选择数据挖掘工具时,要全面考虑多方因素,其中应着重关注一下四点:

    1. 数据挖掘工具与数据仓库能够紧密结合

    ●可以减少数据转换的时间。

    尽管数据挖掘并不要求一定要在数据仓库之上进行,但数据挖掘的种种问题将耗费巨大的时间和资源,如从不同的数据集市中进行数据采集,数据清洗,数据变换等等。一旦需要建立新的模型,您将不得不再次重复这个过程。大约70%的数据挖掘过程将花费在数据准备阶段。数据仓库通过减少数据冗余和系统管理使得数据挖掘更可行,并使模型开发人员可以更集中于对数据的分析。

    ●可以充分利用整个企业的数据和详细数据。

    在数据仓库内直接进行的数据挖掘提供了集中式数据挖掘体系,可以对数据仓库中所有数据进行分析,包括了企业的详细数据(+本站微信networkworldweixin),这样就能够挖掘出更多、更合理的模式。

    ●可以充分利用数据仓库的处理能力

    在数据仓库内直接进行的数据挖掘,开发模型、测试模型和部署模型都能够充分利用数据仓库的处理能力,得到更好的性能;另外,多个数据挖掘项目可以也同时进行。

    2. 数据挖掘的功能和方法

    数据挖掘过程一般包括数据抽样、数据描述和预处理、数据变换、模型建立、模型评估和发布等步骤。数据挖掘工具应该能够为每个步骤提供相应的功能集。

    数据挖掘工具必须提供常用的数据挖掘模式,如分类模式、聚类模式、回归模式、关联模式、序列模式等。

    数据挖掘工具还应该能够方便地提供挖掘出的模型(例如能够用SQL语句导出模型),从而在企业的应用中集成使用该模型。

    3. 数据挖掘工具的伸缩性

    数据挖掘工具的伸缩性主要考虑两个方面,一是数据量(行)增大时的性能表现,二是当挖掘维度增加时的性能表现;如果两种情况下挖掘时间呈线性增长,则可认为工具的伸缩性较好。

    一般而言,能够紧密结合数据仓库,充分利用数据仓库处理能力的数据挖掘工具有更好的伸缩性。

    4. 数据挖掘工具的可视化

    数据挖掘工具是否能够实现数据可视化、挖掘模型可视化、挖掘过程可视化,可视化程度、质量和交互灵活性严重影响到数据挖掘系统的使用和解释能力。

    当前主流的挖掘工具如SAS Enterprise Miner、IBM Intelligent Miner、Teradata Warehouse Miner、SPSS Clementine等都能够提供常用的挖掘过程和挖掘模式。

    总之,每个企业必须结合自己的实际情况何需要,充分考虑厂商在数据仓库领域的咨询和实施经验,避免踏入仅仅“选择工具”的陷阱,力求获得一个完整的数据仓库和数据挖掘解决方案,并和厂商一起完成这个复杂的、富有挑战性、创造性并充满乐趣的过程。惟其如此,才能够将数据仓库和数据挖掘真正融入企业日常的经营决策之中。(本文作者为NCR Teradata数据仓库事业部技术顾问) 

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]