您的位置: 网界网 > 周报全文 > 正文

[周报全文]“仓库”芭蕾——数据仓库在中国人民财产保险公司的应用

2004年06月14日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:“仓库”芭蕾——数据仓库在中国人民财产保险公司的应用

标签

    “仓库”芭蕾

    ——数据仓库在中国人民财产保险公司的应用

    ■ 本报记者 赵晓涛

    事情要从一封信讲起,去年年底,中国人民财产保险公司信息技术部总经理赵军接到了2003年国际计算机CHP(Computer-world Honors Program)大赛主席委员会执行董事Daniel Morrow先生的亲笔信,告之“人保财险新一代综合业务处理系统”从50多个国家和地区的500多家参赛企业中脱颖而出,荣获美国“计算机世界荣誉奖”提名,顺利进入决赛。不要小看了这个荣誉,国内金融机构只有招商银行曾经入围过。

    “获奖是对企业过去一年中信息化建设的肯定,但是按照惯例,获奖企业都会接下来的一年忙得不亦乐乎”,Daniel的信尾赠言又把赵军从喜悦拉回了现实……

    令人紧张的预言

    事实上,赵军已经忙的不亦乐乎了,做完核心系统之后,紧接着新型数据仓库构建就上马了。无独有偶,招商银行自从2002年获CHP大奖之后,也是马不停蹄地投入了后台数据库的改造项目。

    为什么把精力放到数据仓库上呢?原因是业务系统的发展很大程度上受制于后台数据结构,对金融机构来讲,在加入WTO之初就嚷嚷的很凶的“银行客户分级服务”、“保险费率细分”、“风险定价”等一系列服务都受牵制。

    比如在2003年初,保监会放开了车险费率,一时间各家保险公司纷纷公布了自己的收费明细,可是细看下来,大家的费率又几乎趋同,比如在个性保费上,各家公司都有一条,就是女性驾驶

    员比男性保费下浮20%,但据业内人士介绍,这仅仅是各家公司凭经验作出的判断,对于女性的年龄、教育及家庭背景的差异并没有区别对待。

    而美国的保险公司则是,一位女性,30岁,大学文化,有一个小孩,没有赔偿记录,可以享受最多50%的保费优惠。人家的逻辑就是,受过高等教育的客户要比没有受过高等教育的客户风险低,有孩子的女性责任心要比一般人高,岁数大的人开快车的可能性要小,没有赔偿记录说明驾驶行为规范。不要以为这只是简单推论,它可是基于成千上万件保单分析的结果。

    目前国内各家保险公司显然还不能提供如此精细的费率评估,因为他们现阶段还不能对客户的数据进行有效的分析利用,换句话说技术水平达不到。

    “芭蕾”的领舞者

    面对金融机构WTO保护期即将过时,各家公司都非常着急,希望能够在最短的时间内把数据仓库项目做好。在这方面,人保成了第一个吃螃蟹的公司。

    赵军形象地描绘到,要想让公司能够灵活地应对市场变化,方法只有一个,就是对应用系统和后台数据库重新设计,反映到市场上来,就是采取非常灵活的价格手段,让人保这头“大象”跳“芭蕾”。当然,系统重做对于一家保险公司来说无异于大换血,而且就人保现在的经验来看,单独完成这项任务也是很困难的。为此,人保选择了与IBM公司开展合作,希望借用IBM的经验来完成前后台系统的改造。

    指挥人保这个大公司跳芭蕾并不容易,除了机构、人员的因素外,信息系统本身也有很多限制。因为过去人保一直采用的是以保单为中心的业务系统和数据库,这虽然在操作上占了一些便宜(主要是效率较高),但是在数据存储上并不科学。

    直接的反应就是,如果被保险人买了多张保单,那么在数据库中这个人就会多次出现,在日后数据抽取分析的时候,就会遇到困难。另外,由于应用系统能够收集的数据项目较少,因此开展分析往往意义不大。

    为此,IBM向人保推荐了IAA(保险应用架构,Insurance Application Architecture)和IIW(保险信息仓库,Insurance Information Warehouse)两个数据模型,前者是保险公司的核心业务系统架构,后者是数据库架构。IAA与IIW是IBM从90年开始,和全球40多个发起公司合作开发的,包括了财产险、寿险、再保险等保险应用模型,现今全球有近140个用户在基于这个模型开发产品。

    当然,即便有IBM的帮助,要把整个企业数据库和应用系统替换掉也是不可取的,系统迁移的风险不谈,仅仅是数据的导入也已经十分复杂。为此,人保决定,先对数据分析的关键——IIW进行试点。

    人保的想法是,选择一个技术和条件比较好的省会城市做试点,这个城市既要业务多样,又要保单量中等,这样对于试验是比较客观的。经过一个月的仔细比较,最终这个艰巨的任务就落到了人间天堂——浙江杭州。

    杭州城下游临安 雷锋塔中寻白娘

    西湖水边晓月照 梅家坞中龙井香

    杭州确实是一个美不胜收的地方,但是作为本次IIW项目的参与人,张平(化名)此刻并没有心情游山玩水,因为在他面前,还有太多太多的挑战要克服。

    500万的压力

    张平来到中保浙江分公司后,主要的任务就是先协助员工把IIW建立起来,此后再把中保浙江分公司的所有的数据取出来,然后按照IIW的数据结构进行转换存储,建立一个标准的信息仓库,最后在此基础上建立两个小的数据集市,进行数据分析试验。整个试点项目耗资500万元人民币。

    在此有必要给不熟悉的读者对数据仓库的概念作一个简要介绍。顾名思义,数据仓库(Data Warehouse)就是一个仓库,里面分门别类存放了一个公司所有的数据。光有仓库是不能进行数据分析的,因为仓库中的数据是海量的,如果要对某种信息进行分析,比如客户信息,就要从仓库中抽取所有与客户有关的信息,拿出来建立一个集市(Data Market),这样才能保证分析的效率。这些集市在分析完成后可以保留也可以删除。

    不过张平也坦言,IIW是一个很大的架构,而且相当复杂,基本上囊括了财产险、寿险、再保险等所有内容,在国内还没有实施的经验,因此他感到压力很大。

    第一阶段——建库

    张平花了大约两周的时间与中保的高层在一起,主要是对数据仓库进行需求分析(Require Analysis)。因为双方都是第一次在国内进行类似试点,本着谨慎的态度,张平还特意邀请了IBM海外分公司的专家参与设计。

    其实,真正让张平担心的并不是需求分析这一块,因为这部分主要是由中保来完成的,真正让张平感到压力的是接下来的高层数据架构(High Level Data Model)的确定。

    所谓高层数据架构,就是指IIW最顶层的数据结构,是已经打包成熟的东西,包括了一系列的应用项目。而张平的主要工作就是和同事一起,鉴别IIW与目前中保的应用有什么不一样的地方。此后,张平大约花了10天时间,将IIW中的寿险、再保险、资金管理等内容去掉,确保双方应用的一致性。

    经历了高层架构的分析,张平已经保留了财产险所有的东西,但是涉及到中保本身,还是有很多和国外不一样的地方。因此,张平接下来又花了一周的时间进行需求模型(Require Model)的分析。在这一周里,张平的主要任务就是向IIW中补充一些中保的特殊业务。比如,张平发现,中保的客户中有一类是公司客户,这在国外的系统中是没有的,就需要加进去。

    张平事后回忆说,这三步做完以后,又花了大约三周的时间,把需求模型进一步细化到企业模型(Enterprise Model),然后再建设表阶段的物理模型(Physical Model),最后就是利用IBM的MMM(Multiply Model Mapper)工具将整套IIW表生成出来,达到物理实现(Physical Realization)。

    第二阶段——数据转换

    张平将上述建库过程作为整个项目的第一个里程碑,不过他解释说,接下来要做的工作将是最艰苦、最困难的。

    是什么让张平如此担心?原来,张平在将中保的现有数据转换到IIW中时,遇到了非常大的挑战。

    IIW是以客户的信息为中心的,它有自己的一套存储规则,这包括了数据存放架构(Object)和逻辑关系。但是现在中保的数据库基本上是从应用系统中产生的,因此数据存放的就不是那么科学。

    张平解释说,并不是说把数据堆在那里就是数据仓库了。国外的经验是把数据拿出来以后,按照架构分门别类的存放,把这些数据之间的关系理清楚,这样数据抽取的时候会比较好。

    现在中保现有的数据仓库也是这么做的,但是抽取的时候面比较窄。中保现有的数据库都是面向核心系统的,为了操作方便,所有表的设计都是以操作为基础的,保证的是效率。因此表都是基于保单的,而且很分散,因为保单是一张一张的,这张单的信息就放在这个表里。比如张平这个人,可以是被保险人、驾驶员、受益人、索赔人、肇事人等,在系统中多次出现,每次可能是不同接口,需要不同的录入阶段。但是真正的数据仓库张平就应该只有一条记录,当然可能会有历史信息,但是键值就应该是一个。

    这就是说,如果按照中保的数据仓库做分析,仅仅查张平这一个人的信息,就要遍历保单库、批单库、赔款库等等,效率很差。

    张平承认,他在接下来的首要任务,就是把中保以前的数据按照IIW标准结构放进去,那么被保险人就是一个标准的纪录,有唯一的ID(+微信关注网络世界),后面全是他的历史信息,包括保单的信息、标的的信息等等,都通过逻辑关系联系起来。那么对某个被保险人分析的话,就可以把后面一串信息找出来。

    第三阶段——数据分析

    在做数据转换的时候,张平就有一个感觉,数据分析绝对不会轻松,先不论他必须自己编写的一系列数据抽取转换和装载的程序,仅仅是把原数据与IIW数据关系整理清楚就非常困难。

    “因为它实在是太大了,如果要打官司的话,被保险人的代表律师是谁,地址、联系方式都有地方存”。张平介绍说,IIW把一个保险公司所有可数据化的信息都放在里面,包括保单的格式这种非结构化数据也可以。

    张平曾私下里透露,IIW虽然信息全面,但是过于复杂。他举例说,中保现在一张保单的信息大概是30~40条。但是IIW除了这些信息,还包括协议、协议说明、钱等诸多内容,钱下面还有限额、保额等子项目,其中还有可变信息,比如保费、本期应收、下期应收、应收实收、分几次交、什么时候交,非常详细。

    因此张平发现,用从中保应用系统来的原数据做的集市一共12张表,但是IIW现在要做的一个集市已经有96张表,何况这个表才这么小。不得以,张平只好把12张表的数据拆到96张表里面去,全部是手工写的程序,分析原始表的数据,哪些和IIW集市中的表对应,没有的东西还要生成出来放在那。

    比如,被保险人和保单,之间就要用逻辑关系连接起来。以往是一张保单所有信息都包括了,如姓名、地址、保费等,但是现在是一张保单分成10张表,10张表之间会有关系。对张平来说,他必须把一张单子拆分成10张,之间的关系要自己确定,这就是一个超复杂的东西。因为这不仅是一个最简单的一对多的情况,还有很多的多对一,多对多的情况。

    张平目前主要工作是在IIW中建立风险定价(Risk Pricing)和业绩预期(Sales Focus)两个数据集市。IIW有一个UPA(Underrating Profit Analysis)工具,就是进行风险自动分析。比如车险,把所有的承保、理赔、客户、车的信息放到数据集市里面去,然后UPA就可以把数据拿出来,进行运算,可以告诉你结果,比如年龄20~30岁左右,男性,驾龄在一年以下,风险大概有多少,保费应该收多少,赔付率多少等。

    但是他也承认,目前中保的原始数据收集的还非常不够,当然这也是国外保险公司几十年发展的沉淀。人家10年前业务量和国内差不多,当时数据收集很小,随着业务的发展,觉得光收集这么点不够,随着业务系统的更新,会逐步加一些东西,收集的数据越来越大,形成了IIW的基础。

    因此,张平认为目前的数据分析要想分析到100%是不可能的,他乐观的估计是60%,最多不超过70%,他说这与目前人保应用系统到IIW之间30%数据匹配缺失有关。

    另外,张平也建议人保开展数据质量的控制。从IT部门或者统计部门来看,都是希望数据越多越好。但是营业员那边,却是希望数据越少越好,这样可以出单快,要不然客户会投诉。幸运的是,人保方面采纳了张平的建议,开展了数据质量年的活动,从保单输入开始整顿,力求业务员信息采集准确。 ■

    项目插曲

    与老外吵架或者老外互相吵架

    IIW毕竟是一个模型,要是变成物理实现的时候,一定要把模型进行修改。再加上有些内容国内系统没有,那么怎么进行修改就是需要讨论的。落实到基层,就是某个原始数据表的某个列,是放在IIW的这个表里,还是那个表里。

    在做数据分析的时候,比如保费收入和赔款,有人、驾驶员、车、投保年限等一系列纬度信息,这些信息放在哪是有讲究的。(如下表所示)

    两种放置方式结果是一样的,但是操作步骤不一样。第一种一条记录,第二种两条记录,那么采用哪种模式是要决定的。两个都有道理,都可以实现,就是效率、空间等各方面问题。这种问题是没有简单的Yes or No的,是多花1秒钟,还是多占200K空间,即便是项目的设计者也经常出现意见不一,所以在整个试点过程中充满了中国人与外国人、外国人与外国人之间的争执。

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]