商务智能技术在银行业务中基于数据仓库的研究与实现.doc
《商务智能技术在银行业务中基于数据仓库的研究与实现.doc》由会员分享,可在线阅读,更多相关《商务智能技术在银行业务中基于数据仓库的研究与实现.doc(40页珍藏版)》请在沃文网上搜索。
1、摘要论文选定商业银行应用,分析了国内商业银行的BI实现的模式以及技术。对BI的三大支柱技术为支点,从BI的定义、BI的功能和应用、BI在银行的应用现状展开分析了银行BI的整体架构、核心技术:数据仓库技术、联机分析处理、数据挖掘技术,并且深入到了分布式数据仓库、应用数据库、ETL技术、分区映射、数据建模、维、度量、维的结构集合这些细节技术中结合银行的具体应用进行了分析。关键字:商务智能、数据仓库、联机分析处理、数据挖掘、多维分第 2 页 共 40 页目录论文摘要1目录2第一章、商务智能综述31.1商务智能(BI)的定义31.2BI的功能与应用范围41.3BI在商业银行中的应用现状5第二章、银行B
2、I系统构建72.1.BI系统模型72.2.银行BI实施方案9第三章、银行中BI系统核心技术143.1.数据仓库技术173.1.1.分布式银行数据仓库173.1.2.原始数据库193.1.3.应用数据库203.1.4.ETL技术223.1.5.分区映射(Partition Mapping)263.2.联机分析处理283.3.数据挖掘技术283.4.数据建模293.4.1.维293.4.2.度量303.4.3.维的结构集合313.4.4.建模函数33第四章、总结与展望38参考文献39第一章、 商务智能综述据MetaGroup统计,企业数据仓库以及商业智能市场已达到40亿美元,并有望在2008年底增
3、长至100亿美元。这样巨大的市场份额充分说明了商业智能市场的吸引力。深入了解吸引力的根源,要从商务智能的概念说起。1.1 商务智能(BI)的定义早在90年代末国外企业界就出现了商务智能这个术语,它代表的是为提高企业运营性能而采用的一系列方法、技术和软件。到目前为止,BI还没有准确的定义,大体可以分成方法论、数据分析论、信息系统论以及知识论笔者注:方法论的观点: BI是通过利用多个数据源的信息以及应用经验和假设来促进对企业动态特性的准确理解,以便提高企业决策性能的一组概念、方法和过程的集合。它通过对数组的获取、管理和分析,为贯穿企业组织的各种人员提供信息,以提高企业战略决策和战术决策能力。数据分
4、析的观点:BI是通过获取与各个主题相关的高质量和有意义的信息来帮助人们分析信息、得出结论、形成假设的过程。信息系统的观点:BI是为用户提供OLAP和其他对企业问题进行分析、预测趋势功能的信息系统。知识论的观点:BI是将数据转变成信息,而后通过发现,将信息转变成知识的过程。3 这样几种解释。综合这几种商务智能的解释,并结合软件技术实现,笔者比较认同如下的定义:商务智能(Business Intelligence,简称BI)是运用了数据仓库(DW)、在线分析(OLAP)和数据挖掘(Data Mining)技术来处理和分析数据的技术,它允许用户查询和分析数据库或数据仓库,进而得出影响商业活动的关键因
5、素,最终帮助用户做出更好、更合理的决策18。本文所要研究的商务智能主要是商务智能的软件解决方案,从这一角度来看,数据仓库、在线分析和数据挖掘是BI的三大技术支柱1。数据仓库(Dataware, DW)可谓是另外两种技术的实现基础,是用以更好地支持企业或组织的决策分析处理的的数据集合,它的关键技术包括数据的抽取、清洗、转换、加载和维护技术。数据仓库具有面向主题、集成、相对稳定、随时间不断变化这四种特性。正是这四种特性将数据仓库与传统的面向事务处理的数据库区分开来。在线分析(On-Line Analytical Processing,OLAP),又称之为联机分析,是以海量数据为基础的复杂分析技术。
6、 它支持各级管理决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析处理,并且能以直观易懂的形式将查询和分析结果展现给决策人员。数据挖掘(Data Mining)是和联机分析处理一起,称之为数据仓库之上的增值技术。它是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。数据挖掘可以从数据仓库、数据库或其他数据源来进行,并且数据都需要再次进行选择,选择方式与任务相关。数据挖掘的结果只有进行了评价才能最终成为有用的信息。按照评价结果的不同,挖掘出的数据有可能需要反馈到不同的阶段,重新进行分析计算。常用的方法包括关联分析、分类和预测、聚类、检测离群点、
7、趋势和演变分析等。充分利用三种技术的这些特点,巧妙结合,BI具有了以下功能,并且广泛的应用在了企业业务范围中。1.2 BI的功能与应用范围在信息全球化的大潮流下,信息爆炸的趋势正在加速强化,再加上企业发展的节奏越来越快,复杂性也越来越高,如何聪明的筛选信息、善用信息、形成智慧、有效的支持决策,已经是银行业、电信业、保险业等需要处理海量数据的行业企业所无法逃避的问题。而BI可以说是处理这一问题最为有效的解决方案。从数据角度看,BI使得很多事务性的数据经过抽取、转换之后存入数据仓库,经过聚集、切片或者分类等操作之后形成有用的信息、规则,企业的决策者可以根据这些信息、规则进行正确的决策。从技术角度看
8、,BI经由企业的决策人员以企业中的数据仓库为基础,应用联机分析处理工具、数据挖掘工具对数据进行处理,再加上决策规划人员的专业知识,从数据中获得有用的信息和知识以后帮助企业获取利润。从应用角度看,BI可以帮助用户对商业数据进行在线分析处理和数据挖掘,例如预测发展趋势、辅助决策、对客户进行分类、挖掘潜在客户等等。只是在方案的实际实现过程中,数据和技术如果没有了实际应用作为组建的指导思想,它们也就没有存在价值。所以,解决方案往往在实际当中需要基于这样几种应用方向来设计:(1)客户分类和特点4:根据客户历年来的大量消费纪录以及客户的档案资料,对客户进行分类,并分析每类客户的消费能力、消费习惯、消费周期
9、、需求倾向、信誉度,确定哪类顾客给企业带来最大的利润,哪类顾客进给企业带来最小的利润同时又要求最多的回报,针对不同类型的客户给于不同的服务及优惠。(2)市场营销策略7:利用数据仓库技术实现市场营销策略在模型上的仿真,其仿真结果将提示所制定的市场营销策略是否合适,企业可以据此调整和优化其市场营销策略,使获得最大的成功。(3)经营成本与收入6:对各种类型的经济活动成本核算,比较可能的业务收入与各种费用之间的收支比例,分析经济活动的曲线,得到相应的改进措施和办法,从而降低成本、减少开支、提高收入。(4)欺诈行为分析和预防6:利用联机分析和数据挖掘技术,总结各种骗费、欠费行为的内在规律后,在数据仓库的
10、基础上建立一套欺骗行为和欠费行为规则库,就可以及时预警各种骗费、欠费,尽量减少企业损失。而笔者在实际实践当中,接触到的也正是BI系统在银行业务中的应用。1.3 BI在商业银行中的应用现状国内银行在多年的运作中,积累了大量的客户数据和经营数据。这些数据是企业的宝贵财富。企业的成败得失、经验教训都蕴藏其中。近几年各银行的数据大集中以及系统一致方面已经取得了很大进展,银行每一笔贷款的发放,每一项业务的经营每一个项目的安施,发生的数据在计算机信息系统中都有所记录,BI建制的信息化基础已经具备21。挖掘数据和把握数据中的规律性,使银行运作得更有成效,是每家银行所希望的。2004年9月,建设银行已经完成了
11、江苏、内蒙古等11个省(市、自治区)分行核心业务系统的统一、数据全辖集中的数据处理,实现了上挂南、北两数据中心的工作,行内将统一的数据系统称之为DCC系统(Data Centralization Construct)。而工商银行,中国银行等国有银行以及招商银行、光大银行等股份制商业银行也在不同程度上实现了将分散于各分行的业务数据集中到总行数据处理中心的工程,并且建立起高效、统一的信息处理平台21。正是在这样比较良好的的数据集中的基础之上,各银行已经开始步入提升系统应用水平的阶段。以山东建行为例,银行最核心的功能已经实现由综合实力优越的BI系统来完成。2004年山东建行每天分析出来的结果就有40
12、0多张报表,产生了大约8万多个分析结果,涵盖了全行地市285个核算机构。这些结果能够满足从普通客户经理、县级管理层到高层决策人员的多层需求22。而BI系统在预警方面更满足了银行的特殊需求。根据山东建行信息中心技术经理杨欣华的介绍22,BI的警戒线预警、趋势预警和业务提醒三种功能正是建行预警方面需求的解决方案。银行的营销高层领导在系统的提醒和分类下,能够及时准确地得到市场分析结果,从而能够更早地决策和处理,使他们由指导、策划、控制事无巨细的监管者变为实现规范管理的简约管理指挥员。而趋势预警对收集的信息进行分析处理之后,一旦发现某个业务指标连续多个时间段下降或者上扬,连续的大幅度波动,预测结果的异
13、常走势,系统都可以进行预警提醒。至于业务提醒,是根据信息的重要程度设置的不同的优先级别,以及突发重要事件,来进行提醒的。例如:如果不良贷款的某项指标大幅度波动,通过警戒线预警和业务提醒就可以迅速地提示决策者和相关的业务人员,及时地采取相应的行动。建行的不良贷款率在全国国有大银行中是比较低的,这其中BI系统起了重要的作用。由此可以看出,BI对于银行来说是非常必要而且重要的,所以BI系统的建制更是正当时的,非常紧迫的。本文将在后面的章节中,针对银行的BI建制进行详细的技术方案分析。第二章、 银行BI系统构建如前章所提,银行商业智能的建立需要通过数据仓库的整合,实现对银行所有经营信息和客户信息的有效
14、存储,并针对银行不同的管理决策需要,进行多层次数据加工处理以满足银行管理决策和客户分析的需要。所以,BI系统需要根据这样的系统功能结构来设计,并结合技术的特点进行系统构建。2.1. BI系统模型众多的世界顶级IT厂商业已纷纷介入BI领域,提出了自己的方案体系,如:Business Objects、Brio、Cognos、Oracle、微软、IBM、惠普等。而IBM提出的BI构建模型在项目的架构及流程设计、系统的维护、性能的优化等方面都颇有借鉴价值。下面就IBM提出的“Business Intelligence Methods”BI模型,结合银行需求进行分析。(4)(1)(5)(6)(7)(8)
15、(3)(2)(9)图2.1 IBM BI系统解决模型从上图中,可以看出IBM的BI解决方案由9个模块组成,其中:模块(1)是“可操作的、e-Business、外部数据”,这部分是整个BI解决方案的数据源头,来自银行的各个业务系统,也是银行在数据集中时所针对的数据。模块(2)-(9)则属于BI系统的内部,其中模块(2)“系统管理”是贯穿整个BI内部的系统管理和维护模块,模块(3)“元数据(MetaData) 见本页“3)元数据管理定义”。 ”是贯穿整个BI内部的数据标尺,是最小的数据单位即数据原子,也是数据管理粒度的基础。除了模块(2)(3)是根据管理需要从原始数据衍生出来的数据以外,另外几个模
16、块都是对原始数据进行处理的。数据由模块(1)收集之后,进入模块(4)“数据仓库建模及构造工具”,进而通过模块(5)“中间件服务器”流入模块(6)“数据管理”,进行数据仓库的维护。新的规范好的数据从“数据管理”再通过模块(5)“中间件服务器”的数据访问支持,并流向模块(7)决策支持工具。在模块(7)的决策支持工具模块中可以产生分析报表,然后提供给模块(8)“商业智能应用软件”。通过模块(8)“商业智能应用软件”将数据传送给最终的模块(9)企业信息入口展现。每一模块的具体功能描述如下11:1) 可操作的、e-Business、外部数据是指数据仓库的数据来源,包括在进行的商业运作过程中产生的各种业务
17、数据、电子商务(e-Business)系统运行过程中产生的数据和从企业外获取的商业数据。北京建行的数据从总帐MIS系统,个人信贷业务系统PCB,国际综合业务系统,网上银行系统WBS等,银行原有的业务系统中抽取数据。2) 系统管理对商务智能系统进行管理,包括安全性和验证、权限设置、设备和恢复、监控和调整、审核等。银行工作人员,可以通过BI系统的WEB端,根据系统程序中设定的标志性数据监控全程的系统运作。例如在数据装数过程中,EC程序本身设定了参数tag来判断装数是否成功,如果tag=1则表示本日数据装数成功,WEB端直接截取tag值就可以监控数据的装数过程。3) 元数据管理(Metagata)是
18、用于管理整个商务智能系统的元数据。元数据是关于数据的数据,也就是对数据仓库中的数据加以说明的资料,包括数据存储格式、数据量、数据来源、数据内容的关键字和数据的存储位置等。4) 数据仓库建模及构造工具用于从可操作的和外部的数据源系统中收集数据,并进行清理和转换,然后存入银行数据仓库或部门数据仓库。5) 中间件服务器:用于维护支持数据管理的服务器。实际项目实施中,因为客户要求节省服务器资源,所以并没有设置中间件服务器,而是在系统设计中加强程序维护的设计。6) 数据管理用于管理用户采集的商业信息。商业信息被分成三个层次:最上面是企业数据仓库,集成整个企业的商业信息;中间层是部门数据仓库(一般被称为数
19、据集市),包含部门的商业信息;最底层是个人信息库,用于存放用户个人所需或特殊用途的信息。7) 决策支持工具包括查询和报表工具、在线分析处理OLAP和信息挖掘工具。所有这些工具都支持GUI客户界面,也可以在WEB界面上使用。这些工具能够处理来自不同数据库和文件系统的信息,包括结构化和非结构化的数据。项目中选用了具有目前世界先进水平的MicroStretegy(MSTR)技术平台作为决策支持工具的实现平台。8) 商务智能应用软件提供许多针对不同行业特点或特定应用领域的商务智能解决方案软件包,帮助用户解决在商务活动中所遇到的复杂问题。9) 企业信息入口企业信息入口(Enterprise Inform
20、ation Portal)提供了一个用户与企业的商业信息和应用软件间基于Web的接口。企业的商业信息,不只是被储存在数据仓库中而是分布在不同的系统和应用软件之中。2.2. 银行BI实施方案对于大型集成应用系统,合理的规划是建制成功的关键,并且需要降低开发风险与成本,排除潜在的障碍,这也是北京建行的项目实施原则。结合IBM公司的商务智能系统结构的理论,建立如下一套完整的银行BI系统。(8)系统管理(4)(3)(5)(7)电子报(2)(1)(6)图2.2 银行BI系统实际方案上图中相对于IBM的解决方案存在一些不同之处:这里省去了元数据管理模块,整合到了(5)MSTR模块中,因为针对数据的报表展现
21、、OLAP分析、数据挖掘建立模型形成的元数据需要配置比较集中的管理。至于(3)和(4)两个模拟数据库,采取直接以原始的数据最小粒度来进行数据的整合、清洗、主题划分的方式处理。另外该方案中加入了一个数据流向(7)电子报表,这是根据银行管理的特殊需求设计的。因为(2)外部数据源DCC位于总行,这部分数据是从各个分行下属的营业网点直接传送到总行系统中,并不经过分行,更主要的是分行需要这些原始数据打印相关的报表。出于银行安全考虑(分行必须且只允许从总行得到电子报表数据)采用特殊处理模式。为了兼容原有的管理模式,设定位于分行的数据处理部分(4)模拟应用数据库接收(7)电子报表这条数据流向。而商业智能应用
22、软件模块的功能对于银行来说可以根据未来实际需要定制开发即可,所以暂时没有进行统一规划。因此,完整的银行BI系统结构如下:在此次项目中,银行数据仓库建立成逻辑思想上的两个虚拟数据库,原始数据库和应用数据库,根据数据的转换的性质,他们分别实现不同的功能。模型中(1)和(2)两个模块是分行业务系统的数据和总行DCC返传数据这两大不同的源数据来源,它们遵循源数据表结构不变原则保存在(3)模拟原始数据库,建立全局性原始数据库。而(3)模拟原始数据库的这些数据是可以直接从历史数据管理系统得到总行的DCC返传数据,并且从分行业务系统中抽取数据以实现数据自动采集的。再加上,还需要将一些手工管理的数据纳入到系统
23、中进行管理,于是这些数据就需要补录并且保存在原始数据库或者应用数据库中。补录由银行的业务管理人员来操作,所以需要提供灵活、方便的录入、审批流程和友好的用户操作界面。在上面陈述的这些数据采集过程中,原始数据库需要做的是对数据统一类型,统一管理,使数据符合一致性和有效性,最终消除“蜘蛛网”和数据异构等问题。而字段名称、字段类型和数据说明则仍然需要保留原样。采集到(3)模拟原始数据库中的数据主要是按照主题分类保存,其中包含一些下属分理处已经生成的固定报表、统计报表。这些原始数据通过ETL工具Adt_moia进行清洗、重组,实现数据集市的构造、建模转换以后,经中间件送到(4)模拟应用数据库,进一步转化
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 智能 技术 银行业务 基于 数据仓库 研究 实现