数据仓库的设计与开发(一).ppt
《数据仓库的设计与开发(一).ppt》由会员分享,可在线阅读,更多相关《数据仓库的设计与开发(一).ppt(50页珍藏版)》请在沃文网上搜索。
1、第第4 4章章 数据仓库的设计与开发数据仓库的设计与开发(一)(一)1n4.1 数据仓库分析与设计n4.2 数据仓库开发n4.3 数据仓库技术与开发的困难24.1数据仓库分析与设计n4.1.1 需求分析n4.1.2概念模型设计n4.1.3逻辑模型设计n4.1.4物理模型设计n4.1.5 数据仓库的索引技术34.1.1 需求分析n1.确定主题域n2.支持决策的数据来源n3.数据仓库的成功标准和关键性能指标n4.数据量与更新频率41.确定主题域确定主题域(1)明确对于决策分析最有价值的主题领域有)明确对于决策分析最有价值的主题领域有哪些?哪些?(2)每个主题域的商业维度是哪些?每个维度)每个主题域
2、的商业维度是哪些?每个维度的粒度层次有哪些?的粒度层次有哪些?(3)制定决策的商业分区是什么?)制定决策的商业分区是什么?(4)不同地区需要哪些信息来制定决策?)不同地区需要哪些信息来制定决策?(5)对哪个区域提供特定的商品和服务?)对哪个区域提供特定的商品和服务?52.支持决策的数据来源支持决策的数据来源(1)哪些源数据(操作型)与商品主题有)哪些源数据(操作型)与商品主题有关?关?(2)在已有报表和在线查询中得到什么样)在已有报表和在线查询中得到什么样的信息?的信息?(3)提供决策支持的细节程度是怎样的?)提供决策支持的细节程度是怎样的?63.数据仓库的成功标准和关键性能指标数据仓库的成功
3、标准和关键性能指标(1)衡量数据仓库成功的标准是什么?)衡量数据仓库成功的标准是什么?(2)哪些关键的性能指标?如何监控?)哪些关键的性能指标?如何监控?(3)对数据仓库的期望是什么?)对数据仓库的期望是什么?(4)对数据仓库的预期用途有哪些?)对数据仓库的预期用途有哪些?(5)对计划中的数据仓库的考虑要点是什)对计划中的数据仓库的考虑要点是什么?么?74.数据量与更新频率数据量与更新频率(1)数据仓库的总数据量有多少?)数据仓库的总数据量有多少?(2)决策支持所需的数据更新频率是多少)决策支持所需的数据更新频率是多少?时间间隔是多长?时间间隔是多长?(3)每种决策分析与不同时间的标准对比)每
4、种决策分析与不同时间的标准对比如何?如何?(4)数据仓库中的信息需求的时间界限是)数据仓库中的信息需求的时间界限是什么?什么?8通过需求分析,需要的数据包括:通过需求分析,需要的数据包括:n1.数据源数据源n(1)可用的数据源)可用的数据源n(2)数据源的数据结构)数据源的数据结构n(3)数据源的位置)数据源的位置n(4)数据源的计算机环境)数据源的计算机环境n(5)数据抽取过程)数据抽取过程n(6)可用的历史数据)可用的历史数据9n2.数据转换数据转换n数据仓库中的数据是为决策分析服务,数据仓库中的数据是为决策分析服务,而源系统的数据为业务处理服务。而源系统的数据为业务处理服务。n需要决定如
5、何正确地将这些源数据转换需要决定如何正确地将这些源数据转换成适合数据仓库存储的数据。成适合数据仓库存储的数据。10n3.数据存储数据存储n数据仓库所需要的数据的详细程度,包数据仓库所需要的数据的详细程度,包括足够的关于存储需求的信息,估计数括足够的关于存储需求的信息,估计数据仓库需要多少历史和存档数据。据仓库需要多少历史和存档数据。11n4.决策分析决策分析n(1)向下层钻取分析)向下层钻取分析n(2)向上层钻取分析)向上层钻取分析n(3)横向钻取分析)横向钻取分析n(4)切片分析)切片分析n(5)特别查询报表)特别查询报表124.1.2概念模型设计概念模型设计n概念模型的特点是:概念模型的特
6、点是:n(1)能真实反映现实世界,能满足用户对数据的分析,)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。达到决策支持的要求,它是现实世界的一个真实模型。n(2)易于理解,便利和用户交换意见,在用户的参与)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。下,能有效地完成对数据仓库的成功设计。n(3)易于更改,当用户需求发生变化时,容易对概念)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。模型修改和扩充。n(4)易于向数据仓库的数据模型(星型模型)转换。)易于向数据仓库的数据模型(星型模型)转换。13n概念
7、模型最常用的表示方法是实体关系法(概念模型最常用的表示方法是实体关系法(E-R法)。法)。nE-R图描述的是实体以及实体之间的联系,图描述的是实体以及实体之间的联系,n用长方形表示实体,在数据仓库中就表示主题,椭圆形表用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;示主题的属性,并用无向边把主题与其属性连接起来;n用菱形表示主题之间的联系,用无向边把菱形分别与有关用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接。的主题连接。n若主题之间的联系也具有属性,则把属性和菱形也用无向若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上
8、。边连接上。14例子例子n有两个主题:商品和客户,主题也是实体。有两个主题:商品和客户,主题也是实体。n 商品有如下属性组:商品有如下属性组:n商品的固有信息(商品号、商品名、类别、价格等);商品的固有信息(商品号、商品名、类别、价格等);n商品库存信息(商品号、库房号、库存量、日期等);商品库存信息(商品号、库房号、库存量、日期等);n商品销售信息(商品号、客户号、销售量等);商品销售信息(商品号、客户号、销售量等);n客户有如下属性组:客户有如下属性组:n客户固有信息(客户号、客户名、住址、电话等);客户固有信息(客户号、客户名、住址、电话等);n客户购物信息(客户号、商品号、售价、购买量
9、等)。客户购物信息(客户号、商品号、售价、购买量等)。n商品的销售信息与用户的购物信息是一致的,它们是两商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。个主题之间的联系。15商品商品固有信息商品号商品库存信息销 售 信息购物信息 客户客户固有信息客户号=164.1.3逻辑模型设计逻辑模型设计n主要工作为:主要工作为:n(1)主题域进行概念模型()主题域进行概念模型(ER图)到逻图)到逻辑模型(星型模型)的转换辑模型(星型模型)的转换n(2)粒度层次划分)粒度层次划分n(3)关系模式定义)关系模式定义n(4)定义记录系统)定义记录系统171、主题域进行概念模型到逻辑模型的转换。
10、、主题域进行概念模型到逻辑模型的转换。n星型模型的设计步骤如下:星型模型的设计步骤如下:n(1)确定决策分析需求)确定决策分析需求n决策需求是建立多维数据模型的依据。决策需求是建立多维数据模型的依据。n(2)从需求中识别出事实)从需求中识别出事实n选择或设计反映决策主题业务的表,如在选择或设计反映决策主题业务的表,如在“商商品品”主题中,以主题中,以“销售业务销售业务”作为事实表。作为事实表。n(3)确定维)确定维n确定影响事实的各种因素,对销售业务的维包确定影响事实的各种因素,对销售业务的维包括商店,地区,部门,城市,时间,商品等,括商店,地区,部门,城市,时间,商品等,如图如图4.2所示。
11、所示。18销售数据和维销售数据商品促销时间部门城市地区商店图图4.2 销售业务的多维数据销售业务的多维数据19(4 4)确定数据汇总水平确定数据汇总水平 数据仓库中对数据不同粒度的集成和综合,数据仓库中对数据不同粒度的集成和综合,形成了多层次、多种知识的数据结构。例如,对形成了多层次、多种知识的数据结构。例如,对于时间维,可以以于时间维,可以以“年年”、“月月”或者或者“日日”等等不同水平进行汇总。不同水平进行汇总。(5 5)设计事实表和维表)设计事实表和维表 设计事实表和维表的具体属性。在事实表中设计事实表和维表的具体属性。在事实表中应该记录哪些属性是由维表的数量决定的。一般应该记录哪些属性
12、是由维表的数量决定的。一般来说,与事实表相关的维表的数量应该适中,太来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质量,用户得不到需要的少的维表会影响查询的质量,用户得不到需要的数据,太多的维表又会影响查询的速度数据,太多的维表又会影响查询的速度。20(6 6)按按使使用用的的DBMSDBMS和和分分析析用用户户工工具具,证证实实设计方案的有效性设计方案的有效性 根根据据系系统统使使用用的的DBMSDBMS,确确定定事事实实表表和和维维表表的的具具体体实实现现。由由于于不不同同的的DBMSDBMS对对数数据据存存储储有有不不同同的的要要求求,因因此此设设计计方方案案是是否否有有
13、效效还还要要放放在在DBMSDBMS中中进进行行检验检验 (7 7)随着需求变化修改设计方案随着需求变化修改设计方案 随随着着应应用用需需求求的的变变化化,整整个个数数据据仓仓库库的的数数据据模模式式也也可可能能会会发发生生变变化化。因因此此在在设设计计之之初初,充充分分考考虑数据模型的可修改性可以节省系统维护的代价虑数据模型的可修改性可以节省系统维护的代价。21从的从的ER图转换成星型模型实例说明图转换成星型模型实例说明 n(1)业务数据的)业务数据的E-R图图销售销售日期商店号商品号销售数量销售单位商品商品号商品名商品类号存货星期商店号商品号数量1m1m商店商店号商店名地址城市省邮编地区号
14、1mm11商品类商品类号商品类名部门号m1m地区地区号地区名22n(2)E-R图向多维表的转换图向多维表的转换n该问题的多维表模型中,该问题的多维表模型中,商品维商品维包括部门、商包括部门、商品和商品大类,品和商品大类,地点维地点维包括地区和商店,忽略包括地区和商店,忽略存货,而只注意销售事实。在存货,而只注意销售事实。在E-R图中不出现图中不出现的时间,在多维模型中增加的时间,在多维模型中增加时间维时间维。n在多维模型中,实体与维之间建立映射关系,在多维模型中,实体与维之间建立映射关系,联系多个实体的实体就成为事实,联系多个实体的实体就成为事实,此处销售实此处销售实体作为事实,其他实体作为维
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 设计 开发