1、山东大学硕士学位论文目录摘 要IABSTRACTIII第1章 绪论11.1 选题背景11.2 高校研究生数据统计研究现状21.2.1 研究生管理信息系统功能描述及数据统计重要性21.2.2研究生管理信息系统数据统计研究现状及存在的问题31.3 本文的主要工作51.4 本文的组织结构6第2章 研究生数据统计需求分析72.1研究生学籍情况数据统计分析72.2研究生就业情况数据统计分析82.3研究生数据统计展现方式分析9第3章 数据统计过程103.1 数据仓库的概念103.1.1 数据仓库的产生103.1.2 数据仓库的基本概念103.1.3 数据采集概念113.2数据统计介绍123.2.1 多维数
2、据模型相关概念123.2.2 数据统计流程介绍153.3 研究生数据统计详细过程173.3.1 研究生数据统计模型构建183.3.2研究生数据统计ETL实现203.3.2.1数据抽取过程213.3.2.2数据的清洗与转换273.3.2.3 数据的装载过程31第4章 统计数据输出334.1 Excel格式报表实现统计数据的输出334.2图表格式实现就业数据输出38第5章 总结与展望42参 考 文 献44致 谢46ContentsABSTRACTIABSTRACTIIIChapter 1 Introduction11.1 Background11.2 Statistics of graduate
3、education research21.2.1 Postgraduate management information system function description and the importance of statistical data21.2.2 Research objective and problems in statistical data of postgraduate management information system31.3 Primary contens of this thesis51.4 Thesis structure6 Chapter 2 S
4、tatistical analysis of graduate students data72.1 Statistical analysis of graduate school data72.2 Statistical analysis of graduate employment data82.3 Analysis of statistical research data show way9Chapter 3 Statistical process103.1 The concept of data warehouse103.1.1 The generation of data wareho
5、use103.1.2 The basic concept of data warehouse103.1.3 The concept of data acquisition113.2 Introduction of statistics123.2.1 Multidimensional data model concepts123.2.2 The process of data cleaning and conversion153.3 3.3 The details of the post-graduate statistics process173.3.1 Establishment of th
6、e model of postgraduate statistics183.3.2 ETL implement graduate statistics203.3.2.1 Data extraction process213.3.2.2 The process of data cleaning and conversion273.3.2.3 The process of data loading31Chapter 4 Output statistics statistics334.1 Excel format output334.2 Chart format output38Chapter 5
7、Conclusions and prospect42References44Acknowledgments46iii摘 要随着科学技术的发展,信息化、数字化风暴席卷全球,各大高校纷纷采用计算机平台进行日常办公、人事管理等。这些业务系统为我们的生活带来便利的同时,也存储了丰富的业务数据1。在这个信息爆炸的时代,从海量业务数据中挖掘出有效的、新颖的、潜在有用的、最终可理解的信息,并将这些抽象数据直观形象地展现给用户,以支持用户进行数据分析和行政决策,成为目前校园信息化建设的一项巨大的工程。本文在对国内外数据统计研究现状分析的基础上,结合本校的实际,提出了一套符合本校需要的数据统计及展现的解决方案。
8、研究生数据统计以山东大学研究生管理信息系统为背景,通过引入创新的数据统计模型进行有效的数据统计。统计工作面向研究生管理信息系统各类用户的需求,为教育事业分析预测提供准确依据,满足学校管理人员和教育事业研究人员对山东大学研究生各方面数据的需求。 本文以ETL过程为主线,描述了山东大学研究生在学籍和就业方面的数据统计过程。统计过程涉及数据的抽取、数据的清洗和转换、数据的加载三个阶段。经过以上三个阶段的预处理,源数据被转换成准确、规范的格式以报表的形式进行展现。在需求分析中,首先分析了研究生数据统计的重要性和目前存在的问题,明确了研究生数据统计的必要性;其次,引入多维数据模型的相关概念,解决了统计结
9、果的存储问题;再次,分别描述了研究生学籍和研究生就业的数据统计过程;最后,介绍了统计数据的展现方式。在数据统计过程中,首先介绍了数据仓库的概念和特点,着重分析了数据仓库的产生原因、数据仓库的基本概念和数据采集的相关知识;其次分析了数据统计的重要性,并介绍了数据统计的流程;最后以研究生就业数据的统计为例,详细描述了数据的ETL过程。在统计数据输出阶段,介绍了一种面向客户的统计数据查询和展现方法,并针对不同用户对数据格式的不同需求,将数据的展现分为Excel、饼状图和柱状图三种模式。最后以上述三种模式展现了山东大学研究生学籍和就业的统计数据。当前山东大学研究生数据统计工作已经完成,统计结果已经按照
10、要求展现,统计数据准确有效,为学校研究生管理人员和国家教育事业研究人员进一步分析预测提供了依据。关键词:数据统计;ETL;多维数据模型;报表展现ABSTRACTAs science and technology development, information technology and digital storm sweeping the globe, major universities have used computer platforms to do routine office and personnel management. These business systems co
11、nvenient our lives, and also stores a wealth of business data 1. In this era of information explosion, mining an effective, novel, potentially useful and ultimately comprehensible information from a massive data, and visually display the abstract data to the user, to support users to implement data
12、analysis and administrative decision-making, becomes a large project of the campus information construction. This paper based on the analysis of the status of domestic and foreign statistical research, combined with the actual school, proposed a set of statistics and display solutions to meet school
13、 needs.Graduate statistics is based on the backgrounds of the Shandong University graduate management information systems, which adopts advanced design concept and builds a series of statistical process. The statistical work is oriented to the various users of the graduate management information sys
14、tem, whose goal is to provide accurate forecasts and effective basis for the national education. And the results meet the needs of national education researchers and the relative administrators of Shandong University on all aspects. This paper takes data ETL process as its main line, talking about t
15、he Statistical Process of specific data at the aspect of Shandong University graduate student status and employment. At the same time, it describes the process of statistical data analysis for some relevant requirements, which involves data extraction, data cleansing and conversion and loading data.
16、 After the three stages of statistical data pre-processing, statistical data is transformed into accurate and standardized data format and is stored into the corresponding data warehouse in the Multidimensional data model.First, we elaborate on the importance of graduate statistics and current probl
17、ems in our requirement analysis, and then introduce the concept of multidimensional data model to describe the relevant results of the storage problem. After that, we respectively describe the statistical process of all cases of graduate student and graduate employment in detail. And we describe the
18、 relationship between the relevant business forms, the specific data extraction process and the data storage model. Finally, we introduced the data output of the specific ways.After a series of statistical processes, we have to show statistical results to the user before the end system. For the diff
19、erent needs of data formats from various users, we show the data output model in the format of Excel, pie charts and bar charts. In the realization stage, we introduce the report generation system for specific functions and export processes. And the final result of the statistical data is showed in
20、the three formats that we talked about above.Now, the statistics of Shandong University graduate has been completed. And the final results have been showed in the format of user needs. The statistics is accurate and effective, which provides scientific basis to National education researchers and Sch
21、ool administrators for further analysis and forecasting.Keywords: Statistics; ETL; Multidimensional data model; Reports show;III第1章 绪论1.1 选题背景为了更好的对全国教育事业进行分析预测,国家每年都会对全国各高校研究生情况进行相关统计,需要统计的信息涉及高校研究生各方面情况,包括学籍信息,招生管理信息,就业信息等。为了配合国家对这些信息的需求,学校研究生院每年都会对当年在校研究生情况进行统计。而近年来,随着高校研究生数量的增加,学校对研究生信息统计的工作量加大,
22、使得相关的数据统计工作难度增大,对数据统计的技术也要求更高。本文就是在这种背景下对数据统计的主要工作进行分析研究。高校研究生信息统计是研究生教育的一个重要环节,是一项涉及多部门协调工作的统计过程。学校研究生部的工作非常繁杂,信息采集工作涉及学生的来源、招生、入校、学习、生活、论文、成果、毕业等各个方面,工作主要包括数据录入、数据处理、信息输出和数据导出等。统计数据经过处理后以适当的形式输出相关文件或表格,如高等学校研究生信息基本表,包括在校学生年龄情况表、学生来源情况表、学生变动情况表等,另外还有学生就业信息统计表,包括研究生就业单位分布表、就业流向表等,然后将处理后的数据按一定格式上报教育部
23、。就目前而言,大量信息的管理,仍以手工处理为主,除纸质的材料外,所谓信息处理往往以Excel报表为载体,存储在计算机的大量文件中。学校研究生部急需一套承上启下、包容和协调日常大量业务处理和数据存储、分析的综合信息统计方法。在山东大学研究生管理信息系统中有在全国范围内统一的信息采集规范,使得上报工作有法可依。但是由于面向的用户不同,对学校而言,学校级客户端面对该校每一个应届研究生,使用该客户端,只能采取专人负责手工输入每个学生个人信息的办法,既费时费力又容易出错。要弥补系统中的这种缺陷,就需要有针对性的建立既适用于我校研究生学生管理工作流程,又能很好的适应国家对于信息搜集要求的数据统计方法。这样
24、可以修改小部分的数据结构,在学生入学时即导入尽可能完整、格式正确的信息,有必要采用B/S结构实现信息的分散采集的方法,在日常信息管理时就包含国家统计所需要的信息,通过学校级的系统数据筛选导出可直接为国家对研究生信息统计所用的完整、准确的数据文件。研究生信息数据统计工作就是以山东大学研究生管理信息系统的相关业务为背景进行的。1.2 高校研究生数据统计研究现状高等学校研究生教育数据统计是在高校管理信息系统背景下对在校研究生在统计当年相关数据的统计,随着计算机软硬件技术、通信技术及信息处理技术一级信息处理技术的高速发展,管理信息系统(Management Information System, MI
25、S)在这种情况下得到了高度的重视和更快的发展,数据统计作为校园信息化的一个重要组成部分对加速校园信息化的发展起到巨大的作用。1.2.1 研究生管理信息系统功能描述及数据统计重要性山东大学研究生管理信息系统是面向全校研究生及研究生管理人员使用的信息化系统,包括研究生入学、在校及毕业的各项工作。系统中主要功能包括:研究生招生各项功能、研究生培养方案确定、研究生课程和教学任务管理、研究生选课和成绩管理、研究生学籍管理、研究生学位管理等。上述的每个功能都涉及到大量该功能所需的业务数据,这些业务数据以一定的规则存储在相关的关系数据库中,这些数据的存储规则只有业务人员熟悉,作为系统的使用者,要想自己从这些
26、大量的业务数据中得到自己所需的数据是不可能的,这时候数据统计工作就显示出他的优越性。数据统计是由业务人员操作完成,通过对数据库表的查询、筛选得到用户所需数据,这些数据再经过转换和集成存入数据仓库中,最终以用户所需格式输出。这就是一个简单的数据仓库的ETL过程。国家每年对研究生各项基本数据的统计是国家对高校教育事业发展规划的基础,在统计出的数据基础上,分析各高校研究生信息。要将庞大的数据转换成为有用的信息和知识,必须要先有效地收集信息,功能完善的数据库管理系统事实上是最好的数据收集工具,数据仓库的一个重要任务就是搜集来自其他业务系统的有用数据,存放在一个集成的存储区内。而建设数据仓库需要集成来自
27、多种业务数据源中的数据,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中。如果其中的信息不准确,那么这个数据仓库便形同虚设。因此向数据仓库中导入操作型数据时必须进行精心规划,选择合适的数据源,数据统计工作就是为满足这个需求而设计的。数据统计在校园信息化建设中是不可缺少的一部分,目前有多种功能都需要用到数据统计,主要表现下以下几个方面:(1) 各种打印表格在整个学生培养的过程中,需要打印许多表格,表格样式多样,如EXCEL、PDF、DBF、WORD等 ,在打印表格的过程中,需要的数据都需要进行数据统计。(2) 国家报盘每当有学生拿到毕业证或者学位证,
28、都需要往国家库中报送毕业生数据,且需要的数据会常有变化,这时就要对这些要报盘的学生进行数据统计。(3) 高级报表学校每年需要给国家高等教育系统上报当年度学校的一些数据,这时候就需要统计一些所需数据。 (4) 就业数据统计每届学生毕业后,就业指导中心要统计学生就业的各种数据,生成就业信息白皮书,包括表格、图表等。1.2.2研究生管理信息系统数据统计研究现状及存在的问题随着科学技术的发展,信息化、数字化风暴席卷全球。各大高校都采用计算机平台进行日常办公、人事管理等。这些业务系统为我们的生活带来便利的同时,也存储了丰富的业务数据1。在这个信息爆炸的时代,如何从海量业务数据中挖掘出有效的、新颖的、潜在
29、有用的、最终可理解的信息,并将这些抽象数据直观形象地展现给用户,以支持用户进行数据分析和行政决策,是目前迫切需要解决的问题。随着信息化系统的愈加完善,高校管理信息系统的功能更是面面俱到,这样就产生了大量的与各功能相关的业务数据,而这些业务数据只有编程人员根据业务表之间的联系才能查询出部分用户所需的数据,然而,作为业务用户来讲,他们希望通过图形用户界面直接访问,不希望有编程人员作为中介,这就是报表导出数据成为必要。在早期的信息化系统中这是难以实现的,因为早期的校园管理信息系统中,数据的输出还是以手工的方式,将数据查出然后录入到表格中。这不仅严重浪费了人力、物力,同时在效率上也相当的低,而且业务数
30、据库中的数据也在不断变化,这样的结果必然导致新一轮的数据筛选和导出工作。这样就严重影响了校园信息化系统的发展。针对于现在校园管理信息系统的飞速发展,业务数据量的海量增加,迫切需要有一个统一的高校研究生数据统计功能的产生来方便学校广大师生。在现在的研究生管理信息系统中,业务量及其各自的业务数据量都在与日俱增,如果没有对应的数据统计功能,那么当用户需要得到相关数据进行分析研究时,就不得不使用纯手工的方式来解决这个问题。从信息的采集到数据抽取经过数据的清洗与转换直至得到所需数据,这必然导致整个过程需要经历相当长的时间,经历相当多的人,同时要涉及许多部门协调协调工作的统计过程。这样,在这个过程极有可能
31、产生信息和数据的错误统计与丢失,最终导致统计数据的不准确,从而影响对信息的分析和研究。研究生管理信息系统的各项功能都有自己的业务数据库表,每个数据表又含有很多关系数据表,每个关系数据表都含有大量的业务数据。在这些大量数据中,数据的查询有时会牵连到许多业务表,导致系统在查询时运行的很慢,从而使数据查询的效率低下,有时也会造成查询数据的错误。此外,统计数据的输出也是数据统计的一个关键步骤,目前数据的展现方式还只是报表格式,报表是信息化建设中一个不可缺少的组成部分,过去为了避免消息传递不及时造成的损失,管理人员往往需要耗费更多地精力做好这部分工作。并且,由于手工制作报表样式单一,不灵活,有时就会造成
32、客户的需求不能满足,或者即便是可以满足,但是需要很多的人力物力。同样,在获取数据方面,比如说要统计高校内各个专业学生占全校学生的比例这个数据,那么就要统计出各个专业学生的人数,然后除以总人数,这个还比较容易计算,那么如果要计算某学院各专业学生占该学院总人数的比例这样的数据,那么这部分工作耗费的人力物力是相当大的。过去由于没有相关系统,没有适合数据统计和报表制作的实际软件支持,各种学生工作中需要用到的报表完全依赖人工进行数据统计及报表制作,这就使其存在很多缺点,主要在以下方面:(1) 工作量大,效率低下。报表的主要工作就是以客户所需要的形式展现所需数据,那么数据统计和手工填写就是报表的主要工作,
33、在没有数据库的条件下,每次需要数据都要进行重新统计,由于学生数量多,需要统计的数据种类繁多,那么每次进行数据统计都需要很多的时间,而且如果需要数据分析,又需要更多的人力物力,这样必然会导致效率问题。另外就是报表的手工填写,比如录取通知书的手工填写,全校所有专业,所有录取学生姓名都要进行手工填写,那么工作量是可想而知的。(2) 报表格式单一,不灵活原始手工制作报表一般只有在word或者在Excel中绘制,费时费力,而且样式单一,如果客户需要其他表格样式,如饼状图等就很难满足需求。另外,这种表格样式只能反映数据,不能直观的看出数据的走向及趋势,对于需要进行数据分析的需求来说就不能满足。在此背景下,
34、本系统采用了基于itext的报表设计方法,丰富了报表的制作样式,节省了报表制作的时间,结束了手工填写报表的繁琐工作模式。通过该系统,在学校各部门工作的各个环节实现了资源的共享,给系统的用户带来了方便,突破了局域网的局限性,通过系统系统用户可以远程下载所需资源,也可以得到自己所需的报表格式。保证了数据格式多样化需求,提高了工作效率。1.3 本文的主要工作本文是以山东大学研究生管理信息系统为依托,针对研究生基本信息数据统计和就业数据统计两大业务,在现有管理信息数据库中对国家需要统计的研究生信息数据进行必要的统计、筛选,最后以要求的格式将所需数据输出。具体来讲,主要工作如下:1、根据本校研究生数据统
35、计的实际情况结合当前高校研究生数据统计的一些具体情况确定了高校研究生数据统计的选题背景,结合本校研究生管理信息系统特点与发展要求,深刻分析目前研究生数据统计的重要性与发展过程中存在的问题,分析了在高校管理信息系统中进行数据统计的必要性。2、对本校研究生数据统计进行了总体需求的描述,通过对我校研究生管理信息系统的核心业务数据库系统的分析,针对研究生学籍信息数据和就业数据两大类型的数据,对需要统计的数据类型、数据模型及数据输出格式的具体需求进行详细的分析,将整个过程分为数据统计过程和统计数据展现两大部分,再将这两大部分分别细化,针对不同业务梳理整体统计流程,确定统计的模型和数据的最终展现方式。3、
36、针对系统中研究生学籍信息库和就业信息库两个数据库表,详细描述了多维数据模型的建立方法和过程,并以此为据建立了研究生学籍基本信息的多维数据模型。同时,以研究生学籍信息统计为例详细描述了数据的统计分析过程,将数据的抽取、清洗转换和最终加载进行了详细的叙述,清晰地展现了数据的ETL的实现过程,并针对具体业务中存在的数据问题提出解决方法,将数据以正确、符合要求的格式筛选出来,最终注入用户所要求的报表模型,以报表格式输出。4、针对用户所需的数据输出格式,以Excel、饼状图和柱状图报表样式将经过筛选后的数据呈现出来。 1.4 本文的组织结构全文共分为五章。第1章是绪论,主要介绍了论文的选题背景和意义,以
37、及国内外管理信息系统和高校信息化建设的现状,说明了系统需要解决的主要问题和本文的主要工作及组织结构。第2章是需求分析与获取,主要围绕需求统一化过程几个关键步骤描述了需求分析阶段的主要工作。第3章是研究生数据统计过程描述,针对研究生管理信息系统中研究生基本数据和就业数据两大基本业务详细介绍了两大业务数据的统计过程,着重描述了数据的ETL过程。第4章是统计数据的输出,针对于以上两个业务的最终数据,建立输出格式,详细介绍了报表的配置流程和配置信息,将需要统计的数据结果灵活的呈现。第5章是总结与展望,对本文进行了总结,并对下一步的工作进行了展望。第2章 研究生数据统计需求分析研究生基本数据统计工作是基
38、于山东大学研究生管理信息系统,利用相关业务数据库,从数据源数据库系统中抽取用户需要的相关数据,进行一系列的预处理过程,将数据以正确并符合需求的格式导出的一系列工作。经过分析,研究生基本数据统计的需求主要有研究生学籍情况数据统计、研究生就业情况数据统计和研究生招生入学情况数据统计三个方面,下面对这三方面的具体需求进行分析。2.1研究生学籍情况数据统计分析在这一统计中,主要包括研究生年龄统计,招生、在校研究生来源统计和研究生学籍变动情况三个方面,以下分别详细描述这三个方面需求。1. 在校研究生年龄情况,主要涉及到在校的所有研究生,包括博士研究生、硕士研究生和研究生班学生的年龄情况。需求又进一步细化
39、为各类学生各个年龄段的数据,从学生类型来看,包括博士生各年龄段总数和女博士生各年龄段总数、硕士生各年龄段总数和女硕士生各年龄段总数、研究生班学生各年龄段总数和研究生班女学生各年龄段总数;从年龄来分,应该是要统计从0岁以后中每个年龄的数据信息,但是就统计结果和事实情况来看,研究生年龄在0岁17岁这个年龄段和30岁以上这个年龄段中有太多的零数据,即统计出来的数据为0,这样对用户来讲是没有分析价值的数据,于是将年龄划分为三个具体的年龄段,包括17岁及以下、18岁到29岁、30岁及以上几个年龄阶段的数据需求。这样统计出的数据在17岁及以下和30岁及以上的数据比较少,但是在18岁到29岁之间的数据量就明
40、显的增多,根据分析,我校研究生年龄主要集中在1829这个年龄段内,因此在这个年龄段上将粒度减小,分成18岁、19岁、21岁、22岁、23岁、24岁、25岁、26岁、27岁、28岁、29岁,在每个年龄层次上对数据进行统计,这样才能够得到有价值的数据值。2. 在校研究生生源地情况统计,主要涉及博士生、硕士生、研究生班学生的生源地统计数据。按生源地来讲,主要包括全国各省、自治区、直辖市及港澳台地区;按学生类型分为博士生、硕士生、研究生班学生。需要统计出各省、自治区、直辖市及港澳台地区的各类型学生数量。 3. 研究生学籍变动情况,主要涉及统计年份学生变动情况数量和休退学的主要原因统计。在学生变动情况统
41、计中,需要统计出不同学生类型的学生数的增减数量。在学生类型方面,需要统计出博士生、硕士生和研究生班学生的情况;在学生变动方面,需要统计出上学年初的在校学生数、本年度增加的学生数和减少的学生数和本学年初在校学生数,增加的学生数又细化为招生、复学、转入和其他各类型的具体数量,减少的学生数也细化为毕业、结业、休学、退学、开除、死亡、转出和其他。在学籍变动统计过程中,除了将学生分别限制在博士研究生、硕士研究生和研究生班学生三种类型外,还需要对每种类型学生的在学状态(stystate)加以区分,在学状态中包括在读、毕业、结业、休学、退学、开除、死亡、转出。在读状态中,还需要对学生的入学年份进行判断来区分
42、其类型,具体类型又分为招生、复学、转入和其他类型。研究生分专业学生数统计,这部分主要是统计学校研究生所学全部专业中各种类型的学生数量,包括毕业生数,授予学位数,招生数,在校学生数几个方面的数据,其中在校学生数又包括各年级学生数量,分别为一、二、三年级,统计数据的展现依然以Excel表格格式。研究生学籍方面的数据统计需求主要就包括以上几个部分,涉及在校研究生的各方面数据情况,统计数据主要为管理人员提供分析决策的数据参考。2.2研究生就业情况数据统计分析这部分主要是统计博士生和硕士生的就业的多种方面,包括毕业研究生就业流向分布,毕业研究生就业单位性质分布,毕业研究生就业单位分布等。1. 就业流向情
43、况统计,总体来看,毕业研究生的就业流向可分为升学、落实单位、出国、灵活就业、回生源地二次就业、人事代理等。需要统计的数据主要是博士生和硕士生在各流向的数量及近几年毕业生的流向数量比较情况。2. 就业性质情况统计,我校毕业研究生到党政机关、事业单位、部队、国家重点企业等单位就业的比例较为稳定,在这些行业就业已经成为毕业研究生相对稳定的选择。同样,在这部分统计中,要将博士生和硕士生在各种单位性质的数据统计出来。3. 就业地区分布情况统计,这个反面的统计主要是统计出毕业生的单位所在地,统计数据是博士生和硕士生在各省市、自治区的就业数量,同时统计出毕业生在我国东、中、西部的分布数量。在以上三个方面的就
44、业数据统计中,从相应的业务表中都能直接抽取出相应数据,过程与研究生学籍情况统计类似。在研究生数据统计中最重要的一个环节是建立统计模型,以便更加清晰的了解数据间的关系。下一章中,将详细介绍有关建立统计模型和数据预处理的具体工作。2.3研究生数据统计展现方式分析以上主要分析了山东大学研究生学籍和就业数据的统计过程的需求,而数据统计的最终目标是将数据以一定的形式展现给用户,管理信息系统目前给出的最终展现方式是以报表的形式将统计数据输出。在研究生学籍情况统计输出中,用户只需要将具体数据简单呈现,因此,最终给出以Excel表格的形式将最终的统计数据输出;而在就业数据统计中,用户需要的数据形式主要是百分比
45、的格式,在展现方式上,需要对这种百分比数据更加一目了然,因此,就业数据的输出格式最终以饼状图和柱状图的格式加以展现。展现部分将在第四章具体描述。根据以上对研究生数据统计的需求分析,本文给出了一套适合于山东大学研究生管理信息系统的数据统计功能,建立了适合本功能的多维数据模型,并详细描述了研究生数据统计的ETL过程,最终将数据以报表和图表的方式进行展现。以下章节将统计的具体过程进行详细描述。第3章 数据统计过程3.1 数据仓库的概念3.1.1 数据仓库的产生近年来,随着信息化的发展和技术的进步,信息已成为人力社会不可或缺的重要资源。社会的信息化似的信息量急剧增长。面对数据量的急剧增长和应用要求的不
46、断提升,数据库技术的应用和发展也有了更高的作用和价值。数据库技术一直力图使自己能胜任当前的发展变化,完成从事务处理、批处理到分析处理的各种类型的信息处理任务。虽然业务扩充了,但还是要在统一数据格式、统一数据模型下来实现业务操作的数据处理。对于决策分析,在业务操作层面上惊喜分析判断还存在着很大的局限性。于是,人们尝试对来自操作型处理数据库中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持决策分析,这就形成了数据仓库(Data Warehousing,DW)技术2。作为决策支持系统(DSS)的数据仓库系统包括数据仓库技术、联机分析处理技术(OLAP)和数据挖掘技术(DM)。数据仓库弥
47、补了原有数据库的不足,将原来的以单一数据库为中心的数据环境发展为一种新的体系环境。他具有一种新的数据处理结构体系,能够将不同环境、不同系统的数据统一起来,以形成综合的中央数据仓库3。3.1.2 数据仓库的基本概念数据仓库是以计算机应用为基础的信息系统,用来支持在各领域的决策分析。数据仓库作为一个集成了许多数据源的中央数据库体统,从不同的联机事务处理数据源收集和提取数据,并通过一系列汇总计算就爱你个数据组织成易于分析的形式,从而为用户提供了一个信息集成平台,为管理人员和决策者迅速地提取信息并回答有关业务运作的问题提供支持4。数据仓库和普通的事务处理数据库不同,它是面向主题的,支持商务决策而不是事
48、务处理。它拥有许多优化设计的层次、总计方阵系列和结构化的查询功能,并以总计/总行系统为架构。基于对数据快速和有效的分析,数据仓库可为决策系统提供强有力的支持。简单的说,数据仓库就是一个作为决策支持的和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的就是从数据库中获取信息的问题。3.1.3 数据采集概念以上内容描述了一些数据仓库的概念知识,数据仓库就是为以后的数据挖掘提供决策信息的,而数据仓库需要集成来自多种业务数据源的数据,这些数据源可能是在不同的硬件平台上,使用不同的操作系统,因而数据以不同的格式存在不同的数据库中,而用户在数据仓库中读取的数据和信息必须是准确、有效、真实的,由此可见,数据的准确性是结果有效性的一个重要因素, 为了给研究生数据分析过程提供一个干净、完整、准确、无重复信息的数据,提高分析过程的效率,保证展现结果的快速生成,我们设计一个从数据源到多维数据集的数据抽取、数据转换、数据装载的过程(也就是ETL过程),数据采集的框架如图3-1所示,在此框架中,并不将从数据源得到的数据直接写入多维数