多元统计分析课程设计终稿.doc
《多元统计分析课程设计终稿.doc》由会员分享,可在线阅读,更多相关《多元统计分析课程设计终稿.doc(17页珍藏版)》请在沃文网上搜索。
1、山东财经大学统计专业应用多元统计实验报告课 程 实 验 报 告一、 实验内容本文通过分析研究更深一步了解山东省农村居民生活水平。实验中充分利用了回归分析、聚类分析等多种分析手段。先通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势,以及城乡之间的对比;然后利用聚类分析说明了收入支出的地区差异。然后利用回归分析建立了山东省农村居民收入与支出之间的模型,试图寻找出农村居民收入的消费分配现状,即单位收入的支出方向问题。二、 实验目的通过本实验主要想达到三个目的:1、利用山东省统计年鉴中有关农村居民收入支出的数据,结合多元统计方法,熟练掌握聚类分析和回归分析的原理
2、及其基本步骤;2、希望通过本次实验充分掌握和运用多元统计分析的统计方法,能够利用基本的统计软件如Eviews、Spss等软件处理分析数据,并对结果作出合理的解释。3、了解近几年来山东省农村居民收入支出的基本状况,其中包括城乡差距问题和居民收入的消费分配问题,进而掌握山东省农村居民的基本生活状况,为我省经济的长远发展提供依据。三、 实验方法背景和原理、聚类分析的背景和原理1聚类分析的定义 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”,通俗地说就是相似元素的集合。2聚类的方法分类聚类分析的内容十分丰富,按
3、其聚类的方法可分为以下几种:系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。本文中应用的是系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,这一过程一直继续直到所有对象归为一类为止。并类的过程可用一张谱系聚类图描述。3.系统聚类法的基本步骤(1)计算n个样品两两间的距离,得样品间的距离矩阵。类与类之间的距离本文应用的是类平均法。所谓类平均法就是:两类样品两两之间平方距离的平均作为类之间的距离,即: 采用这种类间距离的聚类方法,称为类平均法。(2)初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类(t=
4、1,2,n)。此时类间的距离就是样品间的距离(即)。(3)对步骤i得到的距离矩阵,合并类间距离最小的两类为一新类。此时类的总个数k减少1类,即k=n-i+1.(4)计算新类与其他类的距离,得新的距离矩阵。若合并后类的总个数k扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。(5)画谱系聚类图;(6)决定总类的个数及各类的成员。、回归分析的背景和原理1.回归分析的基本原理回归分析是研究两个或多个变量之间关系的统计分析方法,在实际问题中,因变量 y 往往不是只与一个变量有关,而是和多个变量有关 ,设 (3.1)其中是p+1个未知参数,称为回归常数,称为回归系数,y为被解释变量(
5、因变量),而是p个可以精确测量并可控制的一般变量,称为解释变量(自变量), 是随机误差.称E(y)= (3.2)为理论回归方程。对一个实际问题我们获的n组观测数据,则线性回归模型(3.2)可表示为 (3.3)写成矩阵形式为 (3.4)其中最小二乘原理就是求一个参数向量的估计,使得回归的残差平方和函数SSE()取得最小值由微分求极值法及矩阵微商有:得到正规方程组若非退化,则得的最小二乘解 2. 模型的基本假定及检验为了方便进行模型的参数估计,做如下基本假定:.解释变量是确定性变量,不是随机变量.并且要求 rank ( X ) = p + 1 n,它表明设计矩阵是满秩的.对随机误差项假定 这个假定
6、称为高斯-马尔科夫条件。.正态分布的假定为对于多元线性回归的矩阵形式这个条件可以表示为由此可以得到)为了验证是否能做到基本假定,所以需要做回归模型的显著性检验:F检验 对多元回归方程的显著性检验就是要看自变量从整体上对随机变量y是否有明显的影响,故提出原假设 构成F统计量 并且称为均方回归和均方误差,他们都是误差项的方差的估计量,但两者的性质有差别。MSR总是得无偏有效估计量,而MSR只当原假设成立时才会是的有效估计量,则将趋于无穷。假设成立时统计量服从自由度(p,n-p-1)的F分布。对事先给定的显著性水平确定临界值或者计算F对应的相伴概率值p。若,就拒绝原假设,认为回归方程显著,自变量与因
7、变量之间存在显著的线性关系。t检验在多元回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,因此需要对每个系数进行显著性检验故提出原假设 由记则因此构造t统计量为 ,其中是标准回归差。在原假设成立时,统计量服从自由度为n-p-1的t分布。对于给定的显著性水平,查处双侧检验的临界值。当,或者t值所对应的相伴概率值,就拒绝原假设,认为该系数对应的自变量与因变量之间存在显著的线性关系。否则,就接受原假设,认为该自变量与因变量之间不存在显著性的线性关系。拟合优度检验拟合优度检验用与检验回归方程对样本观测值的拟合程度,定义样本决定系数时,就需要对加以修正,理由方差之比得调整后的为在线性回归中越
8、大越好。共线性诊断如何诊断模型是否存在多重共线性,现在还没有一个统一的诊断标准,这里提供一些经验的诊断规则:. 判定系数很高的同时,针对回归系数的t检验统计量的值又偏小. 自变量之间有高度的线性相关关系. 回归方程的很高的同时,因变量与自变量之间的偏相关系数却很低. 特征值、病态指数(条件数)、方差比、膨胀因子、容许度这些统计量都可以用来诊断多重共线性残差分析进行残差分析有两个目的,一是证实关于模型中误差项随机变量的正态性假定;二是检验数据集中可能包含的异常值残差分析是回归分析的最后一项工作,也是最基本的一项工作3.回归模型建立的步骤 确定回归方程中的解释变量和被解释变量由于回归分析用于分析一
9、个事物如何随其他事物的变化而变化,因此回归分析的第一步应确定哪个事物是需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。在多元线性回归分析中,模型中应引入多少解释变量是需要重点研究的。如果引入的解释变量较少,回归方程将无法很好地解释说明被解释变量的变化。但是也并非引入解释变量越多越好,因为这些变量之间可能存在多重共线性。因此要采取一些策略对解释变量引入回归方程加以控制和筛选。在多元的回归分析中并不是所有的变量都对因变量具有显著的影响,因此就存在着挑选自变量的问题,挑选自变量有多种方法:前进法、后退法、逐步筛选法等。这里主要采用后退法挑
10、选自变量。后退法策略是解释变量不断剔除出回归方程的过程。首先,所有的解释变量全部引入回归方程,并对回归方程进行各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的解释变量,并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量,并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量的回归系数检验都显著,则回归方程建立结束。否则,按照上述方法再一次剔除最不显著的解释变量,直到再也没有可剔除的解释变量为止 确定回归模型根据函数拟合方式,通过观察散点图确定应通过哪种教学模型来概括回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建
11、立线性回归模型;反之,如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。 建立回归模型根据手机到样本数据以及上一步所确定的回归模型,在一定得统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。 对回归方程进行各种检验各种检验方法在前文中已经涉及,在此不在一一说明。利用方程进行回归预测建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。 四、实验数据与实验结果、数据的收集和处理通过图书馆查阅资料以及网络查询资料等方式采集了山东省统计年鉴(2010)中有关各市农村居民指标(2009)的数据。分析过程中,一般利用了Eviews,spss等
12、统计软件进行统计分析。农村人均总收入与总支出应用一元线性回归模型分析数据;城乡差异应用折线图来展现;各城市之间的地区差异运用SPSS软件进行聚类分析的处理;消费的不同类别应用因子分析法处理数据并得出结论;收入和支出模型的建立利用了后退法筛选变量并做出回归分析,同时用散点图直观展现其线性关系。、数据分析(一)收入和支出的概况分析(1)收入支出随时间的增长趋势表21-1(a)2000年至2009年山东省农村居民人均总收入年份2000 200120022003200420052006200720082009人均总收入3872.224138.61 4305.774482.155037.525037.5
13、25037.527150.288136.668683.22通过上表信息,利用Eviews进行一元线性回归分析,得到如下结果表21-1(b)人均总收入线性回归结果Dependent Variable: YMethod: Least SquaresDate: 12/09/11 Time: 16:09Sample: 2000 2009Included observations: 10VariableCoefficientStd. Errort-StatisticProb. C2724.857299.55399.0963850.0000X553.163248.2774811.458000.0000R-
14、squared0.942564 Mean dependent var5767.255Adjusted R-squared0.935385 S.D. dependent var1725.057S.E. of regression438.5020 Akaike info criterion15.18146Sum squared resid1538272. Schwarz criterion15.24198Log likelihood-73.90731 F-statistic131.2857Durbin-Watson stat0.479131 Prob(F-statistic)0.000003由表知
15、回归模型为: =2724.857+553.1632,回归模型的斜率是553.1632,表明每增长一年,人均纯收入增加553.1632元。 从上表中R-squared为0.942564,说明拟合优度比较高;Prob(F-statistic)为0.000003,说明方程显著地。2724.857所对应的Prob( t-Statistic)为0.0000,在显著性水平0.05的条件下是显著的,回归系数553.1632所对应的Prob( t-Statistic)为0.0000,说明是显著的。 山东省农民的收入水平是随着我国经济发展而快速增长的一个过程,以2000年为基期,如图 所示,山东农民在 2000
16、 年时候的人均纯收入水平是 3872.22元,到 2009 年的时候,山东省农民的人均总收入水平已经达到了 8683.22元。十年间,山东省农民的收入一共增加了 4811.00 元,收入增长了约 2.24倍。总体来讲,山东省农民的收入一直是呈增加的趋势的。年份2000200120022003200420052006200720082009平均每人全年总支出(元)3036.203326.793438.783521.42.3999.234561.275059.485863.216697.387258.17表21-1(c)2000年至2009年山东省农村居民人均总支出及分析结果表21-1(d)人均总
17、支出回归结果Dependent Variable: YMethod: Least SquaresDate: 12/09/11 Time: 16:31Sample: 2000 2009Included observations: 10VariableCoefficientStd. Errort-StatisticProb. C2046.519272.70717.5044580.0001X478.686243.9507210.891430.0000R-squared0.936820 Mean dependent var4679.293Adjusted R-squared0.928923 S.D.
18、dependent var1497.368S.E. of regression399.2023 Akaike info criterion14.99367Sum squared resid1274900. Schwarz criterion15.05419Log likelihood-72.96835 F-statistic118.6233Durbin-Watson stat0.435934 Prob(F-statistic)0.000004由表知回归模型为: =2046.519+478.6862,回归模型的斜率是478.6862,表明每增长一年,人均纯支出增加478.6862元。 从上表中R
19、-squared为0.936820,说明拟合优度比较高;Prob(F-statistic)为0.000004,说明方程显著地。2046.519所对应的Prob( t-Statistic)为0.0001,在显著性水平0.05的条件下是显著的,回归系数478.6862所对应的Prob( t-Statistic)为0.0000,说明是显著的。山东省农民的支出水平也是随着我国经济发展而快速增长的一个过程,以2000年为基期,如表所示,山东农民在 2000 年时候的人均总支出水平是3036.20元,到2009年的时候,山东省农民的人均总支出水平已经达到了7258.17元。十年间,山东省农民的收入一共增加
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 课程设计