R语言在数理统计相关问题中的程序包设计.docx
《R语言在数理统计相关问题中的程序包设计.docx》由会员分享,可在线阅读,更多相关《R语言在数理统计相关问题中的程序包设计.docx(33页珍藏版)》请在沃文网上搜索。
1、13届数学与应用数学专业毕业设计(论文)目 录摘 要ABSTRACT前 言1第1章 主成分个数检验问题11.1 主成分分析相关概念11.11、主成分分析11.12、主成分分析基本思想11.13、主成分11.14、主成分的贡献率21.15、主成分个数的确定21.2检验部分理论21.21.巴特莱特检验统计量检验主成分个数21.22、累计贡献率法检验主成分个数4第2章 主成分个数确定及检验的R语言实现过程52.1.R语言基本概念和R统计软件基本操作52.11、R语言52.12、R的特点52.13、R的基本原理62.14、R基本操作62.14、用R写程序62.2.举例使用软件实现讨论过程72.21、主
2、成分分析个数确定SPSS82.22、巴特莱特检验统计量检验主成分个数R102.23、方差累计贡献率法R112.24、主成分分析个数确定SPSS142.25、巴特莱特检验统计量检验主成分个数R142.26、方差累计贡献率法R152.3 R语言程序包设计16总 结17致 谢18参考文献19摘 要主成分分析方法的诸多优点使得它成为一种应用十分广泛的统计分析方法,致使有些人盲目的使用主成分分析方法进行统计分析,而对其适用性,主成分个数的检验等问题不以讨论,这对于科学研究是极其不利的。本论文主要从假设检验方面对主成分分析方法中的主成分个数进行检验。在构造检验统计量的时候,使用的是巴特莱特检验统计量,经过
3、证明,该统计量服从卡方分布,进而使用卡方检验来检验原假设。论文最后部分是检验过程在R语言中的实现过程,主要是为了检验统计量,也是为了对R语言中不完善的卡方检验进行初步探索。关键词:主成分分析,卡方检验,R语言,SPSSABSTRACTPrincipal component analysis method is a lot of advantage makes it become a kind of statistical analysis methods, they are widely used in some people blindly using principal component
4、 analysis method of statistical analysis, and on its applicability, the check of the number of principal components to discuss, it is extremely unfavorable for scientific research.This thesis mainly from the aspects of hypothesis test method of principal component analysis of the test number of prin
5、cipal components. At the time of structure test statistics, using the bartlett test statistics, proven, and the statistic chi-square distributed, thus using chi-square test to test the null hypothesis. Paper is final part inspection process in the process of implementation in R language, mainly to t
6、est statistics, but also to imperfect in R language, inspection carries on the preliminary exploration.KEY WORDS:principal component analysis, Chi-square test, R language ,SPSS前 言主成分分析方法是一种比较好的分析方法,但是,并不完善,尤其对主成分个数的确定,一直以来都没有非常客观的方法,所以,在论文中,我将就主成分个数的确定和检验,进行论证,试图找出一种比较客观,科学的验证主成分个数的方法,并使用统计专业软件R予以实现
7、。主成分个数的检验问题,还没有引起大家足够的重视,没有专门的人或机构对该问题进行专业性研究。就国内而言,少数学者、专家在主成分个数检验方面有类似的文章,其中最具说服力的是傅德印博士,他采用的是建立统计检验体系,对主成分分析方法进行一系列检验,其中就有对主成分个数的检验,其检验方法主要有,巴特莱特检验、累计贡献率法、特征值平均数法。在主成分的确定中,我们经常使用的一种比较权威的数学方法就是SPSS软件计算主成分个数。SPSS软件选取主成分的原理有两种供选择:一是基于原数据的相关矩阵计算得主成分,选取其方差大于相关矩阵的特征值平均数1的主成分用作主成分分析;另一个是学者自己设置需要的主成分个数,这
8、些方法都局限于主观的范畴,主观性强。本论文使用的检验方法有:1、构造巴特莱特检验统计量,使其服从卡方分布,联系卡方检验的知识,对原假设做出检验结论;2、对选取的主成分的累计方差贡献率进行判断,看是否达到一般性的答案要求。后者只是作为对前者实用性的主观判断。在本文中使用两个例题来对本论文的检验方法进行实际操作,以说明我们的检验方法是否达到要求,或者说,是否符合实际要求。首先我们通过SPSS软件计算出主成分个数,而后,使用R语言实现理论部分的检验过程。在该部分第三节,我们使用经过实验论证的检验方法,书写一个R语言自定义函数pcan(),即程序包,其功能就是在给定原始数据和预判的主成分个数的情况下,
9、我们使用pcan()函数检验预判的主成分个数是否正确,并且输出结果。本文主旨在书写R语言程序包,之前的理论检验部分如有纰漏,恳请大家改正,本人亦对程序包做相应修正。第1章 主成分个数检验问题1.1 主成分分析相关概念在讨论主成分个数的检验问题之前,首先我们来了解关于主成分分析方法的一些基本概念:1.11、主成分分析主成分的概念最初由Karl Parson在1901年提出的,1933年,Hotelling将主成分概念推广到随机变量。主成分分析就是将多个指标化为少数互相无关的综合指标的统计方法,也称主分量分析。主成分分析也是数学上降维的一种方法。主成分分析除了可以单独用来处理多指标且指标之间有一定
10、相关性的问题外,还可以与其他方法结合起来使用,例如与回归分析结合起来就是主成分回归,可它以克服回归问题中由于自变量之间的高度相关而产生的分析困难。1.12、主成分分析基本思想主成分分析的基本思想是设法将原来具有一定相关性的指标(比如p个指标),重新组合成一组新的相互无关的综合指标来代替原来指标。1.13、主成分主成分分析通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,这些新的综合指标为主成分。主成分如果不加以限制,可以有很多,如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”经典的方法就是用F1的方差来表示,即Var(F
11、1)越大,表示F1包含的信息越多。因此,在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,在考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求称F2为第二主成分。同理,可以构造出第三,四,第p个主成分。1.14、主成分的贡献率主成分的贡献率为,就是主成分的方差在全部方差中的比值。某个主成分的贡献率越大,表示该主成分综合原始数据的信息能力越强。1。1.15、主成分个数的确定在实际操作中,对于主成分个数的确定,一般使用以下方法:1、选取方差大于1的主成分;2、按照方差累计
12、贡献率,一般情况设定累计贡献率为85%;1.2检验部分理论当通过上述主成分的计算步骤,或者使用软件计算出主成分极其个数之后,我们就需要对确定的主成分个数进行检验,下面我们主要使用构建巴特莱特检验统计量的卡方检验法,来检验主成分的个数。1.21.巴特莱特检验统计量检验主成分个数1)前提条件设是p维随机向量,均值,协差阵,用X的p个向量,(即p个指标向量)作线性组合为:上述方程组要求:(1),且系数由下列原则决定:(2)与不相关;(3)F1是的一切线性组合中方差最大的,F2是与F1不相关的一切线性组合中方差最大的,Fp是与F1,F2,Fp-1都不相关的的一线性组合中方差最大的。(4)为的的特征根,
13、也是Fi的方差。2)提出假设设是p维随机向量,提出假设原假设 :备择假设 :不为0或不全为0.因为,特征根相等意味着数据在相应的p-q维空间上包含着相同的信息。若接受H0,则在q的基础上,再增加任何主成分就得把剩下的全部包括进去,因为后p-q个主成分含有相同的信息量。3)构造统计量在H0成立的条件下,可得Bartlet近似检验统计量:其中 算术平均 几何平均4)求拒绝域设显著性水平为,因为上述检验统计量服从自由度为的分布,所以可以查分布表得到临界值所以其拒绝域为:5)主成分个数假设检验结论若,则接受原假设:。即取前q个主成分已经足够描述当前的数据信息;若,则拒绝原假设,即应增加主成分个数。确定
14、,使用q代替q继续进行假设检验。1.22、累计贡献率法检验主成分个数对于假设检验得出的主成分个数q,是从主成分方差的数值是否相等或者说从每个主成分包含信息量是否重复来确定主成分个数的,用累计贡献值法是从主成分包含信息量大小方面,来判断所选取的q个主成分是否达到题目要求包含原始数据的信息量。方差贡献率描述了各个主成分在反映各个原始指标信息量方面的能力大小,所以将各个主成分的方差贡献率作为各个主成分的权重,实际上就是一种客观赋权。设累计贡献率为,根据题目要求的主成分累计贡献率需要达到的,判断,若,则符合题目要求;,则对确定的q重新考虑。2第2章 主成分个数确定及检验的R语言实现过程2.1.R语言基
15、本概念和R统计软件基本操作2.11、R语言R可以看作是贝尔实验室(Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现或形式。因此,R是一种软件也可以说是一种语言。S语言现在主要内涵在由Insightful公司经营的S-PLUS软件中,可以将R和S-PLUS视为S语言的两种形式。2.12、R的特点现在越来越多的人开始接触、学习和使用R,因为他有其显著的有点,主要包括:1)免费:尽管S-PlUS是非常优秀的统计分析软件,但你需要支付一笔费用,而R是一个免费的统计分析软件(环境);2)浮点运算功能强大:R可以作为一台
16、高级科学计算器,因为R同Matlab一样不需要编译就可以执行代码;3)不依赖于操作系统:R可以运行与UNIX,Linux,Windows和Macintosh的操作系统上,它们的安装文件以及安装说明都可以在CRAN(Comprehensive R Archive Network)社区下载;4)帮助功能完善:R嵌入了一个非常实用的帮助系统随软件所附的pdf帮助文件可以随时通过主菜单打开或打印。5)作图功能强大:其内嵌的作图函数能将产生的图片展示在一个独立的窗口中,并能将之保存为各种形式的文件;6)统计分析能力尤为突出:R内嵌了许多使用的统计分析函数,统计分析的结果也能被直接显示出来,一些中间结果既
17、可保存到专门的文件中,也可以直接用于进一步的分析。7)可移植性强: 8)较强大的拓展与开发能力:R是开发新的交互式数据分析方法一个非常好的工具。9)灵活而不死板:一般的软件旺旺会直接展示分析的结果,而R则将这些结果都存放在一个对象(object)里,所以常常在分析执行结束后并不现实任何结果。2.13、R的基本原理首先,同Matlab一样,R是一种编程语言,因为R是一种解释性语言,而不是变异语言,也就意味这输入的命令能够直接被执行,而不需要像C语言需要编译和连接等操作。其次,R的语法非常见大和直观。当R运行是,所有变量、数据、函数及结果都以对象的形势存入计算机的活动内存中,并冠有相应的名字代号。
18、再次,在R 中进行的所有操作都是针对存储在活动内存中的对象的,数据、结果或图标的输入与输出都是通过对计算机硬盘中的文件读写而实现。最后,所有能使用的R函数都被包含在一个库(Library)中,该库存放在R安装文件夹的Library目录下。这个目录下含有具有各种功能的包(packages),各个包也是按照目录的方式组织起来的。2.14、R基本操作1)数据的存储与读取:R软件中使用函数write.table()或save()在文件中写入一个对象,一般是写一个数据框,也可以是其他类型的对象(向量、矩阵、数组、列表等)。R可以用函数read.table(),scan()和read.fwf读取存储在文本
19、文件(ASCII)中的数据。2)R的绘图功能:这里不可能详细说明R软件在绘图方面的所有功能,主要是因为每个绘图函数都有大量的选项,使得图形的绘制十分的灵活多变。2.14、用R写程序一般情况下,一个R程序以文本格式保存,扩展名为.R。如果一个操作要重复许多次,我们最好使用R程序来实现。函数是大多数R程序实现的方式,而且这些函数的输入参数都放在一个括号里面。使用人员可以使用function()来编写自己的函数,并且函数和R里面的其他函数有一样的作用。函数是一系列操作的组合,形式为:函数名=function(变量1,变量2,)函数体.编写自己的函数可以更加灵活、有效、合理的使用R。32.2.举例使用
20、软件实现讨论过程例1:现在我们用一组全国30个省市自治区经济发展基本情况的八项指标为例,使用SPSS软件和R软件分别实现出主成分个数的确定和检验过程。样本原始数据如下:表2.1 全国三十个省市自治区经济发展的八项指标(单位:亿元)省份GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值北京1394.892502.00519.018144.00373.90117.30112.60843.43天津920.112720.00345.466501.00342.80115.20110.60582.51河北2849.521258.00704.874839.0020
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 数理统计 相关 问题 中的 程序包 设计