1、摘 要数据分析析的主要应用有两方面,一是寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样品)综合为少数几个因子(不可观测的,相互独立的随机变量),以再现因子与原变量之间的内在联系;二是用于分类,对个变量或个样品进行分类。聚类分析一般有两种类型,即按样品聚类或按变量(指标)聚类,其基本思想是通过定义样品或变量间“接近程度”的度量,将“相近”的样品或变量归为一类。本文利用利用数据分析中的因子分析和聚类分析对多个变量数据进行了分析。就是分析和处理数据的理论与方法,数据分析中提出了广泛的多元数据分析的统计方法,包括线性回归分析、方差分析、因子分析、主成分分析、典型相关分析、判别分析、聚类
2、分析等。关键词:spss软件;聚类分析;因子分析;线性规划目 录 1 数据分析的任务和目的11.1 问题的背景11.2 任务和目的12 数据的搜集与整理22.1 数据的来源22.2 数据的处理23 利用SPSS软件对结果进行分析3总 结13参考文献14III1 数据分析的任务和目的1.1 问题的背景 一年一度的NBA赛季让全世界的篮球迷为之疯狂,NBA赛事之所以如此受欢迎,最主要的原因在于NBA球员高超的球技。球队中灵魂人物的个人发挥能够直接影响其球队的成败。因而对他们的技术统计与分析是一件十分重要的事情。众所周知,科比-布莱恩特和阿伦-艾弗森是深受大家喜爱的两位球员,两位球员在赛季的发挥也在
3、一定程度上影响着两队的战绩。因此,通过两位球员在以往的赛季中的发挥及表现,可以大概的预测两人的得分及表现,为NBA相关的商业活动和广大球迷提供数据上的参考。1.2 任务和目的 1、频数分析(对两人平均每场上场时间进行频数分析) 2、基本描述统计量(用基本描述统计量的计算结果对两人技术进行分析比较) 3、单样本t检验(检验科比-布莱恩特和阿伦-艾弗森平均每场犯规次数的均值是否为2.7) 4、两独立样本t检验(科比-布莱恩特和阿伦-艾弗森平均每场犯规次数比较) 5、 单样本非参数假设检验(检验科比-布莱恩特平均每场进攻次数与首发的关系基本是否为1:1:10:10:10:10:10:10:10:10
4、:2) 6、单样本非参数假设检验(检验科比-布莱恩特和阿伦-艾弗森平均每场盖帽次数总体的分布是否为正态分布) 7、 单样本非参数假设检验(检验科比-布莱恩特在某段时间内平均每场得分是否持续正常) 8、单因素方差分析(用单因素方差分析,分别分析科比-布莱恩特和阿伦-艾弗森平均每场防守次数对平均每场得分有无显著影响) 9、相关分析(研究平均每场三分球命中率与平均每场得分之间是否具有较强的线性关系) 10、偏相关分析(以平均每场失误次数为控制变量,研究平均每场罚球命中率与平均每场得分的偏相关关系) 11、线性回归分析(用逐步筛选法找科比-布莱恩特的平均每场得分的线性回归方程) 12、曲线回归分析(用
5、曲线回归分析法分析科比-布莱恩特的平均每场得分)2 数据的搜集与整理2.1 数据的来源NBA球员科比-布莱恩特和阿伦-艾弗森11个赛季技术统计表下载自NBA中文官方网站,具有可信度。2.2 数据的处理定义视图数据视图:3 利用SPSS软件对结果进行分析(1)频数分析(对两人平均每场上场时间进行频数分析) 数据文件中增加一个变量scsj。输出1输出2分析:从输出1中看出,阿伦-艾弗森平均每场上场时间在10-40(分钟)的频数为1,在40-50(分钟)的频数为10;科比-布莱恩特平均每场上场时间在10-40(分钟)的频数为7,在40-50(分钟)的频数为4;两人平均每场上场时间在10-40(分钟)
6、的频数为8,在40-50(分钟)的频数为14。 从输出2中看出,交叉分组下的频数分析卡方检验结果的相伴概率为0.008,小于显著性水平0.05,故拒绝原假设,认为两人的平均每场上场时间存在显著性差异。(2) 基本描述统计量(用基本描述统计量的计算结果对两人技术进行分析比较)实现按NBA球员拆分,输出结果放在同一张表中。输出3分析:从输出3中看出,科比-布莱恩特的平均每场投篮命中率、平均每场三分球命中率和平均每场罚球命中率的均值均比阿伦-艾弗森高,但标准差有高有底,说明在投篮方面科比-布莱恩特比阿伦-艾弗森发挥出色,但稳定程度高低不定。均值的统计误差均小于0.05(比较小),说明数据没有不均衡现
7、象,说明两人的发挥都比较稳定。(3) 单样本t检验(检验科比-布莱恩特和阿伦-艾弗森平均每场犯规次数的均值是否为2.7)实现按NBA球员拆分,输出结果放在同一张表中。输出4分析:从输出4中得,阿伦-艾弗森单样本假设的相伴概率为0.001,小于显著性水平0.05,故拒绝原假设,认为阿伦-艾弗森平均每场犯规次数的均值与2.7有显著性差异;科比-布莱恩特单样本假设的相伴概率为0.773,大于显著性水平0.05,故接受原假设,认为科比-布莱恩特平均每场犯规次数的均值与2.7无显著性差异。(4) 两独立样本t检验(科比-布莱恩特和阿伦-艾弗森平均每场犯规次数比较)输出5分析:从输出5中看出,两独立样本F
8、检验结果的相伴概率为0.019,小于显著性水平0.05,故拒绝原假设,认为阿伦-艾弗森与科比-布莱恩特平均每场犯规次数的方差有显著性差异;两独立样本t检验结果的相伴概率为0.003,小于显著性水平0.05,故拒绝原假设,认为阿伦-艾弗森与科比-布莱恩特平均每场犯规次数的均值有显著性差异。(5)单样本非参数假设检验(检验科比-布莱恩特平均每场进攻次数与首发的关系基本是否为1:1:10:10:10:10:10:10:10:10:2)输出6输出7分析:从输出7中看出,非参数假设检验卡方分布的相伴概率为0.505,大于显著性水平0.05,故接受假设,认为样本来自的总体分布与理论分布无显著差异,即科比-
9、布莱恩特与首发的关系基本是为1:1:10:10:10:10:10:10:10:10:2。(6) 单样本非参数假设检验(检验科比-布莱恩特和阿伦-艾弗森平均每场盖帽次数总体的分布是否为正态分布)实现按NBA球员拆分,输出结果放在同一张表中。输出8分析:从输出8看出,科比-布莱恩特的平均每场盖帽次数非参数检验结果的相伴概率为0.945,大于显著性水平0.05,故接受原假设,认为科比-布莱恩特的平均每场盖帽次数服从正态分布;阿伦-艾弗森的平均每场盖帽次数非参数检验结果的相伴概率为0.709,大于显著性水平0.05,故接受原假设,认为科比-布莱恩特的平均每场盖帽次数服从正态分布。(7)单样本非参数假设
10、检验(检验科比-布莱恩特在某段时间内平均每场得分是否持续正常)输出9分析:从输出9看出,随机性检验结果的相伴概率为0.210,大于显著性水平0.05,故接受假设,认为科比-布莱恩特平均每场得分是随机的。(8)单因素方差分析(用单因素方差分析,分别分析科比-布莱恩特和阿伦-艾弗森平均每场防守次数对平均每场得分有无显著影响)输出10分析:从输出10中看出,科比-布莱恩特单因素方差分析结果的相伴概率为0.056,大于显著性水平0.05,故接受假设,认为科比-布莱恩特的平均每场防守次数对平均每场得分无显著影响;阿伦-艾弗森单因素方差分析结果的相伴概率为0.374,大于显著性水平0.05,故接受假设,认
11、为科比-布莱恩特的平均每场防守次数对平均每场得分无显著影响。(9)相关分析(研究平均每场三分球命中率与平均每场得分之间是否具有较强的线性关系)输出11输出12分析:从输出11中看出,平均每场三分球命中率与平均每场得分之间不具有较强的线性关系;从输出12中看出,相关分析的相伴概率为0.329,大于显著性水平0.05,故接受原假设,认为平均每场三分球命中率与平均每场得分之间不具有较强的线性关系。两种方法得到结果一致。(10) 偏相关分析(以平均每场失误次数为控制变量,研究平均每场罚球命中率与平均每场得分的偏相关关系)- - - P A R T I A L C O R R E L A T I O N
12、 C O E F F I C I E N T S - - -Controlling for. V15 V17 V9V17 1.0000 .3626 ( 0) ( 19) P= . P= .106V9 .3626 1.0000 ( 19) ( 0) P= .106 P= .(Coefficient / (D.F.) / 2-tailed Significance) . is printed if a coefficient cannot be computed输出13分析:从输出13中看出,偏相关分析结果的相伴概率为0.106,大于显著性水平0.05,故接受假设,认为以平均每场失误次数为控制变量
13、,平均每场罚球命中率与平均每场得分的偏相关关系不显著。(11) 线性回归分析(用逐步筛选法找科比-布莱恩特的平均每场得分的线性回归方程)输出14输出15输出16输出17输出18分析:从输出14中看出,本次多元分析回归分析采用的是逐步筛选法,且回归系数显著性F检验的相伴概率值小于0.05的自变量引入了回归方程,大于0.1的自变量剔除了回归方程。自变量进入回归方程的次序是:平均每场上场时间。从输出18中看出,科比-布莱恩特的平均每场得分的最终线性回归方程为平均每场得分=0.839*平均每场上场时间+6.612。(12)曲线回归分析(用曲线回归分析法分析科比-布莱恩特的平均每场得分)MODEL: M
14、OD_1._Independent: V7 Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 V17 LIN .250 9 3.00 .117 -70.332 209.155 V17 QUA .770 8 13.43 .003 -4386.5 19633.2 -21819 9 V17 CUB .771 8 13.45 .003 -2962.2 9973.17 -16414Notes:9 Tolerance limits reached; some dependent variables were not entered. 输出19输出20分析:从输出19中看出
15、,线性模型的相伴概率为0.117,大于显著性水平0.05,故接受原假设,认为线性模型的方程不显著;二次曲线与三次曲线的相伴概率均为0.003,小于显著性水平0.05,故拒绝原假设,认为线性模型的方程显著;且三次的曲线拟合度最高,因此选定三次曲线模型。具体模型是: 平均每场得分= -2962.2+ 9973.17*平均每场投篮命中率-16414*平均每场投篮命中率3 总 结经过这次的大作业的锻炼,是我对这学期所学到的数据分析方法和对SPSS的操作有了更加深刻的理解和认识,在课设的过程中不断有问题出现,又不断地查资料或请教老师同学的情况下,终于对SPSS有了进一步的了解。这份作业以深受大家喜爱的N球星的技术分析为例 , 探讨了如何用统计软件 SPSS对原始数据进行科学的统计分析。虽然完成了此次课程设计,但是我深刻地感觉到数据分析在现实生活中的重要作用,并且认识到以前学到的东西还是非常浅显的,还要在以后的学习过程中注意多思考、多应用。在此还要特别感谢马建军老师的指导,是我学会了一些科学的数据分析方法。参考文献1.SPSS 17.0中文版常用功能与应用实例精讲,电子工业出版社2.数据统计与分析技术SPSS软件实用教程,高等教育出版社16