利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析.docx
《利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析.docx》由会员分享,可在线阅读,更多相关《利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析.docx(21页珍藏版)》请在沃文网上搜索。
1、应用数理统计(论文)利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析 院(系)名称材料科学与工程学院 专业名称材料科学与工程 学生姓名 任课教师2012年12月利用SPSS软件对美国职业男子篮球联赛(NBA)球员的聚类分析和判别分析摘要:美国职业男子篮球联赛(NBA)是全世界最受欢迎的职业篮球赛事。本文采用聚类分析和判别分析这两类数据分析方法对NBA球员进行了分类和判别。 首先对30个球员样本进行系统聚类分析,样本指标选自其比赛数据,得到树状谱系图,根据球员类型将其分为四类。然后选取4个球员的比赛数据,利用聚类分析 得到的分组结果,用Fisher判别分析进行判定,最终确
2、定各NBA球员所属类型。分析过程应用了SPSS 19.0软件。关键字: NBA;聚类分析;判别分析;球员类型一、引言美国职业男子篮球联赛(NBA,全称National Basketball Association)是美国第一大职业篮球赛事,其中产生了迈克尔乔丹、魔术师约翰逊、科比布莱恩特、姚明、勒布朗詹姆斯等世界巨星。该联赛一共拥有30支球队,分属两个联盟:东部联盟和西部联盟;而每个联盟各由三个赛区组成,每个赛区有五支球队。作为最受欢迎的篮球联赛,NBA对与篮球运动的 推广起到了巨大的推动作用,并在全球掀起了篮球的热潮,其培养的一批篮球运动员更是成为全世界篮球迷们的偶像。聚类分析又称群分析、点
3、群分 析,是定量研究分类问题的一种多元统计方法。人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领 域中都存在着大量的分类问题。以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联 系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。为了克服定性分类存在的不足,于是把数学方法引进分类学中,形成了数值分类学,后 来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。在多元统计分析中,聚类分析在许多领域中都得到了广泛的应用,取 得了许多令
4、人满意的成果。判别分析是在已知分类数目的情况下, 根据一定的指标对不知类别的数据进行归类。它是判别样品所属类型的一种统计方法。其主要原理是利用原有的分类信息,得到体现这种分类的函数关系式(称之为 判别函数,一般是与分类相关若干个指标的线形关系式),然后利用该函数去判断未知样品属于哪一类。因而是个学习和预测的过程。本文通过聚类分析对NBA球员进行了聚类分析,建立起了球员类型模型,然后通过判别分析选取球员样本进行判别,以判定其所归属的球员类型,通过使用SPSS 19.0软件以实现上述分析。二、数据采集首先,选取了ESPN最新发布的NBA现役球员排名中的前三十位球员,然后对其在20112012赛季场
5、均比赛数据进行采集,包括身高、得分、投 篮命中率、篮板、助攻、抢断、封盖、失误八项指标。数据来源于ESPN官方网站现役球员排名和NBA官方网站球员资料,整理后如表1所示。表2-1 NBA三十大现役球员球员比赛数据表编号姓名身高(m)得分投篮命中率篮板助攻抢断封盖失误1LeBron James2.0327.10.5317.96.21.90.83.42Kevin Durant2.0628.00.4968.03.51.31.23.83Dwight Howard2.1120.60.57314.51.91.52.13.24Chris Paul1.8319.80.4783.69.12.50.12.15De
6、rrick Rose1.9121.80.4353.47.90.90.73.16Kobe Bryant1.9827.90.4305.44.61.20.33.57Kevin Love2.0826.00.44813.32.00.90.52.38Dwyane Wade1.9322.10.4974.84.61.71.32.69Russel Westbrook1.9123.60.4574.65.51.70.33.610Deron Williams1.9121.00.4073.38.71.20.44.011Dirk Nowitzki2.1321.60.4576.72.20.70.51.912Rajon Ro
7、ndo1.8511.90.4484.811.71.80.13.613Andrew Bynum2.1318.70.55811.81.40.51.92.514Blake Griffin2.0820.70.54910.93.20.80.72.315Pau Gasol2.1317.40.50110.43.60.61.42.216Tony Parker1.8818.30.4802.97.71.00.12.617Carmelo Anthony2.0322.60.4306.33.61.10.42.618Chris Bosh2.0818.00.4877.91.80.90.82.119Steve Nash1.9
8、112.50.5323.010.70.60.13.720Lamarcus Aldrdge2.1121.70.5128.02.40.90.82.021Kevin Garnett2.1115.80.5038.22.90.91.01.822Kyrie Irving1.8818.50.4693.75.41.10.43.123Tyson Chandler2.1611.30.6799.90.90.91.41.624Marc Gasol2.1614.60.4828.93.11.01.91.925Manu Ginobili1.9812.90.5263.44.40.70.41.926James Harden1.
9、9616.80.4914.13.71.00.22.227Tim Duncan2.1115.40.4929.02.30.71.51.728Andre Iguodala1.9812.40.4546.15.51.70.51.929Paul Pierce2.0119.40.4435.24.51.10.42.830Al Horford2.0812.40.5537.02.20.91.31.5三、聚类分析3.1 聚类分析概述聚类分析的基本思想认为所研究的样品或指标之间存在着程度不同的相似性,于是根据一批样品的多个观测指标,找出能够度量样品或变量之间相似程度的统计量,并 以此为依据,采用某种聚类法,将所有的样
10、品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大。研究怎样对事物进行合理分类(归类)的统计方法称为聚类(clustering)分析。依据分类对象的不同可以把聚类分析再分成Q型聚类和R型聚类,Q型聚类是 指对样品进行聚类,R型聚类是指对变量进行聚类。聚类分析的基本原理是把某种性质相似的对象归于同一类,而不同类的之间则存在较大差异。为此,首先要能刻 画各个变量之间或者各个样本点之间的相似性,Q聚类一般使用“距离”度量样本点之间的相似性,R聚类则使用“相似系数”作为变量相似性的度量。定义样本点 之间的距离可以采用欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等测度,
11、定义各变量之间的相似系数则多采用样本相关系数、夹角余弦等测度。聚类分析包括很多种方法,包括系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本文中使用的为系统聚类法。系 统聚类法(Hierarchical Clustering Method)是最常用的一种聚类方法,初始时要先把要归类的n个对象各自视为一类,然后逐渐把关系最密切的两个类合并成一个新类,知道最后把n个对象都 归为一类时停止。这种聚类过程可以用一张聚类谱系图形象的展示出来。由于系统聚类时要把两个“最接近”的类合并到一起构成一个新类,这事还需要规定类与类之间的相似性测度,常
12、用的方法有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平法和。3.2 系统聚类分析1)数据预处理标准化指标选用的度量单位将直接影响聚类分析的结果,可能产生非常不同的聚类结构。一般来说,所用度量单位越小,变量的值域就越大,对聚类结果的影响也越大。为了 避免对变量单位选择的依赖,数据应当标准化。数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准化。本文采取标准差标准化的方法对原始数据进行处理(3-1)。变换后的数据均值为0,标准差为1,消去了量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。 (3-1)2)关系矩阵的构造本文中对三十个球员样本进行聚
13、类,即为Q型聚类,用“距离”判定样本间亲疏程度,以度量样本间相似性。常用的距离测度有欧氏距离、明考夫斯基距离、马氏距离、兰氏距离等。其中以欧氏距离为采用的最为广泛。本文中采用的是平方欧氏距离(Squared Eucidean distance)(3-2)。 (3-2)3)系统聚类方法选择常用的系统聚类方法有:a)组间平均距离连接法(Between-groups linkage):合并两类的结果使所有的两两项对之间的平均距离最小,既非最大距离,也非最小距离。b)组内平均连接法(Within-groups linkage):两类合并为一类后,合并后的类中所有项之间的平均距离最小。c)最短距离法(N
14、earest neighbor):首先合并最近或最相似的两项,但样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。d)最长距离法(Furthest neighbor):用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法。e)重心聚类法(Centroid clustering):两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样品的均值。该距离随聚类地进行不断缩小,谱系树状图很难跟踪,且符号改变频繁,计算较烦。f)中位数法(Median clustering):两类间的距离既不采用两类间的最近距离,也不采用最远距离
15、,而采用介于两者间的距离,图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。g)离差平方和法(Wards method):基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平方和应当较大。该法在实际应用中分类效果较好,应用较广,但要求样品间的距离必须是欧氏距离。本文中选用了离差平法和法,即ward法进行系统聚类分析。4)SPSS软件实现综上所述,首先对所选取的NBA球员样本聚类分析数据进行标准化处理,然后选取平方欧氏距离作为样本间距离测度,通过离差平方和法(ward法)进行系统聚类,最后确定最佳分类。利用SPSS 19.0软件进行系统聚类分析,并选择分
16、类数为35,已选择最优分类,输出结果如下:表3-1 标准差标准化后的球员数据编号姓名身高得分投篮命中率篮板助攻抢断封盖失误1LeBron James0.031631.445560.37818-0.011550.824940.99955-0.389181.445622Dwight Howard0.875180.666162.459442.03572-1.022920.383392.340121.445623Dwyane Wade-1.022801.205750.09899-0.358010.033000.794160.520590.782494Chris Paul-2.07724-0.71279
17、-0.84012-1.082431.748872.43726-1.14732-0.411145Dirk Nowitzki1.086070.706130.53047-0.16903-0.62695-1.25971-0.38918-0.809026Kevin Durant0.347961.64541-0.86550-0.23202-0.59395-0.027380.217330.384617Kobe Bryant-0.495581.16578-1.14469-0.767470.065990.17800-1.147320.649878Derrick Rose-1.233691.10582-1.296
18、98-1.082431.05592-0.02738-0.389181.180379Deron Williams-1.233690.12657-1.44927-1.113931.880860.17800-0.995691.3130010Blake Griffin0.558850.606200.251271.43729-0.23098-0.64355-0.540810.2519911Pau Gasol1.08607-0.133230.835040.83886-0.39597-1.054321.12710-1.0742712Carmelo Anthony0.031631.22573-1.04317-
19、0.07454-0.52796-0.43816-0.389180.2519913Amare Stoudemire0.558851.165780.175130.20893-0.62695-0.438161.581980.9151214Steve Nash-1.23369-0.95261-0.10406-1.271412.27683-1.05432-1.147321.3130015Russel Westbrook-1.233690.48630-1.37312-0.924951.220911.61571-0.692431.8435016Kevin Love0.558850.14655-0.66245
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
10 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 利用 SPSS 软件 美国 职业 男子篮球 联赛 NBA 球员 聚类分析 判别分析