1、minitab方差分析的应用研究一、简要简介方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。二、方差分析应用条件1. 方差分析的假定条件为:(1)各处理条件下的样本是随机的。(2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。
2、(3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。(4)各处理条件下的样本方差相同,即具有齐效性。三、方差分析基本步骤1、提出原假设:H0无差异;H1有显著差异2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。4、给定显著性水平,并作出决策四、方差分析的进一步检验分析在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。1、方差齐性检验是对控制变量不同水平下各观测变量
3、总体方差是否相等进行检验。前面提到,控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。2、多重比较检验单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的等等
4、。多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。五、检验统计量的构造方法(1)LSD方法LSD方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字画就体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。正是如此,它利用全部观测变量值,而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。(2)S-N-K方法S-N-K方法是一种有效划分相似性子集的方法。该方
5、法适合于各水平观测值个数相等的情况,六、单因素方差分析具体实例分析1.原理介绍单因素方差分析的数学模型:单因素方差分析表: 方差来源平方和自由度均方F值概率值因素A误差总和其中为总平均,为第个水平下的样本均值。为总离差平方和,为误差平方和,为因素A的平方和(或称组间平方和)2.具体实例2.1、以下是三个地区家庭人口数的抽样调查数据:甲地264135846乙地64418212152丙地213317142分析步骤:(1)检验三个地区家庭人口数的抽样调查数据的分布是否为正态分布?是否等方差?(2)比较三个地区的家庭平均人口数是否有显著差异?若有显著差异,则指出哪些地区的家庭平均人口数有显著差异。2.
6、2、用minitab分析三个地区家庭人口数的抽样调查数据是否服从正态分布:#录入数据#对甲地数据进行正态性检验:结果显示,p-value = 0.1950.05,故在0.05显著性水平下,甲地数据服从正态分布。#对乙地数据进行正态性检验:结果显示,p-value = 0.2580.05,故在0.05显著性水平下,乙地数据服从正态分布。#对丙地数据进行正态性检验:结果显示,p-value = 0.0850.05,故在0.05显著性水平下,三个地区家庭人口数的抽样调查数据符合方差齐性。2.4、由于丙地数据不符合正态性,故使用非参数检验的方法进行各地区之间的均值比较:Kruskal-Wallis T
7、est: 地区人口数 versus 地区标志 Kruskal-Wallis Test on 地区人口数地区标志 N Median Ave Rank Z1 8 5.500 18.8 2.022 10 4.000 14.2 0.103 9 2.000 9.6 -2.06Overall 27 14.0H = 5.69 DF = 2 P = 0.058H = 5.81 DF = 2 P = 0.055 (adjusted for ties)结果显示,Kruskal-Wallis Test的p-value = 0.0550.1, 故在0.1显著性水平下认为,至少有两地区之间的家庭平均人口数存在显著差异。
8、2.5、均值的多重比较由于至少有两地区之间的家庭平均人口数存在显著差异,故进行各地区比较:Mood Median Test: 地区人口数 versus 地区标志 Mood median test for 地区人口数Chi-Square = 4.86 DF = 2 P = 0.088地区 Individual 95.0% CIs标志 N Median Q3-Q1 -+-+-+-+-1 3 5 5.50 3.50 (-*-)2 6 4 4.00 4.75 (-*-)3 8 1 2.00 2.50 (-*-) -+-+-+-+- 2.0 4.0 6.0 8.0Overall median = 4.0
9、0检验结果显示,甲地(1)与乙(2)地区之间、乙地区与丙(3)地区之间的家庭人口数没有显著差异(置信区间有重叠),而甲地与丙地之间的家庭人口数有显著差异(置信区间无重叠)。各地区具体家庭平均人口数差异均值比较:Descriptive Statistics: 甲地, 乙地, 丙地 Variable Mean甲地 6.00乙地 4.50丙地 2.667六、双因素方差分析具体实例分析1.原理介绍双因素方差分析的数学模型:设某实验影响的因素有两个A和B,并假定因素A有个水平,因素B有个水平,在因素A、B各水平的组合下均做次实验,其数值指标表示在A第水平B第水平下第次试验指标值,对固定的(),假定独立,
10、且,同样令,(),(),,则得到两因素的方差分析的数学模型: (I),其中表示A因素的第水平的效应,表示因素B的第水平的效应,表示A因素的第水平和因素B的第水平的交叉效应。下面针对有无交互作用分别讨论。无交互作用的两因素方差分析方差来源平方和自由度均方F值因素A因素B误差总和若,则表示因素A有显著性影响;若,则表示因素B有显著影响;若二者均达到显著性水平,则说明因素A和因素B的水平均有显著影响。反之,则表明因素A、B没有显著性影响。有交互作用的两因素方差分析方差来源平方和自由度均方F值因素A因素B交互效应(AB)误差总和只要,则表明因素A、B间存在交互作用,反之则没有交互作用。2. 无交互作用
11、的两因素方差分析具体实例分析为了考察蒸馏水的pH值和硫酸铜溶液浓度对化验血清中白蛋白与球蛋白的影响。pH值(A)取四种水平其值为5.40 5.60 5.70 5.80,记为A1、A2、A3和A4,硫酸铜浓度(B)取三种水平其值分别为0.04 0.08 0.10,记为B1、B2和B3,采用两因素的全面试验,所得结果如下分析步骤:(1)检验蒸馏水不同水平的pH值数据及硫酸铜溶液浓度不同水平的数据的分布是否为正态分布?是否等方差?(2)比较蒸馏水不同水平的pH值及硫酸铜溶液的浓度不同水平对化验血清中白蛋白与球蛋白的影响是否显著?若显著,试比较不同水平下的差异。2.1、对蒸馏水不同水平的pH值数据及硫
12、酸铜溶液浓度不同水平的数据进行正态性检验:#录入数据#对A1数据进行正态性检验:Mean2.6StDev0.7937N3AD0.312P-Value0.249#对A2数据进行正态性检验:Mean2.167StDev0.3786N3AD0.358P-Value0.169#对A3数据进行正态性检验:Mean1.567StDev0.4041N3AD0.212P-Value0.536#对A4数据进行正态性检验:Mean0.8333StDev0.5508N3AD0.193P-Value0.616#同理可对因素B的个水平数据进行正态性检验(略)。检验结果显示,A1A4,B1B3的数据均服从正态分布(检验P
13、值均大于0.05)。2.2、对蒸馏水不同水平的pH值数据及硫酸铜溶液浓度不同水平的数据进行方差齐性检验:关于因素A各个水平的方差齐性检验:Test for Equal Variances: 结果数据 versus 因素A 95% Bonferroni confidence intervals for standard deviations因素A N Lower StDev Upper A1 3 0.352326 0.793725 10.0242 A2 3 0.168054 0.378594 4.7814 A3 3 0.179396 0.404145 5.1041 A4 3 0.244475 0
14、.550757 6.9557Bartletts Test (Normal Distribution)Test statistic = 1.20, p-value = 0.753Levenes Test (Any Continuous Distribution)Test statistic = 0.26, p-value = 0.852关于因素B各个水平的方差齐性检验:Test for Equal Variances: 结果数据 versus 因素B 95% Bonferroni confidence intervals for standard deviations因素B N Lower St
15、Dev Upper B1 4 0.452866 0.895824 4.87220 B2 4 0.331498 0.655744 3.56645 B3 4 0.396984 0.785281 4.27098Bartletts Test (Normal Distribution)Test statistic = 0.25, p-value = 0.882Levenes Test (Any Continuous Distribution)Test statistic = 0.18, p-value = 0.835检验结果显示,对于因素A、B的各个水平均满足方差齐性要求。2.3、由于因素A、B满足正态
16、性及方差齐性要求,故用参数法进行方差分析:Two-way ANOVA: 结果数据 versus 因素B, 因素A Source DF SS MS F P因素B 2 2.22167 1.11083 25.80 0.001因素A 3 5.28917 1.76306 40.95 0.000Error 6 0.25833 0.04306Total 11 7.76917S = 0.2075 R-Sq = 96.67% R-Sq(adj) = 93.90%结果显示,在显著性水平为0.05下,因素A、B的效应均高度显著,即蒸馏水不同水平的pH值及硫酸铜溶液的浓度不同水平对化验血清中白蛋白与球蛋白的影响显著。
17、2.4比较不同水平下的差异。比较因素A,即蒸馏水不同水平的pH值对化验血清中白蛋白与球蛋白的影响Grouping Information Using Tukey Method因素A N Mean GroupingA1 3 2.6000 AA2 3 2.1667 A BA3 3 1.5667 A BA4 3 0.8333 BMeans that do not share a letter are significantly different.比较因素B,即硫酸铜溶液的浓度不同水平对化验血清中白蛋白与球蛋白的影响:Grouping Information Using Tukey Method因素
18、B N Mean GroupingB1 4 2.3750 AB2 4 1.6500 AB3 4 1.3500 AMeans that do not share a letter are significantly different.结果显示,仅A1与A3水平之间对化验血清中白蛋白与球蛋白的影响有显著差异,其他水平之间均无显著差异;B因素各水平之间,即硫酸铜溶液浓度的不同水平对化验血清中白蛋白与球蛋白的影响不显著(含相同字母)。并且结果显示,因素A中,A1至A4水平对化验血清中白蛋白与球蛋白影响逐渐降低,B因素亦类似。3. 有交互作用的多因素方差分析具体实例分析(三因素两水平正交试验)在梳棉机
19、上纺粘棉混纱,为了提高质量,选了3个因素,每个因素有两个水平,3因素之间有一级交互作用。因素水平如下表: 因素水平ABC金属针布产量水平速度1甲地产品6kg238rmin-12乙地产品10kg320rmin-1试验指标为棉结粒数,越小越好。用正交表L8(27)安排试验,8次试验所得试验指标的结果依次为0.30,0.35,0.20,0.30,0.15,0.50,0.15,0.40。试对结果进行分析。分析步骤:(1)设计表头及实验结果表(2)作方差分析3.1、正交表设计如下所示:表3.1.1 纺粘棉混纱试验的正交表3.2、作方差分析#录入数据用minitab分析,得到结果如下所示:General
20、Linear Model: 棉结粒数 versus A, B, AB, C, AC, BC Factor Type Levels ValuesA fixed 2 1, 2B fixed 2 1, 2AB fixed 2 1, 2C fixed 2 1, 2AC fixed 2 1, 2BC fixed 2 1, 2Analysis of Variance for 棉结粒数, using Adjusted SS for TestsSource DF Seq SS Adj SS Adj MS F PA 1 0.000313 0.000313 0.000313 0.11 0.795B 1 0.007
21、812 0.007812 0.007812 2.78 0.344AB 1 0.000312 0.000313 0.000313 0.11 0.795C 1 0.070312 0.070312 0.070312 25.00 0.126AC 1 0.025313 0.025313 0.025313 9.00 0.205BC 1 0.000313 0.000313 0.000313 0.11 0.795Error 1 0.002812 0.002812 0.002812Total 7 0.107187S = 0.0530330 R-Sq = 97.38% R-Sq(adj) = 81.63%将不显著
22、的因素A及交互作用AB、BC去掉,重新分析:得到结果如下所示:General Linear Model: 棉结粒数 versus B, C, AC Factor Type Levels ValuesB fixed 2 1, 2C fixed 2 1, 2AC fixed 2 1, 2Analysis of Variance for 棉结粒数, using Adjusted SS for TestsSource DF Seq SS Adj SS Adj MS F PB 1 0.007812 0.007812 0.007812 8.33 0.045C 1 0.070312 0.070312 0.0
23、70312 75.00 0.001AC 1 0.025312 0.025312 0.025312 27.00 0.007Error 4 0.003750 0.003750 0.000937Total 7 0.107187S = 0.0306186 R-Sq = 96.50% R-Sq(adj) = 93.88%结果显示,在0.1显著性水平下,因素C最显著,其次是交互效应AC,最后是因素B。计算各个因素各水平下的均值:Grouping Information Using Tukey MethodA N Mean Grouping2 4 0.3000 A1 4 0.2875 AMeans that
24、 do not share a letter are significantly different.Grouping Information Using Tukey MethodB N Mean Grouping1 4 0.3250 A2 4 0.2625 AMeans that do not share a letter are significantly differentGrouping Information Using Tukey MethodC N Mean Grouping2 4 0.38750 A1 4 0.20000 BMeans that do not share a l
25、etter are significantly different.Grouping Information Using Tukey MethodAC N Mean Grouping1 4 0.3500 A2 4 0.2375 AMeans that do not share a letter are significantly different.整理结果如下所示(各因素各水平下的均值): A B C AC1 0.2875 0.3250 0.2000 0.35002 0.3000 0.2625 0.3875 0.2375画出各因素各水平对棉结粒数影响的均值图:图3.2.1 各因素各水平对棉结粒数影响的均值图因为棉结粒数越少越好,结合各因素的显著性,即因素C最显著,其次是交互效应A:C,最后是因素B,故最优生产方案为:A2B2C1即金属针布为乙地产品、产量水平为10千克、速度为238转/分钟。