1、目 录1问题重述22基本假设33符号说明34问题分析45 问题一 论文选题开题的评价55.1模型分析与准备55.2模型的建立与求解76问题二 论文评分的评价116.1.模型分析与建立116.2 模型的检验及结果分析167问题三 论文评分与开选题相关性分析178问题四 复审论文得分评价229问题五 毕业先后论文评分分析及建议229. 参考文献2310. 附录24附录一24附录二25附录三 用MATLAB2007b求解程序清单271问题重述我国自1980年建立新的学位制度以来,已初步形成了具有我国特色的研究生招生和培养模式,并且随着社会环境的变化和人才培养的不同要求适时作出调整。如:入学类型开始有
2、了在职人员和非在职人员、定向培养和非定向培养、直博和提前攻博等类型;招生工作中的计划内定向培养意识逐渐淡化,出现了在职攻读学位等进校不离岗的招生形式等等。然而,这种多样化的招生和培养方式,也使得研究生论文质量问题日益引起人们关注。特别是近年来研究生招生规模的迅速扩张,以及研究生在国家发展与社会进步中发挥的越来越大作用,更使研究生论文质量问题成为人们关注的焦点。如何建立合理的研究生论文质量评价体系,并通过量化的手段找出当前国家在研究生招生过程中存在的问题,进而调整招生政策,改革招生方式,真正吸收综合素质高和研究能力强的优秀学生进入研究生队伍,已成为保证、提高硕士研究生论文质量的第一大关口,是国家
3、乃至个人都十分关注的一项课题。为全面贯彻科学发展观,落实以质量为核心的发展要求,全面分析和评价我国硕士生质量,制定进一步提高硕士研究生教育质量的政策,需要对硕士生的招生质量、论文质量、培养质量等进行综合评价。某校正开展硕士生质量评价,现搜集到2006、2007、2008年硕士生论文的评阅信息,分别按年存放在相关数据库中。附件1和附件2中给出2006,2007,2008年各年硕士论文的评阅信息。全部存放在Excel表中。请根据这些信息分析解决以下问题。1. 对2006,2007,2008年各年硕士生论文选题与开题进行总体评价。包括各专业的评价和各年的总体评价。2. 对2006,2007,2008
4、年各年硕士论文评分的评价。包括各专业与各年的总体评价。3. 对各专业、各年硕士论文选题开题与论文得分之间的相关性进行分析,你从中得出什么结论?4. 对2006,2007,2008年复审(毕业后的重新评阅)论文的评价。包括各专业与各年的总体评价。5. 对硕士毕业前后论文的评分结果进行分析,你得出什么样的评论。说明你的观点与结论。对此你有什么建议。2基本假设1) 假设硕士论文的质量仅有选题与开题得分分值有关。2) 假设三位专家对同一对象的评价是独立互不受影响的。3) 假设每个专家对不同对象的评价也是独立不受影响的。4) 假设每个专家对学生评价是同等重要的。3符号说明符号含义选题与选题六部分分值开题
5、与选题中任意两项对Y值影响之比论文选题开题优劣度方差开题各部分和选题所占权重误差平方和Pearsonx系数第一位专家评分第一位专家各分段论文评分情况第二位专家评分第二位专家各分段论文评分情况4问题分析我国自1980年建立新的学位制度以来,已初步形成了具有我国特色的研究生招生和培养模式,并且随着社会环境的变化和人才培养的不同要求适时作出调整。如何建立合理的研究生论文质量评价体系,并通过量化的手段找出当前国家在研究生招生过程中存在的问题,进而调整招生政策,改革招生方式,真正吸收综合素质高和研究能力强的优秀学生进入研究生队伍,已成为保证、提高硕士研究生论文质量的第一大关口,是国家乃至个人都十分关注的
6、一项课题。为全面贯彻科学发展观,落实以质量为核心的发展要求,全面分析和评价我国硕士生质量,制定进一步提高硕士研究生教育质量的政策,需要对硕士生的招生质量、论文质量、培养质量等进行综合评价。本题就是在这种环境下产生的。问题一要求我们对2006-2008三年论文的开题与选题总体评价,包括各年与各专业的评价。考虑到选题和开题评分的六大部分并不是对论文优劣的区分有同等贡献,我们采用了层次分析法建立数学模型,根据对整体数据分析设立对称判断矩阵,计算出权向量,最终得到论文质量与选题和开题的方程关系。我们通过上述方程关系求出每一个学生对应的论文优劣程度评价的Y值,统计分析各年各专业Y值情况从而得出对其的评价
7、。问题二要求我们对2006-2008年各年硕士论文评分的评价。包括各专业与各年的总体评价。首先对数据进行统计分析,对每年的数据我们采用最小二乘法进行了曲线拟合并且进行了对曲线的检验,通过对曲线的分析我们做出对各年论文评分的总体评价,这些处理都是在Matlab进行的。另一方面考虑到各专业总人数太少不适合进行函数拟合,我们通过数理统计描述与分析的方法,对数据进行整理归类,最终用Matlab画出条形图对每一年各专业横向比较和同专业不同年纵向比较从而得到各专业论文的总体评价。问题三要求我们对论文开题选题和论文得分的相关性进行分析,通过问题一我们已经得到对论文选题开题优劣程度评价的Y值,本题即可转化成Y
8、 值与论文得分的相关性分析,我们通过Spss软件分别对各年和各专业进行分析得出Pearson值和Spearman值,从而得出它们之间的相关性。问题四要求我们对2006-2008年复审(毕业后重新评阅)论文评价,包括各专业和各年的总体评价。本题和第二题有很大相似之处,所以我们采取第二题一样的数学方法对数据进行处理得出对论文的评价。问题五要求我们对硕士毕业前后论文的评分结果进行分析,得出结论,并提出自己建议。我们根据问题二和问题四得出曲线方程与图像,具体对比分析从而得到两者之间的关系,进一步提出我们的建议。 5 问题一 论文选题开题的评价5.1模型分析与准备层次分析法( Analytic Hier
9、archy Process,AHP) ,是一种解决多目标复杂问题定性与定量相结合的决策分析方法,该方法能够有效地分析目标准则体系层次间的非序列关系,有效地综合测度决策者的判断和比较。能较好地解决模糊的、难以量化的问题,适合各种非确定性问题的解决。通过对全部数据的分析我们先对数据进行如下处理1. 删除关于评分中给4分的评价(没有一篇论文的任一项得4分)。2. 把附表一中关于XT项中分值为1和分值为3的项全部互换并在以后应用于以下所以数据处理中(考虑到开题的六项评价中分值越小论文越好,而在选题中情况恰好相反,所以我们把选题评分标准作出这样的改变,1表示有理论意义和实用价值而3表示有理论意义)。 根
10、据数据特征通过统计与分析进行进一步建模准备。分析统计三年KT每一项得各分值的人数和选题的每一项分值的人数,其结果可以用表一表示 表1 1239562491382741067433010114531781336196794571260823731596153. 通过对上以表格分析,分别假设出各因子相互影响标度值 ,得出判断矩阵。这里我们主要从得分为1来分析,得分为1的项越少,说明这一项对论文优劣程度的判断具有更重要的贡献。4. 通过我们假设的值我们得出判断矩阵。至此我们为建模的数据做了充分准备。5.2模型的建立与求解通过Matlab编程我们实现了具体层次分析法的编程过程并求出各个项所占的权重。
11、图1从而得到Y值与各具体变量的线性方程 ,其中表示XT,的得分值。 这样我们就可以算出每一篇论文的Y值。应用统计学的方法在Excel中求出各年的Y值的平均值,结果如表1,图2,图3所示。 表1指标 年份20060.0826161.72592320070.0719351.72171720080.0799761.731953 图2 图3这种数据比较符合现实,每年的Y值比较接近(注意:Y值越小,表示论文选题开题优劣程度越好),符合每年研究生论文选题开题情况大体一致,08年会稍微好一点。就方差分析来看,07年的情况较为稳定,但是总体来说三年差别不是很大,这也说明近三年学生在开题选题方面水平大体一致。我
12、们再应用上述方法同样分专业得出各专业的Y值,大体情况由表2,图4,图5,图6直观表示。 表2年 专 份 业2006年2007年2008方差方差方差10.1207981.6732670.037881.499010.0312011.8299320.033171.80730.0856921.6638560.002861.659930.00000.00000.0000.0000.0117812.1093540.2043761.5989630.051961.6533210.0607341.6082950.0000.0000.0000.0000.0630011.6582460.0983851.683783
13、0.0846141.92880.1768721.37406770.0742821.8172110.0281911.3193170.0520151.37908880.0934051.7229630.0338471.692260.048031.74575590.1229191.650520.0514831.660470.0335191.60626100.1190751.5330710.1497781.418260.1319181.67424110.0036521.6624250.0663161.6503360.0262791.85404120.070391.5812390.0873891.7289
14、140.060851.637345130.0807731.6931930.0673771.6775830.0827631.676216140.0714191.750.0273881.7685140.0291261.881871150.0638581.782830.0114041.627670.0475981.5229160.0703671.6782940.1039651.5416250.0744021.610374170.0475781.6715380.0077241.695480.0274771.655678180.0418071.75590.0964461.6008210.0777661.
15、634236190.0529561.6829940.0747091.6434650.1102361.750314200.064181.7074070.0845241.6438370.1070281.623955210.0704521.7159330.0466111.7066540.0893671.841807220.0956931.6317060.0754631.8359060.0479421.771747230.0000.0000.0000.0000.1814871.75285240.0331171.7353670.0245171.73290.0667011.70465250.1345781
16、.4166560.0306851.6958330.1504091.568938260.0643421.843070.0609431.792650.0382391.712278270.0837651.73870.0340851.802980.0575551.58936280.1099461.7008150.0740791.6768030.136841.662506290.0546961.8656250.019521.6930730.0495561.761908300.0799171.7470070.0484861.868270.4278761.49128310.0358041.717450.07
17、65031.843650.0720871.654589320.1167261.5273380.0690151.493130.0561811.886122330.099111.4646630.0127641.921180.0432851.857216340.0000.0000.0000.0000.0002661.97555 图4(上) 图5(下) 图6 根据上述直方图可以对每一年各专业进行一个纵向评价,以2008年为例,6专业和7专业的的Y值明显最低,他们的论文在开题选题上明显好于其他专业;另一方面,我们还可以对同专业不同年份的论文在开题选题的优劣程度上进行比较,以07年和08年6专业为例(除去
18、有些没有人提交论文的专业),有很大差别,明显08年6专业要好于07年的6专业。总之,通过上述的表格和直方图我们可以清楚地看出各年各专业的论文在选题和开题方面的优劣程度,此模型可行性良好,符合实际情况。 6问题二 论文评分的评价6.1.模型分析与建立在第二个问题中,对各年论文的评分总体评价,我们想到了曲线拟合的方法。对此我们首先对数据做了以下处理。 1. 在Excel中计算出第一位专家和第二位专家给出的总分,此过程可 以由Excel中的Sum函数完成。2. 分别统计出第一位专家和第二位专家的总评分在每一个分数段(步长为1)的分布情况。得到了一个第一,二位专家给出总分和与对应人数的两组二维变量关系
19、(附录中)。 起初我们是想把该曲线向着正态分布的形状进行拟合的,因为我们认为如果满足正态曲线,我们可以得到方差以及均值,其图像很能说明论文的评分的分布情况。但是我们发现这不符合数据特征,不能简单的靠想象来说明问题,于是我们终于数据提出了多项式的拟合。根据二维变量的点阵,我们采用最小二乘法拟合准则分别用三次,九次和十五次多项式对其中一组二维变量进行拟合,同时求出它们误差平方和,从而选择出最优曲线。下面以06年为例给出具体求曲线的步骤。我们选择了只用一组二维变量来对论文评分评价,这里选择的是第一位专家的总评分和分数值的二维变量,设为()(这里只选择一个专家作为对论文的评价是由实际情况所决定的,因为
20、两个专家即使对个体有很大主观因素,但对于整体其每个分数段分布情况应该基本一致)。 写出源代码(附录)在Matlab中运行,得到曲线图如下得到的运行结果为:= 1.2455e+003, = 616.8844, =1.1760e+003由于p% 当kp是执行循环体 i=i+1;% i自加1 x(:,i)=A*y(:,i-1);% x的第i列等于A*y的第i-1列 m(i)=max(x(:,i);% m的第i个分量等于x第i列中最大的值 y(:,i)=x(:,i)/m(i);% y的第i列等于x的第i列除以m的第i个分量 k=abs(m(i)-m(i-1);% k等于m(i)-m(i-1)的绝对值e
21、nda=sum(y(:,i);% y的第i列的和赋予aw=y(:,i)/a;% y的第i列除以at=m(i);% m的第i个分量赋给tdisp(权向量);disp(w);% 显示权向量wdisp(最大特征值);disp(t);% 显示最大特征值t%以下是一致性检验CI=(t-n)/(n-1);% t-维度再除以维度-1的值赋给CIRI=0 0 0.52 0.89 1.12 1.26 1.36 1.41 1.46 1.49 1.52 1.54 1.56 1.58 1.59;% 计算的标准CR=CI/RI(n);% 计算一致性if CR0.10 disp(此矩阵的一致性可以接受!); disp(C
22、I=);disp(CI); disp(CR=);disp(CR);else disp(此矩阵的一致性不可以接受!);end2曲线拟合的程序:x=73:1:100;y=1 1 9 6 7 16 6 29 16 23 21 37 57 35 25 31 29 57 28 21 15 6 11 5 1 0 0 0;a1=polyfit(x,y,3) %三次多项式拟合%a2= polyfit(x,y,9) %九次多项式拟合%a3= polyfit(x,y,15) %十五次多项式拟合%b1= polyval(a1,x)b2= polyval(a2,x)b3= polyval(a3,x)r1= sum(y-b1).2) %三次多项式误差平方和%r2= sum(y-b2).2) %九次次多项式误差平方和%r3= sum(y-b3).2) %十五次多项式误差平方和%plot(x,y,*) %用*画出x,y图像%hold onplot(x,b1, r) %用红色线画出x,b1图像%hold onplot(x,b2, g)