基于因子分析的高中生成绩评价研究
Research on High School Student Achievement Evaluation Based on the Factor Analysis

作者: 弓瑞洁 :长安大学理学院,陕西 西安;

关键词: 因子分析降维综合评价Factor Analysis Dimensionality Reduction Comprehensive Evaluation

摘要: 高中学生成绩作为教学管理的重要内容,是评价高中生综合素质的重要数字化指标。它可以反映学生掌握知识、各方面能力以及教师教学水平的程度,也为学生未来的发展提供了一项重要参考因素。因此,对学生成绩综合评价的数学模型研究有益于对学生成绩做出准确全面的评价。因子分析综合评价模型是在因子分析基础下对学生成绩进行综合评价的一种模型,通过对学生成绩进行主成分分析,借助于SPSS软件应用因子分析法,从而计算学生的因子综合得分并进行得分排序。这种综合评价模型可以弥补一些高中直接计算学生总成绩进行排名的缺点,评价结果更为合理、公平、科学。

Abstract: High school student grades, as an important content of teaching management, are an important digital index to evaluate the comprehensive quality of high school students. It can reflect students’ mastery of knowledge, various abilities and teachers’ teaching level, and also provides an important reference factor for students’ future development. Therefore, the mathematical model research on the comprehensive evaluation of students’ performance is beneficial to make accurate and comprehensive evaluation of students' performance. Factor analysis comprehensive evaluation model is a kind of comprehensive evaluation model for students’ scores based on factor analysis. Through the principal component analysis of students’ scores and the application of factor analysis with the help of SPSS software, the comprehensive factor scores of students are calculated and the scores are ranked. This comprehensive evaluation model can make up for the shortcomings of some high school students’ ranking by directly calculating their total scores, and the evaluation results are more reasonable, fair and scientific.

1. 引言

因子分析是最早是用来解决智力测验得分的,对于解决智力测验起到重要作用。因子分析是利用降维思想来简化数据的一种多元统计方法。它的本质可以这样理解:它从原始变量的相关矩阵出发,通过实际数据,进行分析后,利用几个“抽象”变量来表示其基本的数据结构。这几个“抽象”变量称为“因子”,因子可以代替原始众多变量,用公因子反映原始众多变量的大部分信息 [1]。本文根据河北省某高中一年级学生的各科成绩的实际数据,进过大量的统计后,进行因子分析得到学生的成绩综合评价模型,在此基础上将其与常用的总成绩排名法进行比较分析与评价,结果一致认为该方法明显有其独特的优势,它的优势可弥补平均成绩法的不足。通过对比,我们可以发现学生的个体特征和群体特征,可以看出它具有较强的科学性,是一种衡量学生成绩行之有效的方法。

2. 因子分析的基本理论

因子分析是用少数几个特殊因子去研究多个原始指标间相关系的一种多元统计方法。统计方法比一般方法占优,我们从根本出发看下它的定义,因子分析可分为R型因子分析和Q型因子分析,两者计算过程是一样的,但出发点不同,前者是从变量间的相关系数矩阵出发来研究变量之间的相关关系,后者是从样品间的相似系数矩阵出发来研究样品间的相关关系。后者更能说明因子分析的基本理论 [2] [3]。R型因子分析通常将各个变量表示成公因子的线性函数与特殊因子之和(公式1),也可以用矩阵形式表示为: X = A F + ε ,F称为公共因子, ε 称为X的特殊因子。 a i j 称为第i个变量在第j个因子上的负荷,也表示m维空间中一点 X i 在坐标轴 F j 上的投影,A称为因子载荷矩阵。

X i = a i 1 F 1 + a i 2 F 2 + + a i j F j + + a i m F m + ε i i = 1 , 2 , , p j = 1 , 2 , , m ; (1)

A = [ a 11 a 1 m a p 1 a p m ] = ( A 1 , A 2 , , A m ) m p . (2)

X = [ X 1 X 2 X P ] F = [ F 1 F 2 F m ] ε = [ ε 1 ε 2 ε P ] (3)

在正交因子模型的假定下,随机向量X的协方差阵 Σ 要分解成两部分,但这种分解并不是唯一的。设T为一个 m × m 正交矩阵,则 T T = T T = I 。于是,

= A T T F + Φ (4)

若令 A * = A T F * = T F ,则模型可表示为: X = A * F * + ε ,且满足因子模型的条件:

(1) E ( F * ) = E ( T F ) = T E ( F ) = 0 Var ( F * ) = Var ( T F ) = T Var ( F ) T = I m

(2) E ( ε ) = 0 V a r ( ε ) = d i a g ( Φ 1 , Φ 2 , , Φ p )

(3) cov ( F * , ε ) = cov ( T F , ε ) = T cov ( F , ε ) = 0

公因子F不是唯一的,因子载荷矩阵A也不是唯一的。它们是可以随机的变化的,只要对公因子作正交变换,就可以得到新的公因子。在几何上,正交变换对应坐标轴的旋转。旋转是在空间上旋转的,坐标系旋转后,因子载荷也发生相应变化,因此因子载荷矩阵不唯一,具有多样性。

cov ( x i , f j ) = cov ( a i 1 f 1 + a i 2 f 2 + + a i m f m + ε i , f j ) = k = 1 m a i k cov ( f k , f j ) (5)

当公因子之间完全不相关时,即 cov ( f k , f j ) = 0 ( k j ) ,而 cov ( f j , f j ) = Var ( f j ) = 1 ,此时, cov ( x i , f j ) = a i j = r x i , f j 。当公因子之间完全不相关时, a i j 就是第i个变量和第j个公因子之间的相关系数,即 x i 在第j个公因子上的相对重要性。 a i j 的绝对值越大,表示公因子 f j 与变量 x i 的关系越密切,可以据此去寻找公因子 f j 的实际含义。

r x i , f j = cov ( x i , x j ) = cov ( k = 1 m a i k f k , k = 1 m a j k f k ) = k = 1 m a i k a j k (6)

各变量的共同度是衡量因子分析效果的一个重要指标。变量共同度反映的是m个公因子对原始变量 x i 的总方差解释的比例。设因子载荷矩阵为A,变量 X i 的共同度是第i行元素的平方和

h i 2 = j = 1 m a i j 2 (7)

Var ( x i ) = j = 1 m Var ( a i j f j ) + Var ( ε i ) = j = 1 m a i j 2 + σ i 2 = h i 2 + σ i 2 (8)

上式说明变量 x i 的方差由两部分组成:第一部分为共同度 h i 2 ,它描述了全部公共因子对变量 x i 的总方差所作的贡献,反映了公共因子对变量 x i 的影响程度。第二部分为特殊因子 ε i 对变量 x i 的方差的贡献,通常称为个性方差,如果对 x i 作了标准化处理,有

1 = h i 2 + σ i 2 (9)

公因子 f i 的方差贡献,等于和该因子有关的因子载荷的平方和,即

g j 2 = i = 1 p a i j 2 (10)

公因子方差贡献所做的贡献,反映了该因子对所有原始变量总方差的解释能力,是衡量公因子相对重要性的指标参数,指标参数越高,越能说明该值越高说明公因子的重要程度越高。在因子分析模型 X = A F + ε 中,如果不考虑特殊因子的影响,当 m = p 且A可逆时,我们可以非常方便的从每个样品的指标取值X计算出其在因子F上的相应取值: F = A 1 X ,即该样品在因子F上的“得分”情况,也可以简称为该样品的因子得分。

但是因子分析模型在实际应用中要求 m < p ,因此,不能精确计算出因子的得分情况,只能对因子得分进行估计,计算它的一个估计值,汤姆森回归法假设公共因子可在对p个原始变量作回归,

F ^ j = b j 0 + b j 1 X 1 + + b j p X p ( j = 1 , , m ) (11)

如果 F j , x i 都标准化了,回归的常数项为零,即 b j 0 = 0 。由因子载荷的统计意义知道,对于任意的 i = 1 , , p ; j = 1 , , m 都有:

a i j = r X i , F j = E ( X i F j ) = E [ X i ( b j 1 X 1 + + b j p X p ) ] = b j 1 E ( X i X 1 ) + + b j p E ( X i X j p ) = b j 1 r i 1 + + b j p r i p (12)

B = [ b 11 b 12 b 1 p b 21 b 22 b 2 p b m 1 b m 2 b m p ] ,矩阵形式可表示为 A = R B B = A R 1

F ^ = [ F ^ 1 F ^ m ] = [ b 1 X b m X ] = B X = A R 1 X (13)

可以得到因子得分的估算公式为: F ^ = A R 1 X ,其中R是X的相关系数矩阵。

3. 因子分析的一般步骤

1) 要想用因子分析法解决一个问题,首先要利用KMO检验和Bartlett球形检验对数据进行检验。如果KMO值越接近于1,越适合做因子分析。如果KMO值小于0.5,则不适合做因子分析。当Bartlett检验统计量p值小于0.05时,则变量适合做因子分析。

2) 一般利用主成分分析的方法是提取公因子。

3) 对样本进行因子分析,通过分析因子的方差贡献率信息和旋转后的因子载荷分布,来确定变量和因子间相关关系。

4) 计算因子综合得分,我们可以直观量化结果来确定样本的综合排序。

4. 实证研究

高中学生综合成绩对评价教学质量有很大作用,检验课程设置和人才培养合理性等具有非常重要的参考价值。目前高中生成绩评定一般是直接按照各科成绩总分进行排名。这种方法简单易行,直观而易于理解,动手操作简单,但太过片面笼统,有明显的缺点,不能反映学生的特长与个性差异,不能看出学生的实践能力,不能全面评价学生的综合素质揭示群体特征,因此这种评价方法有一定弊端 [4] [5]。本文为评价学生成绩提供了另一种方法——因子分析法。这种方法弥补了以上缺点,从数据的内部结构出发,理论联系实际,挖掘影响学生成绩的潜在因子,其能更加客观、科学地解释影响学生成绩的因素,从而更好地指导于日常教学与学生培养。本文建立了学生一个更为科学的综合成绩评价模型,从而挖掘影响学生成绩的内在规律。

本文以河北省某高中100名高一年级学生的各科成绩为原始数据,选取了13门课程,分别是:语文(X1)、数学(X2)、英语(X3)、物理(X4)、化学(X5)、生物(X6)、政治(X7)、历史(X8)、地理(X9)、音乐(X10)、美术(X11)、体育(X12)、信息技术(X13)。借助SPSS对原始数据进行因子分析,找出隐含的潜在因子来解释学生的成绩进而科学合理地指导日常教学并提高学生的综合素质。

(一) 适宜性检验。本文利用SPSS对处理后的数据进行KMO检验和巴特利特球形(如表1),检验结果为KMO = 0. 578 > 0.5,勉强适合做因子分析。P = 0.000 < 0.05这表明样本取样度合理,变量间的相关性较强,适合做因子分析。

Table 1. KMO and Bartlett’s test

表1. KMO和Bartlett的检验

(二) 公因子选取与解释。本文用主成分分析法,选取特征值大于1的5个公因子。表2是各个公因子对于总方差的解释程度,其累计方差贡献率为61.592%,能够反映原始数据的大部分信息。即利用因子分析的方法将原问题中13门科目指标变量通过5个公共因子代替,对样本数据做到了较大程度的降维。

Table 2. Total variance explained

表2. 特征根与方差贡献率表

因子载荷则表示公因子与原始变量之间的相关性。初始因子载荷解释不够明确,通过正交旋转法计算出旋转后因子载荷矩阵(如表3)。旋转后可以看到,第一个因子在变量 X 1 , X 2 , X 3 , X 4 上有较大载荷,可将第一个因子命名为综合能力因子。第二个因子在变量 X 10 , X 11 上有较大载荷,可将第二个因子命名为艺术水平因子。第三个因子在 X 5 , X 6 上有较大载荷,可将第三个因子命名为理科能力因子。第四个因子在 X 8 , X 9 , X 12 上有较大载荷,可将第四个因子命名为文科及体育因子。第五个因子在 X 7 , X 13 上有较大载荷,可将第五个因子命名为哲学及计算机能力因子。

Table 3. Rotated factor matrix

表3. 旋转后的因子载荷阵

表4为旋转后的因子载荷矩阵,该表通过因子得分表达式计算样本在单一因子上的表现效果。以因子得分结果作为替代指标近似值,以因子方差贡献率和累计方差贡献率的比值作为替代指标的权重,可以计算得到每个样本的综合得分作为评价学生综合成绩的依据。

F 1 = 0.272 X 1 + 0.317 X 2 0.244 X 3 + 0.432 X 4 + 0.131 X 5 0.117 X 6 0.007 X 7 0.103 X 8 + 0.078 X 9 0.009 X 10 + 0.078 X 11 + 0.031 X 12 0.052 X 13

F 2 = 0.089 X 1 0.015 X 2 0.147 X 3 + 0.097 X 4 + 0.105 X 5 0.161 X 6 + 0.189 X 7 + 0.107 X 8 0.046 X 9 0.489 X 10 + 0.519 X 11 0.178 X 12 + 0.074 X 13 F 3 = 0.066 X 1 + 0.085 X 2 0.049 X 3 0.233 X 4 + 0.394 X 5 + 0.597 X 6 + 0.229 X 7 + 0.022 X 8 + 0.148 X 9 + 0.122 X 10 0.012 X 11 0.189 X 12 + 0.102 X 13 F 4

= 0.069 X 1 0.230 X 2 0.198 X 3 0.095 X 4 0.010 X 5 + 0.017 X 6 0.074 X 7 + 0.603 X 8 + 0.273 X 9 0.187 X 10 0.078 X 11 + 0.386 X 12 0.017 X 13 F 5 = 0.027 X 1 0.032 X 2 + 0.069 X 3 + 0.144 X 4 + 0.181 X 5 0.112 X 6 + 0.554 X 7 0.056 X 8 0.039 X 9 + 0.107 X 10 + 0.164 X 11 + 0.204 X 12 0.588 X 13

Table 4. Factor score coefficient matrix

表4. 因子得分系数矩阵

(三) 综合评价。通过因子得分系数矩阵,计算出因子得分函数,并得到学生在各公因子中的得分,在此基础上以各公因子的方差贡献率为权重并利用线性组合建立学生成绩综合模型,其模型如下:

S = 0.1776 F 1 + 0.1208 F 2 + 0.11001 F 3 + 0.10714 F 4 + 0.10036 F 5

Table 5. Comprehensive evaluation

表5. 综合评价

表5的综合评价中可以看出,通过因子分析法和直接计算学生总成绩这两种方法比较后前者具有明显优势,如:26号学生因子得分综合排名为第1名,但是总成绩排名则为第27名。详细观察发现该生在第四主成分上存在明显的优势,可见该生文科能力很强。第一主成分和第三主成分上也优势明显,因此综合能力和理科能力也突出。21号学生其因子得分排名为第10名,但是总成绩排名则为第25名。通过分析发现该生在第三主成分上有明显的优势,在第四主成分上存在明显的不足,即文科能力水平明显偏低,但是理科能力表现优异,所以综合得分排名第10名,而平均成绩排名却相当靠后。可见因子分析有其独特的优势,可发现学生的个性特征和综合能力,从而更好地因材施教、提高教学质量。这是总成绩排名所不能比拟的,评价结果更为客观,对高中生文理选科也起到了一定的指导作用,同时在新高考改革中,也为学生在选择高考科目时提供了一定的参考作用 [6]。

5. 结论与展望

本文在实际的撰写中,利用现有的学生成绩数据同时结合教学的实际情况、学生的不同背景将因子分析的方法应用于实际数据分析中,从多种课程间提取出有价值的信息,如课程之间的相关性、课程之间的归类合并、提取影响学生成绩的潜在因子,发现学生课程学习的差异等,这对学校课程设置、安排以及实际的教学与管理、学生发展等具有非常重要的意义,同时也为教育教学改革提供现实理论基础。

本文基于因子分析的高中学生成绩数据,从统计学的角度,为综合评价学生成绩提供了一种简便的方法。基于河北省高一学生成绩的分析结果可以看到,变量由13降维到5,很好地实现了数据降维的效果,并且得到高中学生综合成绩排名,与常用的总成绩排名方法进行了对比,发现了因子分析综合评价优于常见的学生成绩方法。然而因子分析仍存在一些问题,例如,对于旋转后因子的命名未能给出统一的解释。在进行成绩综合评价时,因子及与其显著相关的原始变量有内在的相关关系,综合因子是原始变量的线性组合,用这些关系对综合因子、逐个因子的变量组进行深入的数据分析,尽可能深入到决策的相关性程度。

文章引用: 弓瑞洁 (2020) 基于因子分析的高中生成绩评价研究。 统计学与应用, 9, 784-791. doi: 10.12677/SA.2020.95081

参考文献

[1] 魏劲如. 基于因子分析的基金平价研究[J]. 统计学与应用, 2019, 81(1): 31-38.

[2] 汪冬华. 多元统计分析与SPSS应用[M]. 上海: 华东理工大学出版社, 2010: 208-218.

[3] 林海明. 因子分析应用中一些常见问题的解析[J]. 统计与决策, 2012(15): 65-69.

[4] 王小丽, 李林芝, 简太敏. 多元统计分析在大学生综合成绩评价中的应用[J]. 产业与科技论坛, 2018, 17(12): 117-119.

[5] 刘访华, 余瑞君. 基于因子分析的学生成绩评价对提高本科教学质量的启示[J]. 中国人民大学教育学刊, 2013, 11(4): 15-21.

[6] 张启贤, 陈欣, 刘新平. 基于因子分析下的学生成绩综合评价模型研究[J]. 西安文理学院学报(自然科学版), 2008(11): 1-6.

分享
Top