多维项目反应理论在数学素养测验中的应用

收稿日期:2020-10-07
修回日期:2021-04-07
基金项目:
作者简介:
教育部人文社会科学研究规划2019年度基金项目“中小学核心素养测评的模型建构与实证研究”(19YJA880012)
林子植(1983—),男,华中师范大学数学与统计学院在读博士生,江西科技师范大学数学与计算机科学学院副教授;
胡典顺(1965—),男,华中师范大学数学与统计学院教授,博士生导师。
林子植1,2
胡典顺1
(1.华中师范大学,武汉430079;2.江西科技师范大学,南昌330013)
多维项目反应理论在数学素养测验中的应用
0引言
数学素养评价是我国数学课程改革面临的
乙酰胆碱受体核心问题。从国内外有关数学素养的研究看,虽然学界对数学素养的概念界定与组成因素持不同意见,但形成共识的是,数学素养作为一种心理特质具有多维性的特点[1-3]。因此,数学素养的评价方式应与其多维性相匹配,提供学生在各维度上的表现信息。为了提供多维度的评价信息,经典测量理论(classical test theory ,CTT )和单维项目反应理论(unidimensional item response theory ,UIR
T )往往采用项目间多维模型(between-item multidimensional model )设计试题,即将整个测试分为多个子量表,每个子量表只测量数学素养的
某个维度,子量表得分与维度分相对应[4]。这种项目间多维的设计方法给数学素养测量造成困难,因为每个维度都有一定数量的试题会导致整个测试题目总量的剧增[5]。如果人为地减少要考查素养维度的试题数量,将影响测试的预期目标。传统命题往往采用项目内多维模型(within-item multidimensional model )设计试题,一道试题考查多种素养成分,如一道几何试题通常既考查直观想象素养,又考查逻辑推理素养。对于采用项目内多维模型的命题设计,如何从被试的表现信息中分离出维度分是数学素养测量的一个难点,多维项目反应理论(multidimensional item re⁃sponse theory ,MIRT )的迅速发展为解决这一问题提供了新的路径。MIRT 建立在UIRT 和因子分
Journal of China Examinations 2021年第5期No.5,2021
析的基础上,兼具二者的优点,已在项目功能差异、多维认知诊断等方面有着广泛的应用[4]。MIRT克服UIRT只能提供一个能力值的缺点,可在多个维度上提供被试的表现信息,这与数学素养的多维性是一致的。
MIRT在数学素养测评中的应用已有一定的研究成果:有研究已证实学生的数学素养不仅在理论上是多维的,而且在数据上是多维的[6];如果仅使用单维测量模型评价学生多维的数学素养就会出现错误的
判断,比如将学生的数学素养水平划分为较高或较低的等级[7];许志勇等将MIRT 应用到高考数学测试,证实MIRT模型比UIRT模型的拟合度更佳[8];王娅婷将MIRT应用到小学生的数学素养诊断,证实MIRT可提供更加丰富的评价信息[9]。总体来看,有关MIRT在数学素养测试中的应用研究相对较少,一些MIRT应用的关键问题尚未得到很好地处理,如MIRT的使用条件、测验Q矩阵与MIRT模型收敛性的关系、MIRT 的使用程序等。本研究尝试利用R语言的MIRT 程序包,处理某地区8年级学生数学素养测评项目数据,研究MIRT在数学素养测试中的使用流程、使用条件及使用的优缺点等问题,尝试发挥MIRT在多维评价中的优势,丰富数学素养的测量手段。
1研究过程
依据MIRT在心理测验中的使用步骤,本研究的MIRT分析过程为测试Q矩阵确定→试题模型确定→MIRT模型拟合→试题参数估计→被试能力估计。
1.1测试Q矩阵确定
本研究以8年级学生数学素养测试为研究对象,共17327名学生参加测试。此次数学素养测试采用PISA2012测试框架,试题由本研究项目组自主开发,是PISA本土化的一次尝试。PISA 测评框架明确学生的数学素养包含7个基本能
力,即Factor1(沟通)、Factor2(设计问题解决策
略)、Factor3(数学化)、Factor4(表征)、Factor5(符
号与形式化)、Factor6(推理与论证)、Factor7(使
用数学工具)[10]。由于第7个基本能力Factor7(使用数学工具)主要涉及基于计算机的数学素养测
试,本研究设计的是纸笔测验,故试题只涉及前6个基本能力。所有试题均采用项目内多维模型设计,在命题过程中,专家对每道试题涉及的基
本能力种类进行反复论证和标定。每道试题考
查的基本能力Q矩阵见表1。
题号沟通
设计问题
策略
数学化表征
符号与
形式化
推理与
论证表1数学素养测试试题考查基本能力的Q矩阵1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
林子植等:多维项目反应理论在数学素养测验中的应用·
·73
2021年第5期
1.2试题模型确定
本研究的数学素养测试共包含33道试题,其中,所有客观题(试题1、3、4、6、7、13、20、23、24、26、31、32)采用0/1计分,所有主观题采用多级计分。由于各试题的预设难度、答案编码不同,相应的等级数量也不同,其中,试题2、8、9、15、18、21采用3等级计分,试题5、10、17、27、28采用4等级计分,试题11、12、14、16、19、22、25、29、30、
33采用5等级计分。2、3、4、5等级计分试题分别拥有1、2、3、4个与难度相关的参数。
对于0/1计分试题,对应的项目模型采用Reckase 提出的三参数多维Logistic 模型(3PL )[11]
第i 个被试正确回答第j 个题目的概率为:其中:θi =()θi ,1,θi ,2,⋯,θi ,m钢管在线
代表第i 个被试的能力向量;a j =()a j ,1,a j ,2,⋯,a j ,m
代表第j 个题目的区分
度向量;d j 为与题目难度相关的参数,但与UIRT
中的难度参数不同,需要利用一个类似于标准化的变换将其转化成UIRT 中的难度参数;γj 为题目的下渐近参数;D 为模型调整常数。值得注意的是,能力向量和题目区分度向量与被试的能力相关,同为向量;但与题目难度相关的参数和下渐近参数只与某个试题相关,只是标量。
对于多级计分试题,对应的项目模型采用以Samejima 等级评分模型为基础的多维模型
(GRM )。设第j 个题目划分为C j 个等级,每个等级与题目难度相关的参数分别为d j =(d j ,1,⋯,d j ,(C j
-1)),其他参数意义与3PL 模型相同,
则第j 个题目的边际概率函数为:
k =1,…,C j -1,P ()x ij ≥C j |θi ,a j ,γj =0,所以被试得分x ij =k ,k =1,…,C j -1的概率为:
P ()x ij =k |θi ,a j ,γj =P ()x ij ≥k |θi ,a j ,γj -P ()x ij ≥k +1|θi ,a j ,γj 。
由于题目的下渐近参数γj 估计不稳定,在使用时,通常令γj =0,将3PL 模型转化为2PL 模型进行参数估计[12]。1.3MIRT 模型拟合
对于能力维度的确定,以及是否应该利用MIRT 进行分析,许志勇等认为需要从2个方面考虑:一是试题的理论设计,依据素养理论模型,试题在设计时就考查了多个维度的能力;二是数据的拟合指标,如果数据与MIRT 模型拟合度高,就应该采用MIRT 分析,且二者缺一不可[8]。比较UIRT 模型、MIRT 模型与数据的拟合结果,寻更佳的拟合模型,2个模型的各项拟合指标见表2。
本研究采用的是验证性MIRT 模型,因此采用验证性因子分析模型的各项拟合指标评价模型的拟合度,主要指标达到良好标准的取值范围如下:根据赤池信息量准则(AIC )与贝叶斯信息准则(BIC ),指标数值越小模型拟合度越佳;比较拟合指数(CFI )和Tucker-Lewis 系数(TLI )均大于0.9,且数值越大模型越佳;近似均方根误差(RM⁃SEA )和标准均方根残差(SRMSR )均小于0.08,且数值越小模型越佳[13]。从表2验证性因子分析的各项指标可以看出,MIRT 模型与UIRT 模型均达到良好标准,且MIRT 模型的拟合度均优于UIRT 模型的拟合度。
接下来进行试题拟合度分析,MIRT 程序包的itemfit 函数提供多种试题拟合度检验统计量如S -X 2、PV-Q1等[14]。由于本测试的样本量较大,采用卡方检验时,P 值随着样本量的增大而显著变小,使用P 值判断试题与数据的拟合程度已不合适,因此只以近似均方根误差(RMSEA )为评价标准[15]。33道试题的RMSEA 值见表3,其中:最大的RMSEA 值仅为0.021,小于一般标准的0.08,因此每道试题都具有较高的拟合度。综上,选用
P ()x ij ≥k |θi ,a j ,γj =γj +
()
1-γj 1+exp [
]
-D ()
a T
j
θi +d j ,k ,
P ()x ij =1|θi ,a j ,γj =γj +
()
1-γj
1+exp []-D ()a T j
θi
+d j
·
·74
表2UIRT和MIRT模型拟合指标比较
模型UIRT模型
MIRT模型
AIC
549672.3
543053.1
BIC
550087.7
543053.1
RMSEA
0.047
0.036
SRMSR
0.079
0.076
TKI
0.965
0.971
CFI
0.967
0.979
MIRT模型作为本测试的测量模型进行数据分析是合适的。
1.4试题参数估计
预设每道试题的区分度参数服从均值为0、方差为0.5的对数正态分布,33道试题的区分度参数、与难度相关的参数估计结果见表3。从表3可以看出,每道试题有6个区分度参数(a1、a2、a3、a4、a5、a6),没有测量到的区分度参数等于0;多级计分试题与难度相关的参数预设为d1、d2、d3、d4,
由于等级数目不同,因此实际测量的难度参数的
数目也不同。一般情形下,试题区分度参数的合
理取值范围为[0,3],难度参数的合理取值范围为[-3,3][16]。由表3可见,33道试题的区分度参数均处
于合理区间范围,没有出现异常值。由于d1~d4
还不是难度参数,需要利用以下式(1)与式(2)进
行换算后,再分析难度参数的合理分布情况。
题号1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33a1
0.56
0.60
1.37
0.81
1.02
1.06
0.80
0.82
1.00
0.51
1.00
0.98
1.70
1.07
0.88
0.94
0.55
0.64
1.03
0.65
0.68
1.21
0.77
1.16
0.69
0.86
0.44
1.88
0.33
0.73
0.58
a2
0.15
0.21
0.25
0.43
0.10
0.63
0.55
2.11
1.20
1.02
0.21
0.12
0.19
0.51
0.21
0.94
0.47
0.87
0.36
0.82
0.87
a3
0.31
0.20
0.00
0.38
0.44
0.11
1.58
1.45
0.61
0.52
0.51
0.19
0.43
0.19
0.85
0.39
0.28
1.26
0.64
1.42
1.40
a4
0.38
0.39
0.63
0.43
0.55
1.00
0.56
0.74
0.66
0.41
0.84
0.39
1.82
0.88
0.00
0.40
0.46
0.83
0.55
0.67
0.59
0.97
0.87
1.73
0.77
0.22
0.46
0.85
0.88
a5
0.15
0.17
0.34
0.21
0.46
0.34
1.45
1.28
0.89
0.72
0.84
0.94
0.82
0.86
0.74
0.47
0.48
0.44
0.25
0.51
0.35
0.91
0.06
0.14
0.11
a6
0.16
0.16
0.08
0.11
0.17
0.29
0.41
1.31
3.10
0.65
0.83
d1
2.48
2.11
3.18
0.28
1.96
3.86
1.43
-0.77
1.82
2.20
0.17
0.36
1.35
-0.72
0.57
-0.64
0.62
3.16
0.86
1.22
-0.89
2.03
0.82
-0.12
-1.74
1.24
2.29
-
0.59
1.92
-6.12
-0.43
-3.76
-2.76
d2
0.71
1.96
-1.01
1.49
0.62
0.00
-0.48
-1.63
-0.30
-2.01
-0.04
0.55
0.24
-1.10
1.50
-
2.20
2.16
-0.82
1.92
-7.11
-2.7
d3
1.47
-0.66
温室气体排放-0.11
-0.58
-
2.07
-2.04
-0.19
0.00
1.44
-2.27
1.36
-2.59
0.10
-7.46
-3.05
d4
-1.53
-1.74
-2.47
-3.39
-0.41
-1.31
-2.31
-1.89
-9.54
-3.13
RMSEA
0.009
0.008
0.007
0.005
0.010
0.007
0.005
0.005
0.009
0.012
0.009
0.017
0.008
0.011
0.021
0.008
0.010
0.007
0.016
0.005
0.008
0.011
0.006
0.006
0.008
0.000
0.015
0.000
0.014
0.008
0.015
0.012
0.008
SRMSR
0.69
0.74
1.51
1.00
1.25
1.45
1.04
1.28
1.28
0.75
2.51
2.26
2.01
1.55
2.78
1.98
1.68
1.06
1.18
1.52
0.97
1.08
1.44
1.05
2.03
1.14
1.77
1.31
1.46
4.03
1.13
1.98
2.13
表3试题的MIRT参数估计值和拟合指标
林子植等:多维项目反应理论在数学素养测验中的应用·
·75
2021年第5期为了更直观地分析试题质量,采用多维区
分度参数MDISC(multidimensional discrimination)
评价单个试题的整体区分度,MDSIC值的计算公
式为:
MDISC j=∑k=1K(a j,k)2。(1)
计算出试题的MDISC值后,还可以根据试题
的MDISC值将MIRT与难度相关的参数d j,k转化
为类似于UIRT中的难度参数MDIFF j,k,进而采用
多维难度系数MDIFF(multidimensional difficulty)
评价试题难度,转换公式为:
la-15MDIFF j,k=-d j,k MDISC
j
。(2)
MDIFF与UIRT中难度参数的含义相同,值
越高代表试题难度越大,计算结果见表4。从表4
可以看出,33道试题中有32道试题的MDIFF值
处于合理取值范围内,只有第1道试题的难度参
数值为-3.57,超出合理范围。将第1道试题设置
为较容易的试题,有利于被试稳定心态正常发
挥,从而得到更加真实的作答数据,这也表明试
题设计的合理性。
1.5被试能力估计
采用R语言MIRT程序包的EAP(expected a-
posteriori)算法和QMC(quasi-Monte Carlo inte⁃
gration)算法估计被试在6个维度上的因子得分。利用因子得分函数fscore计算被试在各基本能力维度上的得分,并对维度分进行统计描述,6个维度分均值分布区间为[-0.0028,0.0048],方差分布区间为[0.654,0.780],因此6个维度分均近似服从均值接近0的正态分布。为了研究6个能力维度之间的关系,计算两两相关系数见表5。从表5可以看出,两两相关系数除了最高的0.545以外,其余均小于0.4,
属于中低相关,这说明各基本能力之间具有一定的独立性,任何一个能力都无法被其他能力取代,与研究事实是相符的。若两两相关系数较高,则说明能力间的独立性较差、共性较多,有可能被合并成一种新的能力成分。
2MIRT在数学素养测试中的应用
2.1应用于数学素养试题的质量分析
试题质量在数学素养测试中至关重要,根据MDISC值可以对每道试题的质量进行评价,标准如下:大于等于1.5的试题为优级,大于等于1.0小于1.5的试题为良级,大于等于0.5小于1.0的试题为中级,小于0.5为差级[5]。据此规则,对33道试题进行质量分析,结果见表6。从表6可以看出,33道试题中有29道试题为优良等级,优良率-3.57
-2.85
-2.10
-0.28
-1.58
-2.66
-1.38
0.60
-1.42
-2.93
-0.07
-0.16
-0.67
0.47
-0.20
0.32
-
0.37
-2.97
-0.78
-0.80
0.90
-1.87
-0.57
0.11
0.85
-1.08
-1.29
0.45
-1.31
1.52
0.38
1.89
1.29
-0.95
0.78
-1.16
-0.82
0.01
0.21
1.05
0.11
1.01
0.02
-0.52
-0.20
1.13
-1.38
1.08
-1.22
0.62
-1.30
1.76
1.30
0.87
0.04
0.26
1.34
1.03
0.11
-0.01
-
1.32
1.11
-0.76
1.97
-0.07
1.85
1.43
0.60
0.77
1.60
1.70
0.35
1.21
1.13
1.23
2.36
1.47
题号MDIFF1MDIFF2MDIFF3MDIFF4 1
2
3
4
5
valueatrisk
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
努西达30
31
32
33
表4试题难度相关参数的估计值
··76

本文发布于:2024-09-23 04:24:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/117777.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:试题   素养   数学   模型   测试   参数   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议