返回列表 发帖

[测验技术] 项目反应理论中的a 分层选题策略与计算机自适应测验

选题策略是计算机自适应测验一个非常重要的环节。目前计算机自适应测验常用的选题策略主要是最大信息量选题法和加权离差模型。这两种方法的优点在于可以依据被试的作答反应调用具有最大信息的项目测量被试,然而在实际中发现存在非常明显的局限性。主要有以下几个方面:
(1)传统的选题策略在测验的安全性方面表现出一定的局限性。传统的选题策略尤其是按照项目的最大信息函数选择项目的策略使得高区分度的项目变得曝光率过高,测验的安全性成为一个问题。
(2)传统的选题策略降低了测验的效率。传统的选题策略在解决测验安全问题时采用 Sympson-Hetter 方法。FSH 方法能够使得高区分度项目的曝光率保持在一定的阈限值之间,但是当项目的区分度最大的时候测验效率最高,所以这导致了测验效率的降低。
(3)传统的选题策略造成了题库的巨大浪费。传统的项目选择策略使得高区分度的项目过度曝光,中等区分度的项目没有被充分应用。而这些没有被充分应用的项目,当它被应用一段特定的时间后,通常被丢弃掉一批,造成了题库的巨大浪费。
(4)传统的选题策略在题库的项目补充方面造成了题库补充的成本升高。题库补充方法的研究主要集中在“最佳补充”和“随机补充”两种方式上。“最佳补充”是指所补充的项目与被淘汰的项目具有同样的心理测量学特征,比如,相同的难度、区分度等。“随机补充”是指从另一个相似的、更大的题库中随机选择补充题目,补充时不再对被淘汰项目和新项目进行难度、区分度的匹配。Chang 和 Ying 等人的研究表明,对于传统的选题策略来说,采用“最佳补充”方法需要有足够多的高区分度项目来补充由于过度曝光而被暂时搁置的项目,这就造成了成本的升高。而采用“随机补充”方式的时候,传统的选题策略,使得经过补充后的题库结构遭到了破坏。
针对传统的项目选择策略所遇到的种种问题,考虑到最大信息量选题法会导致某些试题的曝光率高,题库试题曝光度不均匀,Chang 与 Ying 提出一种按 a 分层的方法,将题库按照试题区分度的大小分层,选题依区分度由小到大来控制试题曝光率。由于区分度大的试题只在难度附近较小的区间内提供信息量大,在距离难度值较远的地方,试题的信息量并不大,而区分度小的试题虽然提供的信息量小一些,但是在较宽的区间内都能提供一定量的信息量。而且在 CAT 测验刚开始时,考生能力的估计是误差比较大的,所以此时选择区分度大的试题并没有很大的帮助,只有在考生的能力估计比较准确时,这些区分度大的试题才较为有效。基于这些考虑,提出了按 a 分层的CAT 选题方法。
a 分层选题策略对经常在传统选题策略中应用的假设——当选择区分度最高项目的时候,测验的效率最大——提出了挑战。根据 Fisher 信息函数,如果被试真正的能力值未知的话,仅仅用高区分度项目不一定能够保证测验高效率的获得。与之相一致,在计算机自适应性测验的早期阶段,由于对被试能力值的不精确估汁,在计算机自适应性测验的早期阶段过分依赖 Fisher 项目信息函数,选择高区分度的项目是不适宜的。多阶段分层选题策略最大的优点便是能够使得一些低区分度项目的曝光率增加,使得项目之间的应用更加平衡。它主要是按照项目区分度的高低分层,然后在每一层中都根据被试最近的反应选择相应难度和区分度的项目。
按 a 分层选题法的基本思想是:首先,将题库按区分度 a 从小到大按顺序排列,排完序的若干个项目(x)分成若干个子题库(y),每个子题库包含 n = [x/y]个项目,然后分别在 y 个子题库中选取 a 值最小的项目重新组成第 1 层题库(y 个项目),次小的组成第 2层题库,依次类推,  ,a 值最大的 x-(y-l)n 个项目重新组成第 n 层题库。其中第 1层中的试题区分度最小,第 n 层中的最大。将测验按测验长度同样分成 n 个部分,当测验进行到第 k 个部分时,从题库的第 k 层中选择难度与已估能力最接近的试题向考生施测。在测验的初级阶段 a 参数小的项目被调用,在测验的后阶段 a 参数大的项目被调用。这样,测验初期所选试题的区分度都较小,测验越到后来所选试题的区分度越大。其步骤简述如下:
1) 根据试题区分度将题库分成k层;
2) 将测验分成 个阶段;
3) 测验的第k个阶段包含nk个项目。这 个项目就通过"b 匹配法"(根据考生当前能力估计值,选取难度最接近的试题)从题库的第 层选取;注意nnnk   ... 12应等于测验长度。
4) 对k  1,2,...,k重复第三步。Chang 和 Ying等人把a分层方法与传统的选题策略、降序的a分层方法(descendinga-stratified method,D—STR)和非系统性的分层方法(non-system a-stratified method,N—STR)的选题效果进行了比较研究。其中降序的 a 分层方法与升序的 a 分层方法不同之处在于是在根据项目的区分度参数分层后,降序的 a 分层方法中,前面的层中包含着高区分度项目,后面的层中包含着低区分度项目,在测验早期阶段实施高区分度的项目,测验的后期阶段实施高区分度的项目。而非系统的分层选题策略,则主要是在分层中,第一层包含着中等区分度的项目,而大的和小的区分度项目在后面几层,测验早期阶段先实施中等区分度的项目,把高区分度和低区分度的项目留在测验后期阶段。Chang 和 Ying等人的研究表明,在没有降低测验效率的前提下,与传统的选题策略相比,a 分层方法能够平衡不同层次区分度项目的应用,增加低区分度项目的曝光度。而且 Chang 和 Ying 等还考虑了项目补充在两种方法上的比较。研究表明,采用 FSH方法,与原来的题库相比,大约有 18%的项目被替换。题库中被淘汰的项目主要是高区分度项目。因此,就需要题库中有同样高区分度的项目来补充,否则随着对更多被试进行测验,题库的结构就要渐渐地被破坏。而 a 分层方法只需要很小数量的替换(仅仅 3%),且这些项目都分布在各个层中,因此剩下的题库也是比较完整的,项目的应用分布更加均匀,通过测验,最初的题库结构也能够保持稳定并且没有降低测验的效率,随着更多的被试参加测验,a 分层方法在题库结构保持完整性方面比 FSH 方法占有优势。当采用随机补充形式的时候,采用 a 分层方法,题库保持着与最初的题库一样的结构。各个层次有着同样的和大致正态分布的项目,表明被淘汰的项目是均匀地分布在各个层次中的。与之相比,采用 FSH 方法,题库的结构被大大地破坏了,补充后的题库是一个主要由区分度低项目组成的遭到破坏的题库。而且在 FSH 方法中,被替换项目的比例远远大于 a 分层方法中被替换项目的比例。Chang 和 Ying等人的研究还表明,在 a 分层方法、D—STR 和 N—STR 策略中,在高区分度和低区分度项目的平衡应用方面是一致的。但 a 分层方法对能力估计的平均偏差和均方误差最小,N—STR 的平均偏差次之,D—STR 的平均偏差最大,这说明在测验的早期阶段选择低区分度项目的 a 分层方法对被试能力估计最精确。因为按照Chang 和 Ying的观点,当被估计的能力与真实能力相差较大时,在计算机自适应测验的开始阶段采用区分度较小的项目能够比区分度高的项目对能力估计提供更总体的信息。在测验初级阶段由于被试的能力估计初值常常远离其能力真值,那么即使施用 a 值较小,难度与能力估计值相当的项目,也可以提供一定的信息量对能力水平值进行粗估, 若此时使用 a 值大的项目实属浪费。在测验的后阶段,当被试能力估计值与真值越来越接近时,用 a 值大的项目,更有利于被试的能力估计。这样,不会造成在整个 CAT 过程当中,反复地调用区分度大的项目,而区分度小的项目则很少被调用。因此,在能力的估计中,a 分层方法能够在不破坏测验效率的情况下使得项目的应用更加平衡。而且在考虑从一个固定的题库中选择项目补充的时候.a 分层方法明显也要比 D—STR 方法更有效。其它关于项目重叠率、项目曝光率的分布等方面,研究都表明了 a 分层方法在保证不降低测验效率的前提下优于其它方法。3 种分层选题策略的比较表明了 a 分层方法是一种比较好的选题策略。同时,研究还表明,a 分层方法与传统的选题策略相比,至少具有 4 个方面的潜在优势:
(1) 与传统的最大信息方法相比,它能够提供一个估计效率。在测验后期阶段,只有当项目对应的难度参数 b 与被试的能力足够接近的时候,高区分度的项目才是有用的。因此,在测验的开始阶段用区分度低的项目,而在测验趋向结束的时候用区分度高的项目也许能够增长,或者至少保持与传统的选题策略接近的能力估计的效率。
(2) 与 FSH 方法相比,a 分层方法更易于实施。FSH 方法导致在测验早期阶段高区分度项目的过度应用,随着测验进程,渐渐转移到低区分度的项目,使得项目曝光度不平衡。传统的选题策略采用 Symopson-Hetter 规则控制项目的曝光度,无论什么时候从题库中增加或者淘汰掉一个项目,项目曝光参数的模拟计算需要重新进行。曝光度参数的计算需要大量的时间并且需要一台昂贵的高速超型计算机。而 a 分层方法不需要项目曝光控制参数的计算,当项目替换的时候也不需要额外的计算,使得在线题库的管理操作也变得简单易行。
(3) a 分层方法比传统的项目选题策略能够更好的平衡项目曝光度,降低高区分度项目的曝光率,增大中等区分度和低区分度项目的曝光率。a 分层方法是从高、中和低区分度层中按照比例选择相等的项目数量,测验曝光率的分布就变得更加相等。所以在题库项目的应用,题库中淘汰项目的补充和题库的建设管理成本上都是有比较明显的优势。
(4) a 分层方法使得高效的计算机自适应性测验在线题库操作管理得以实现。a 分层方法不仅能够降低高区分度项目的曝光率,而且能够增加低区分度项目的曝光率。因此,它自动地使得高区分度和低区分度项目的曝光率相等,这使得在线题库的管理操作成为可能。a 分层方法也可以使得补充的项目与原来大题库中的项目具有相似心里测量学特征。而 FSH 方法需要补充的项目具有高区分度,这是比较困难的,同时还会增加题库维护的成本。
分层选题策略是目前考试测量学界,特别是计算机自适应测验中的选题策略研究发展的一个主要趋势,应当说,从某种意义上,它已经成为计算机自适应测验选题策略研究中一个主要方向。
分享到: QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友

返回列表