8

北森能力测验CATA背后的五大关键环节

 1 year ago
source link: https://www.beisen.com/res/324.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

北森能力测验CATA背后的五大关键环节

2017-04-1939420

北森人才测评新出品的能力测验CATA,采用了计算机自适应技术的先进的能力测验,相比传统测验,它能让受测者做的题少、对能力水平估计、达到有效的防作弊效果。尤其是在大批量招聘中,这些特点显得尤为重要。

那么,CATA是如何获得这些很厉害的能力的呢?它的各项功能又是怎么支撑这三个目标的实现呢?为您揭秘CATA背后的那些技术活儿。

CATA不是一套简单的测验,你可以把它看做是一套评估人的能力水平的程序。受测者被要求做个题(也就是初始题),完成后程序就会开始评估TA的初始能力水平,并基于此为TA选择下一题。每完成一题,TA的能力水平都会被重新评估一次,直到测验的精度达到预定的标准时,测评结束。

这其中每一个环节都需要精细的设计,尤其是题库建设、初始题选择、选题环节、能力值估计、测验终止这几个关键环节。

CATA测评

图1 北森CATA程序设计关键环节

关键环节一:题库是怎么建起来的?

计算机自适应测验成功的前提是有一个靠谱的题库。然而建题库并不是简单地攒够题目就可以了,关键的是为这些题目附上参数(难度、区分度等),这样才能实现后面的选题和能力值估计。题库的大小和题目参数的稳健性直接影响抽题和受测者的能力值估计,因此它被看做是CATA基础、关键的环节。

如何让题目带上参数呢?达到这个目标需要两个动作,其一是选取稳定的心理测量模型作为数据分析的依据,其二是获得题目的测试数据。项目反应理论因为其估计出的参数稳定、受测者的能力值和题目的难度处于同一量尺上,被广泛地作为计算机自适应的测量学模型。北森CATA则选用了项目反应理论(IRT)中的双参数模型作为测量模型,用难度和区分度这两个参数来诠释一个题目。在测试数据的获取上,CATA利用北森的测评平台优势,通过对3.4万人的测试数据的分析,平均单题目拥有1000人次的作答结果,充分保证了参数估计的准确性。

人才测评题参数

IRT双参数模型,θ为受测者的能力值,a为题目的区分度,b为题目的难度,D为常数1.70

人才测评题目获取参数

图2 题目获取参数示意图

关键环节二:初始题的选择

受测者每完成一道题,CATA就会重新估计一次TA的能力水平。TA要做的下一题是什么完全取决于TA在上一题的表现。那么程序会如何选出个题目呢?CATA会从题库中随机选择一道中等难度的题目,作为测验的起点。这对所有的受测者而言都为公平,测量效率高的,不会太难,也不会过于简单。北森CATA的题也是从题库中随机选择一题中等难度的题目,将此作为测验的起点。

关键环节三:下一题如何选?

当受测者作答完一个题之后,CATA就会立刻对TA的能力做出估计,然后从题库中选择适合TA能力水平的下一个题目。这样做的优势在于:选择的题目适合作答者,能够对TA的能力值做出的评价,能让测验快速终止,而且让不同的人呈现不同的测量路径。

人才测评路径

图3 自适应选题让每位受测者作答路径不同

从技术角度来看,CATA是从题库中选择受测者当前能力值下信息量大的题目。信息量是关于题目难度、区分度和能力值的函数,拥有这三个数值就可以计算出题目的信息量。程序每估计一次受测者的能力值,就会同时根据这个结果计算一遍题库中剩余题目的信息量,从信息量大的几个中随机挑选一个作为下一题。

人才测评信息量评估

图4 题库题目的信息量估计变化

当同一时间有大量受测者同时作答时,程序的运算量是非常惊人的。CATA用非常巧妙的算法处理好了这种压力,受测者甚至都不会感受到抽题的过程,无缝衔接。

关键环节四:如何计分?

受测者如果答对了一道题,CATA会把它的能力水平估计稍高一点,反之亦然。做到这一点,靠的是基于项目反应函数和受测者的作答结果构建出关于候选人能力的似然函数,然后解出这个似然函数。常用的估计方式是大似然估计(Maximum Likelihood Estimation)和贝叶斯估计(Bayesian Estimation)。大似然估计不能处理极端值,如全做错和全做对。因此,CATA使用了贝叶斯估计(Bayesian Estimation)。这种做法的优势是:获得了候选人能力的稳定估计值,降低了泄题、偶尔作答正确某一题的影响。

关键环节五:测验何时会结束?

从技术上来讲,受测者回答的题目越多,CATA对TA的能力值估计就越准。

计算机自适应测验的终止策略可以使用定长策略即所有候选人都要做相同数量的题目,也可以采取变长策略即不同的受测者作答的题目数量不同。CATA采取的是变长策略,当获得了关于受测者能力的充分信息后,测验就自动终止了。

这两种策略在测量的效果上没有差异,而变长策略在测验效率上有优势,这也保证了受测者的作答体验。

综上所述,北森CATA不是一个简单的能力测验,它是一套用于估计受测者能力水平的程序。背靠稳健的题库,CATA程序不断给每个受测者出题,评估TA的能力水平,再出题,再评估,循环往复。

在计算机自适应测验的研究领域,推出商业化产品不仅仅要经历以上过程,需要强大的计算能力。正是有了北森云计算平台的技术支持,才让CATA终与大家见面。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK