使用重测试数据评价并改进慢工评分-NWEA

演示文稿

使用重测试数据评价并改进努力调优评分

2020年9月

by:史蒂文智者,梅根库赫

描述性

国家教育计量委员会2020虚拟会议这届会议介绍理解和管理测试脱机新研究成果(介绍自22:55开始)。

智者S & KuhfeldM2020年9月使用重测试数据评价并改进努力调优评分国家教育计量委员会虚拟会议

管理测试脱机研究增加。一些研究侧重于快速猜题效果调整分数方法,快速分数验证响应指标。一个例子是工作调试模型(WiseDemas,2006年),快速猜题在评分期间识别并排除使用。EM评分意在估计分数取试者若完全投入使用本会收到的分数。尽管评价EM评分调整精度有挑战性,但我们开发出允许评价的独特数据集。

研究1分析数据集,数据存档RIT核心数据取自数学和阅读MAP增长评估,这些数据取自短期内重新测试的学生允许我们研究E-M评分精度。在两个测试条件中,发现学生在一天内重新测试实例。在这一组中发现超过5千例学生第一次测试显示脱用(10快速猜想)和重试零快速猜想。表1显示E-M评分部分计算观察到RIT评分差

研究2使用同一组数据调查净化法提高E-M评分精度。具体地说,使用各种二级时间阈值识别E-M评分期间排除响应

更多见

见演示文稿

题目:度量和缩放,学校测试参赛