比较不同的响应时间阈值设置方法来检测大规模评估中的低工作量- NWEA

期刊文章

比较不同的响应时间阈值设置方法，以检测大规模评估中的低工作量

2021年4月

发表在:

大规模教育评核9，8 https://doi.org/10.1186/s40536 - 021 - 00100 - w

摘要

考生努力程度低是许多考试成绩有效使用的主要威胁。幸运的是，已经开发了几种方法来检测不费力的项目响应，其中大多数使用响应时间。为了准确地识别不费力的响应，必须设置响应时间阈值，将这些响应与努力的人。虽然其他研究比较了不同阈值设置方法的效果，但它们通常使用模拟或小规模数据进行比较。当在这类研究中使用大规模数据时，它们通常不是来自计算机自适应测试(CAT)，只使用少数项目，或者没有全面检查不同的阈值设置方法。在这项研究中，我们使用了来自美国2056所学校的超过728,923名三年级至八年级学生的阅读测试成绩，进行了由近12,000个项目组成的CAT测试，以比较阈值设置方法。在这样做的过程中，我们帮助开发人员和大规模评估的管理员在使用给定的方法来确定不费力的响应所涉及的权衡方面提供指导。

浏览杂志

本文发表于NWEA之外。全文可以在上面的链接中找到。

主题:学校和考试参与