比较不同的响应时间阈值设置方法，以检测大规模评估中的低努力

期刊文章

比较不同的响应时间阈值设置方法，以检测大规模评估中的低努力

2021年4月

发表在:

教育大规模评核9，8 https://doi.org/10.1186/s40536 - 021 - 00100 - w

摘要

考生的努力程度低是许多考试成绩有效使用的主要威胁。幸运的是，已经开发了几种方法来检测不费力的项目响应，其中大多数使用响应时间。为了准确地识别不费力的响应，必须设置响应时间阈值，将这些响应与努力的人。虽然其他研究比较了不同阈值设置方法的效果，但它们通常使用模拟或小规模数据。当大规模数据用于此类研究时，它们通常不是来自计算机自适应测试(CAT)，只使用少数项目，或没有全面检查不同的阈值设置方法。在这项研究中，我们使用了来自美国2056所学校的超过728,923名3 - 8年级学生的阅读测试成绩，他们参加了一项包含近12,000项的CAT测试，以比较阈值设置方法。通过这样做，我们帮助为大规模评估的开发人员和管理员提供关于使用给定方法识别不费力的响应所涉及的权衡的指导。

访问《华尔街日报》

本文发表于NWEA之外。全文可以在上面的链接中找到。

主题:学校和考试参与