比较不同的响应时间阈值设置方法以检测大规模评估- NWEA的低工作量

期刊文章

比较不同的响应时间阈值设置方法，以检测大规模评估的低工作量

2021年4月

发表在:

大规模教育评估9，8 https://doi.org/10.1186/s40536 - 021 - 00100 - w

摘要

考生努力程度低是许多考试成绩有效使用的主要威胁。幸运的是，已经开发了几种方法来检测不费力的项目响应，其中大多数使用响应时间。为了准确地识别不费力的响应，必须设置响应时间阈值，将这些响应与努力的人。虽然其他研究比较了不同阈值设置方法的有效性，但他们通常使用模拟或小规模数据进行研究。在此类研究中使用大规模数据时，它们通常不是来自计算机自适应测试(CAT)，只使用少数几个项目，或者没有全面检查不同的阈值设置方法。在这项研究中，我们使用了来自美国2056所学校的728,923名3 - 8年级学生的阅读测试成绩，采用了由近12,000个项目组成的CAT来比较阈值设置方法。在这样做的过程中，我们帮助为大规模评估的开发人员和管理员提供指导，这些评估涉及到使用给定的方法来识别不费力的响应所涉及的权衡。

访问期刊

本文发表于NWEA之外。全文可以在上面的链接中找到。

主题:学校和考试参与度

大规模考试中考生应试努力的调查

以往涉及反应时间研究的大多数研究都是使用当地开发的仪器进行的。当前研究的目的是在商业上可用的低风险工具中检查快速猜测行为的数量。

由:史蒂文明智，卡尔·塞泽尔，吉尔·r·范登·赫维尔，光明凌

主题:学校和考试参与度，测量与标度，学生成长和问责政策

2013

期刊文章

适应性测试在解决无动力考生问题中的效用

这篇综合综述考察了计算机化自适应测试(CATs)的激励效益，并证明它们在识别考生表现出低努力的情况和有效解决无动机考生带来的效度威胁方面比传统测试具有重要优势。

由:史蒂文明智

主题:学校和考试参与度，报告和评估方面的创新，测量与标度

2014

期刊文章

努力分析:成绩测试数据的个人分数验证

每当测量的目的是告知关于学生的成绩水平的推断，重要的是我们能够相信学生的考试成绩准确地反映了学生的知识和能力。这样的信任需要这样一个假设，即学生的测试事件不会受到与构念无关的因素的过度影响，而这些因素可能会扭曲他的分数。本文考察了其中一个因素——考试动机——它往往会导致对考试成绩产生一种个人特有的、系统性的负面偏见。

由:史蒂文明智

主题:学校和考试参与度，报告和评估方面的创新，测量与标度

2015

期刊文章