合作伙伴问我最多的一个问题是考试成绩的准确性,特别是学生是否在考试中付出了适当的努力。这一直是我们数据的用户感兴趣的,因为他们想知道学生收到的RIT分数是否准确地捕捉了学生的实际测试表现。然而,随着越来越多的学校出于问责的目的使用NWEA评估,许多教育者最关心的是考试成绩的准确性,以及学生是否付出了适当的努力来确保考试成绩的准确性。
学生在考试中的努力是很难衡量的。当谈到努力时,我们并没有一个度量标准来说明,“是的,一个学生在测试中付出了适当的努力,”或者“不,那个学生根本没有注意到测试项目!”(尽管这是研究小组特别感兴趣的事情)。但我们确实有三个指标,教育者可以很容易地获得,至少可以提供一些迹象,表明学生是否适当地参与考试。这三个度量标准是:测试时间、正确回答的项目百分比和测试事件度量的标准错误。
让我们用两个五年级学生的测试事件来说明这一点:学生A在20分钟内完成了测试,答对了25%,测试事件的标准误差为4.0。学生B在40分钟内完成了测试,答对了52%的题目,测量标准误差为3.0。根据这些信息,哪个学生更有可能付出了适当的努力,因此,哪个考试分数更准确地反映了学生的实际考试成绩?这个问题的答案对大多数人来说可能是显而易见的——学生A在考试中似乎没有尽最大的努力——这三条信息可能会激励我进一步探究这个学生的考试表现。
在数学和阅读MAP测试中,大多数学生大约需要40-50分钟来完成测试。这并不意味着如果一个学生花了20分钟来测试,他或她没有付出适当的努力。有些学生只是比其他人做得更快,他们能够在更短的时间内准确地完成测试。然而,如果一个学生的测试速度比预期的要快得多,那么就有必要研究其他数据,比如学生回答正确的项目的百分比,看看这条信息是否提供了该学生付出努力的一些指标。
由于测试的适应性,大多数参加测试的学生大约会答对50%的题目。这个比例可能在43%到57%之间,但一般来说,50%是我们预期会看到的。如果一个学生20分钟后考试和只有25%的题目是正确的,那么这可能表明这个学生没有付出适当的努力——这可能是一个根本没有阅读题目的学生,或者只是猜测了大部分题目。
教育工作者在衡量学生的努力时应该考虑的最后一个数据是测试事件的标准误差。如果你不知道标准误差是什么意思,那也没关系;简单地说,它只是给我们关于测试事件的精确度或准确性的信息。小的标准误差是大的,因为它们表明更准确/精度;更大的标准误差……不是那么大。在数学和阅读MAP测试中,我们通常观察到的标准错误大约在2.9到3.3之间(正负0.1左右)。如果一个学生的标准错误率很高,比如说4.0,这并不一定能告诉我们学生在考试中付出了多少努力。但是,如果学生只花了20分钟来测试和只答对了25%和有4.0的标准误差,那么这些数据的三角测量可能表明这个学生没有尽最大努力。或者,至少,这些数据的组合可以促使对这个学生的测试表现进行更深入的调查,看看这些数据是否与老师或监考人员在测试期间观察到的相符。
需要注意的是,这些指标中的任何一个(甚至是指标组合)都不能提供学生付出努力的确切证据。然而,这些数据可以帮助识别学生在考试中没有充分努力的时间,并有助于解释学生考试数据。