我的意思是它。我真的。让我尽快解释一下原因。
首先,错误是什么意思?
想想一个典型的州测试——它是一种纸笔测试,旨在衡量一个年级水平的熟练程度。这个测试的问题是关于国家标准的内容,问题的难度水平与特定的年级水平相一致。到目前为止还好吗?好。
对于符合或非常接近年级水平的孩子,考试中有一些问题他们会答对,有一些会答错。因为在正确或错误(如果这些是单词)方面存在一些差异,所以有相当数量的信息可以用于测试,以确定学生知道什么和能做什么。信息越多,误差越小。
我问你个问题。一间教室里有多少孩子在同一年级?是不是就像这张图一样,有相当比例的孩子要么高于或低于年级水平?
错误要小,孩子问的问题需要接近他们的知识水平。这需要一个很大的问题库,一个可以向任何孩子展示其中任何项目的测试——仅仅坚持年级水平的问题是不行的。
那又怎样?
记住这句话…垃圾输入,垃圾输出。以下是两个热门话题的例子:在评估教师时使用评估数据,以及确定AYP。
金斯伯里中心发表了一项研究(如果你想看的话可以去看看在2011年11月关于选择评估方法用于评估教师。以下是节选:
- 本政策简报将讨论为什么目前存在的国家能力考试不是计算增值措施的适当基础…
- 对于那些真实表现处于正态分布末端的学生,最低水平评估的测量误差可能非常低。
- 在25名学生[单班模拟]水平上,基于德克萨斯州知识和技能评估(TAKS)的增值模型(VAM)35%的教师认错了人.一个被识别错误的老师是一个似乎有超过一年半的成长是错误的(少于0.5年或超过1.5年)。
你认为这35%的人会认为这个过程是公平的吗?
2004年5月的特拉华州政策简报打来电话测试:不是一门精确的科学确定了具有AYP含义的类似问题:
- 2001年,77%的三年级学生在阅读方面被准确地分为(五个表现水平中的一个)。结果,2001年,特拉华州约23%的三年级学生被错误分类。
- 研究发现,在2003年参加数学DSTP测试的8年级学生中,有75%的人被准确地分类了,剩下25%的人因测量不完美而遭受“不可避免的后果”。
在特拉华州,单个学生的表现水平的变化有助于确定增长模型AYP。如果你的学校被NCLB归类为“改进中”,而这是基于25%的错误数据,你会在意吗?
现在轮到你了
你怎么看?如果大量的测量误差使教师评估的数据部分不可靠,使AYP的决定不可靠,错误能改变你的生活吗?