测量和标准误差

今天早上，当我踏上浴室磅秤，感觉到熟悉的内疚和失望的阵痛时，我很快提醒自己，浴室磅秤是不完美的测量装置。在所有的可能性中，我的真实体重都在一些可能值的范围内，大致以指示的体重为中心。很快，我计算出我希望它能少多少。我决定，这个值肯定是我浴室磅秤的误差范围。

戴着令人讨厌的合理化，衡量人（或其他）属性的行为总是一个不完美的科学。无论我们是否试图用卫生间规模测量体重，高度与卷尺测量，或使用地图评估的学术成就，我们的测量中总是有一些蠕动的房间，因为有限可以确定这些数量可以测量这些数量。观察到的地图分数始终报告具有相关的测量标准误差（SEM）。例如，如果学生在地图读取测试中缩小了195年，那么在3个丽点点的SEM，那么在我们衡量能力的范围内，195是她/他最可能的分数，但“真实”得分可能是一个一点点高或稍低一点点。标准错误继电器只有高于或更低。较小的标准误差意味着更精确的测量。

一般来说，观察到的MAP分数的精度可以通过两种方式提高（即，SEM降低）：增加测试事件中的项目数量，以及只包括难度与学生当前成绩水平相对接近的项目。测试中的项目越多，就意味着观察学生成绩的机会越多，因此精确度也就越高。同时，错过了太难的项目，或者对太容易的项目做出了正确的回答，这些都不能提供关于学生当前成绩的信息。这就是为什么阅读测试（每个测试大约42个项目）比数学测试（每个测试大约50个项目）的SEM稍大的原因。这也解释了为什么适应性测试往往比类似长度的固定形式测试更精确，因为适应性测试在学生表现好时选择较难的项目，在学生表现差时选择较容易的项目。对于一个固定形式的测试，以同样的精度测量所有成就水平的学生，它将不得不太长而不实用。

当我们尝试随着时间的推移时，标准错误组合。例如，如果我想知道学生随着时间的推移会有多少增长，并且在春天举行地区的地图，我需要考虑两个时间点的标准测量误差，以便制作一个对增长程度的现实评估。如果上面的例子中的阅读学生是第二次测量的，并且均具有3的标准误差为32，则观察到的增长将是17个射点。变化分数的标准误差将是4.24，这只是平方的平方根和总和个体标准错误。在这个例子中，与Spring（17个点）的变化与变化得分的标准误差相比相对较大（4.24），因此我们可以非常舒适地得出真正的增长。但是，如果我们的假设学生在第二次测试管理局中只有1999999（标准错误），我们的结论将不那么确定。在第二个假设中，观察到的生长仅为4分，并且增长的标准误差仍为4.24。换句话说，观察到的增长不大于标准误差，因此我们不能以任何确定性的确定性得出结论。

虽然标准错误有时可以对解释个人分数进行麻烦，但在检查组时它们较少。原因是在大多数情况下，这些测量误差是随机的。有时它们有点高，有时有点低。在大多数情况下，当你看看小组时，他们倾向于相互平衡。这就是为什么当您查看组时，您可以测量组的标准错误更准确地（即，标准错误的低得多的标准错误）。换句话说，即使当个体随着时间的推移表现出很小的生长，群体水平增长也可以比个人级别的增长更高的精度和确定性来衡量。

所有成就测试都包含一些测量误差。但由于地图适应了学生目前的成就水平，因此地图得分尽可能精确，而且比固定形式的相似长度的测试更精确。了解学生观察到的分数以及标准错误告诉我们观察到的分数，可以帮助我们制定更合理的目标，并在随着时间的推移方面制定有关学生的表现和增长的更多有效结论。