项目池深度如何影响评估准确性

我们都被教导过，要安全地潜入游泳池，你必须首先确定水的深度足以超过你的头和脚。确保计算机自适应测试没有什么不同;项目池必须足够深，以伸展以上和以下学生的入口点。

构造良好的项池是CAT的基本部分，例如地图的增长．项目库的一个重要元素是，它需要包含足够多的项目，以建立大量的个性化测试，以适应学生不同的能力水平;它需要包含足够的宽度，以覆盖内容领域的范围。

猫适应学生的个人表现。根据学生在测试中的表现，它们会变得更难或更容易，这需要一个深度的项目库，可以从中提取许多不同的测试。

一个学生的年级水平不一定是他或她的教学准备点;因此，CAT必须适应于测量上、上、下等级的能力。一项评估可以让教育工作者了解每个学生的教学准备情况，利用跨年级的内容。深度道具池能够提供这一功能，因为它将储存与许多不同级别相对应的道具。

多少物品够了？

项目池的适当大小取决于四个主要因素。

精度是需要考虑的第一个因素，因为它与“预期的学生成绩”有关。(Reckase, M.D.:“设计物品池以优化计算机化适应性测试的功能。”心理测试与评估模型。第52卷，2010 (2)，127-141)．你想要的精确度越高，你的道具池就需要越大。如果你的目标只是得到一个粗略的估计，你可以使用一个较小的道具池。

范围是另一个重要因素。要衡量的成就范围有多宽或多窄?需要一个更大的项目库来进行非常广泛的评估，因为它将包含具有很大难度范围的项目。例如，如果一项评估被用来衡量学生在多重知识深度(DOK)水平上的表现，它将需要比只涉及一个DOK水平的评估更大范围的项目。

股份是决定项目池大小要求的第三个因素。如果CAT是非常高的赌注，学生可能更有可能在测试中玩游戏。大型题库提高了考生在每次考试中收到不同题库的机会，使作弊成为不可能。

CAT执行的次数是第四个重要因素。例如，如果一年对同一名学生进行多次评估，项目池必须足够大，以确保学生不会多次看到任何项目。

目标是在每个所需的内容区域中有足够的条目，以使用测试所需的平衡的内容覆盖来组装单独的测试。(Gu, L. & Reckase, M.D.(2007)。"设计计算机自适应测试的最佳题库使用辛普森-赫特暴露控制"D.J. Weiss (Ed.)， 2007 GMAC计算机自适应测试会议论文集，检索10/14/14从www.psych.umn.edu/psylabs/CATCentral/)

如果物品本身质量不高，那么大量的物品就不是很有价值。现场测试可以识别执行不典型操作的项目。一旦发现表现不佳的项目，应立即将其从项目库中删除，以避免熟练程度估计错误。此外，严格的校准过程建立了一种信心，即一个项目很可能是相关属性的良好度量。这是另一个示例，在该示例中，一个深的样本池可以创建高精度。这就是为什么我们根据1000多名学生的反馈进行校准地图的增长，这是教育评估领域最严格的校准过程之一。