教师和自动作文评分(AES)…一个成功的组合?

教育领域的一个特点和挫折是语言的不精确。在教育中，我们用不同的名称来称呼同一件事，或者我们用同一个术语来表示不同的事情。前者的一个例子是通过计算机算法对学生的写作进行评分:自动作文评分、人工智能评分、自动作文评分和机器评分都是术语的一个例子。其中两个术语出现在最近的EdWeek课程问题博客文章中。这篇文章的标题是英语教师团体反对机器评分写作Catherine Gewertz用这样的评价总结了这篇文章:

对于两组正在为通用标准设计测试的州来说，人工智能在通用评估中打分的可行性是一个强有力的成本管理器。如果他们决定必须由人类来评分，那么考试的费用就会飙升。当然，在各州权衡是否继续参与这两组项目时，成本是非常重要的。

博客的标题呼应了全国英语教师委员会在他们的意见书《机器评分不及格》中的短语“机器评分”。“机器评分”听起来机械而不需要动脑，很好地捕捉了NCTE的观点，而格韦茨的短语“人工智能评分”表明，这个过程实际上可能是智能和聪明的。NCTE似乎认为自动作文评分(AES)非常类似于计算机对可读性的评估(如Lexile、Flesch-Kincaid)，后者只考察了几个文本特征，一个是词汇量，一个是句子长度。事实上，AES算法与孟菲斯大学Coh-Metrix (http://cohmetrix.com)．语篇衔接评估以语言学为基础，考察了80多个语篇特征。类似地，基于语言学，AES算法着眼于多种文本特征。

Gewertz在博客中提出了联盟是否会使用AES作为开放标准的问题，但我读到的所有东西，包括PARCC最近发布的测试图纸，都表明学生的写作将会被“手工评分”，这是另一个奇怪的术语，这意味着人类将会阅读文章，并根据一个标题分配一个分数。现在，如果协会选择使用AES来为写作评分，我不会感到沮丧，尽管我认为AES的理想用途是与人类读者一起使用。我向课程开发人员、校长和ELA主管推荐的正是AES的这种使用——我本人也曾担任过这些角色——因为他们找到了既能管理CCSS实施中不断增加的写作需求，又能确保学生写作获得更高质量分数的方法。

首先考虑写作作业的总结性目的——对学生熟练程度的评估，AES可以帮助克服与人工评分相关的一些弱点。当人们只为一个总结性的目的评分时，比如为期末考试写的文章，他们得分很快，而且往往专注于可能是质量指标的表面特征。如果不适合让另一位老师来打分，使用AES可以为每一篇文章生成第二个分数。两个数据点总比一个好。这可以帮助避免老师评分的许多问题。一个被充分证明的概念是漂移。老师给一套文章打分，分数会随着时间的推移而变化。一组文章的结尾和一组文章的开头会得到不同的分数。好的老师通常会回顾前几篇文章的得分，并将它们与最后几篇文章的得分进行比较，以确保它们的评分保持一致。

除了提供论文的第二种观点外，将AES评分与人文评分相结合还有其他好处，包括支持人文学科教师的论文评分。允许AES专注于它擅长的事情，允许内容领域的老师专注于她最擅长的事情，评估内容。AES的这些使用并没有取代人工评分，而是提供了额外的数据点，以帮助产生更高的分数可靠性。