是时候重新评估学生评估了吗?

新冠疫情加速了数字时代的众多评估实验,使其超越了简单的知识回忆考试。但传统考试真的过时了吗?随着又一个学期的尘埃落定,7位学者给出了他们截然不同的观点

七月 22, 2021
A man disinfects tables in an empty exam room as a metaphor for Is it time to rethink s tudent assessment?
Source: Getty

点击阅读英文原文


权力的转让

“她在讨论中把我们碾压得哑口无言。”

在我教学第一年,对教学评估的这条匿名评论让我感到刺痛——在接下来的6年里,它一直困扰着我。我以为我是在合作、指导、创建一个知识分子社区:当我以所在领域专家的身份向学生提出挑战时,我是在邀请他们试验新想法。然而,这个学生认为我既是个令人不安的裁判,又是他们的竞争对手,本身就具有不公平的优势。我认为的游乐场被看成了障碍赛。

我现在怀疑,我未能通过对话进行教学是因为这门课(以我作为学生的经历为模板)有传统形式的考试:即两次综合测试,一次期中和一次期末考试,这阻碍了智力实验。这种核心技能将人文学科的学生变成有效的提问者、数据发现者和选择权衡者。在课程的后续迭代中,我布置的作业主要不是评估知识保留率,而是帮助学生锻炼想象力、培养同理心和追求好奇心。

例如课堂练习,学生借此研究过去的人物,然后在重演历史事件中对他们进行角色扮演。在我的历史课上,我也让学生用历史人物的名义——著名的、臭名昭著的或传统上无名的——写一封古老的信件,然后给这封信作注解,就好像他们是“发现”它的现代学者一样。这种类型的作业激发学生展示对知识内容(包括第一手和第二手资料)的掌握,同时有利于培养创造力。

也许最重要的是,从这些作业的反馈来看,对学生来说我就像是值得信赖的教练而不是裁判——尽管我也需要他们撰写传统研究论文,并且大学对论文字数有规定,这似乎是鼓励好奇心的自然补充做法。

随着新冠疫情的到来,那些追求学生成功的教授们争先恐后地帮助自己及其学生适应新的在线平台,应对新的时间限制、新的焦虑、新的悲痛。尤其是处境最不利的人,面临着比考试更糟糕的意想不到的阻碍和压力。

这使得学生(和教师)难以发挥创造力、专注于大创意或承担任何风险。当生存危在旦夕时,人就无法玩耍。既然评估最终应该为学生服务,我们教师应该修改评估模式以满足他们的需求。对我来说,这意味着截止日期变得灵活、缺勤不是问题、取消某些课程,从而保障运动和睡眠。我开始意识到,我宁愿冒着作弊者得分的风险表达我的同情心,也不愿因管控学生导致双方走到崩溃的边缘。

然而,我相信结果并没有降低学生的教育质量,而是提高了教学效率。因为大浪淘沙,留下的才是金子。

请允许我分享一下新冠疫情迫使我削减教学重点从而得出的结论:是时候在本科人文课堂里取消高压考试,以及传统的研究论文。

埋头于故纸堆属于老一辈的做法。面对面的信息和错误信息源源不断,学生现在需要的紧急技能不是研究而是分析。他们需要能够遵循一个论点,找到并定义其显性和隐性术语,评估其逻辑并仔细审查支持其经验主张的数据的收集和使用方式。他们还需要能够在更大的对话中将论点置于语境中,并用自己的本能反应做出质询。

这些技能可以通过多种作业模式来练习,例如低风险的演讲、短文、阶段性辩论和博客文章。有时,学生很难面对教师对此类作业的反馈,因为它直击他们思考的内容和方式。但是,当挑战迫在眉睫且同情心大盛时,可能会产生神奇的学习效果。

事实上,大学课堂中的评估一直是一种权力的转让。一些学生,比如多年前感到被碾压的那个学生,将通过这种方法获得力量。其他人将继续感到有权获得他们一直认为应得的 A。我开始相信,作为一名教育工作者,我的工作是说服,而不是管教。

吉尔·希克斯-基顿(Jill Hicks-Keeton)系俄克拉荷马大学(University of Oklahoma)宗教研究副教授。


考什么就会学什么

对于发达国家大多数拿薪金的学者来说,由新冠疫情引起的教学线上迁移是天赐之物。这意味着无需通勤,无需办公时间,并且(最重要的是)无需与同事交谈。只需进入每月的员工视频会议,关闭摄像头,看看报纸。或者多做做家务活。

我们也喜欢使用兴起的项目、演示和论文组合(projects, presentations and paper,简称3P组合),从而无需布置和批阅面对面的测试、考试。给项目打分实际上很有趣,即使项目本身不是很好。小组演示时我们坐在幻灯片前,在15 分钟内给出四到五个级别。虽然给论文打分可能会很痛苦,但至少与考试答案相比,它们提供了一些多样性。

tudents studying on lawn with blankets as a metaphor for What gets measure d gets done
Source: 
Getty

无论如何,从纯粹的教学角度来看,测试和考试似乎是在浪费时间。我们感叹他们占用了本可以用于学习的宝贵课堂,一想到将复杂的学科领域简化为多项选择题,我们的心就沉了下来。测试是如此地......令人失望。最令人失望的就是多项选择题。

远离正式考试的唯一问题是减轻了学生必须学习任何东西的实际负担。这对我们来说不是问题——但对他们来说却是个问题。

并不是说学生们可能会关心这个问题。在一个以3P组合为主要评分方式的班级中,他们只需要关注可交付的成果。由于任何好的教学大纲都预先明确规定了预期的可交付成果,因此几乎没有激励学生专注于其他任何事情。只有最有积极性的人才会勤奋地学习不在“考试中”的材料。

如果你的综合项目不会直接利用其中教授的材料,为什么还要参加整个学期的线上讲座?当你知道良好的图形和演讲技巧会极大地影响演示得分时,为什么还要花数小时来掌握课堂材料?如果允许你为期末论文选择自己的主题,为什么还要剖析数十篇难读物?

答案是显而易见的。我们因为一个原因需要测试和考试,只有一个原因:确保学生学习。管理理论的基本第一原则说明了一切:“考什么就会学什么”。

没有考试,除了学到如何重复利用相同的项目应对不同的课程,在小组演示中虚张声势,以及将选定的研究成果塞进狭隘的论文之外,很少有学生会学到其他任何东西。这个3P组合也为花钱作弊提供了多种机会,但这不是重点。即使学生诚心诚意地提交自己的作品,即使他们是善意的并且真的很想参加所有讲座并阅读所有材料,但如果不进行严格的综合考试,他们也不太可能真正找到时间这样做。

测试还让教师甚至管理人员承担责任。考试问题设计不当,教师的专业水平会受到质疑。当评分是依据黑白分明测试答案时,管理员几乎没有回旋余地来修改评分。

我们都有人性的缺点,学生可能比我们更是如此。如果学者在 Zoom 会议上偷工减料(老实说:我们会),是什么让我们认为学生不会?如果我们真的关心学生并希望他们学习,测试就是表现出来的坚韧的爱。虽然可以在线检查学生,但当涉及到真正坚韧的爱时,老式的课桌、铅笔和纸质试卷是无可替代的。

萨尔瓦多·巴博内斯(Salvatore Babones)系悉尼大学(University of Sydney)社会学副教授。


法律的全部力量

在上个学期的大部分时间里,我都能够进行面对面的教学。能再次体验我的学生的活力和反馈真是太好了。但是我们的集体评估经验基本上没有变化。

新冠疫情对法律评估的主要影响是阻碍我们通过面对面的“模拟辩论”(法律辩论)或课堂参与和演讲来评估口头表达的能力。例如,在我去年教授的一门学科中,我们将通常的演示文稿换成了线上(书面)讨论板的分级参与。当我们使用 Zoom 时,这可能看起来很奇怪,但是,就像教学一样,在线演示与亲自演示不同,因为缺乏空间的掌控感。也害怕出现技术问题或连接中断,尤其是对于海外学生。

然而,在我教授的必修法律科目中,主要的评估方法一直是开卷考试。法律的性质意味着对于它给出的假设性法律问题没有单一的“正确答案”。学生必须了解基本判例法、立法条款和法律原则,但优秀的学生能够有的放矢地将法律应用于实际。

我们还评估学生清楚地表达论点和理解法律为何如此运作的能力(包括是否有可以改进法律的方法)。我们要求他们完成研究论文和研究备忘录,就像他们在面对从未遇到过的复杂问题时所做的那样。

当评估转移到网上时,我们只是给学生稍长的时间来完成考试,以打字的形式(比手写更容易阅读)。当然,人们对可能的不端行为感到担忧,但即使在新冠疫情之前,我们也努力在评估之间取得适当的平衡,在公平判断技能和允许深思熟虑的同时确保学生不能作弊。线上或线下,由于时间非常紧迫,无法在线搜索答案,并且问题是专门为该考试编写的,因此可以减轻作弊的风险。从笔记中剪切粘贴的学生也往往做得不好,因为问题是专门涉及的,不适合通用答案。

当然,将评估平衡更倾向于小组合作是很诱人的。如果不了解该科目或以前从未教过法律考试,是很难对其进行评估的,因此我们法学院的教师通常会为自己的考试评分,而不是将评分委托给助教。仅仅“发现问题”是不够的:还会参考适当的判例法、法规或学术意见,对学生的讨论质量进行评估。这也意味着打分可能很耗时。但是,虽然设置小组作业可以限制评分工作量,但当学生小组内出现争议时,它本身也会产生问题。这就是我作为学生讨厌小组作业的原因——也是为什么我现在倾向于避免这样做。

尽管如此,在大型或必修科目中的打分负荷会影响考试的性质和数量。它们短而尖锐的必备性质既是优点也是缺点。学生有时会被吓得惊慌失措,失去写出深思熟虑的答案的能力。另一方面,没有时间抄袭或串通。除非经过精心设计,更长时间的带卷回家考试可能就会出现作弊。

对于法学院的学生来说,被抓到作弊的后果超出了大学的范畴。在申请律师资格时,任何官方发现的不当行为都必须向当局报告,因为这涉及到良好品格的问题。新冠疫情并没有改变这种危险:它只是暴露了更多。

凯蒂·巴内特(Katy Barnett)系墨尔本法学院(Melbourne Law School)的教授。上述是她个人观点。


真实性问题

在新冠疫情之前的无知幸福中,有一些不言而喻的、令人不安的事实挑战了高等教育的现状。讲座的出席率受到讲座录像的威胁。教职工和学生的福祉是一个长期存在的问题。传统考试非常缺少“真实性”:其测试的技能通常缺乏实际应用。

这场疫情成为了逾期变革的催化剂,并促使人们回顾重整高等教育的价值观。切实参与才是最重要的,而不是当个看客。学习技术与以证据为导向的教学法相结合,可以增强而不是威胁教师。包括那些有数字访问困难和照顾责任的人在内,他们的工作和学习实践都需要规范化。

然而,传统实践的一个方面仍然特别难以改变——评估。

如果在线进行传统的考试式评估,串通、冒充和花钱作弊的范围(和报告的发生率)会更大。同时,监考软件或远程监考的使用是侵入性的,可能对学生的心理健康造成极大危害。一些学者得出的结论是,最好尽快恢复传统的面对面考试。

Pilot
Source: 
Alamy

但这是对错误问题的错误答案。作弊也可以说是现实考场中的一个问题。此外,评估的目标肯定是为学生提供一个公平一致的平台来展示预期的学习成果。然而,这些结果是什么?毕竟,学生在考场中展示他们学习的方式很少是他们在就业中的表现——这通常可以通过毕业生在招聘前评估练习中的表现来证明。在日益技术化的世界中,记忆和复制的价值值得商榷。

许多对这些哲学问题进行过反思的学者已经从评估复制和回忆转向了另一种真实的评估形式,不仅让学生了解他们的学科,而且让他们能够进行现实应用。

在斯特灵大学(University of Stirling),我和许多同事在新冠疫情之前已经放弃了考场测试,转而使用真实的评估内容,例如数字人工制品、政策简报、案例研究数据项目、博客文章、投资者宣传和利益相关者参与工具。为学生提供他们可以投入的课程作业不仅是良好的评估实践,而且促进了数字访问和包容性学习能力的提升。

是的,有些科目可能仍然需要在校园内的实际评估或以论文为依据的评估,这种方式能测试学生在紧迫、高压的环境下解决问题和回忆知识的能力。然而,没有什么可以阻止这样的测试真实地反映学生毕业后如何将其所学付之实践。

然而,正如谚语所说,生活中最好的东西都不会轻易得到。在高等教育,最好的评估往往消耗更多的资源。

虽然诸如测验之类的数字评估可以预先进行编程标记,并提供详细的即时反馈,但其本身的设计需要大量的时间投入。对于设计整个测试库的人来说,这种投入量就更为庞大。此外,大多数形式的真实评估需要比传统的考试花费更多的时间,因为开卷考试、针对现实世界的应用比简单的回忆知识更加细致入微。因此,大学必须承认并补偿真实评估实践中的时间成本。

然而,重返校园后,我们决不能对令人不安的真相保持沉默。我们必须以教学法、包容性、可及性和同理心为基础,敞开心扉拥抱新的可能,将面对面教学的精华与学习技术的创新使用有效结合。

所以继续大声喊出你的哲学问题。我们试图评估什么?为什么要评估?

保罗·考威尔(Paul Cowell)系斯特灵大学斯特灵管理学院经济学讲师、分管学习及教学的代理副主任。


用电脑考试不准看手机

新冠疫情导致高等教育的教学突然转战线上,但我评估医学和药学学生生物科学知识的方法与以前没有太大区别。

我设置的大多数考试原本就是基于计算机的,如果这些考试还没有上线,可以很容易地将其转移到在线学习平台上。这种方式的优点是让本科生在考试结束后就可以立即收到他们的分数和反馈。许多在线学习平台还具有相当强大的软件配置,可以将其添加到测试模式中以减少或使作弊极为复杂。这些包括定时问题、乱序问题和答案选择以及 IP 地址检测。

荣誉守则也很有用。让学生在考试开始前以数字方式确认他们不会接受或提供“帮助”,并在最后确认他们坚持这一承诺,这使我的测试环境较为公平。

Medical staff taking photos with their phones as a metaphor for Computer says no phones
Source: 
Getty

当然,我永远无法监管或防止所有作弊行为,因此我也依赖于学生的成熟和正派。幸运的是,我有限的经验是作弊的学生最终会被抓住,或者他们的行为不会长期给他们带来好处,所以情况会自我纠正(有时以极为令人难忘的方式)。

我目前不考虑改变我的评估策略的最重要原因与一些非常实际的现实情况有关。首先,我负责将我的本科生变成未来的医生、药剂师或博士生,要求他们具有科学知识基础、逻辑推理能力以及高超的阅读理解和写作能力。在他们毕业之前,他们会参加专业或研究生入学考试,这看起来很像我给他们的考试。在我看来,他们未来的成功或以其他方式进行的评估方法应该是他们所熟悉的。

我还了解到,我教的这一代学生经常对课堂发言有自我描述的“焦虑”问题(他们说他们害怕犯错)。而且我发现听学生的演讲并评分很费时间。我每学期教授6门独立课程,有 600 多名学生。每年评价 1200 个演示可能会把我弄崩溃。

此外,演示是准备好的知识演示,而不是我的医学和药学专业学生未来职业生涯所需的对知识的快速、机警的评估。当他们进入职场时,他们将不被允许查阅诊断手法或参考初次诊疗。相反,他们通常会在患者面前被要求提供这些答案,他们不仅要回答,而且要回答正确。

研究生可能有幸研究一下方案设计的最佳模型,但这将来自于彻底阅读同行评审的文献,并能够用他们阅读的内容推断出那些需要研究的内容。

以上所有情况,智能手机可能都能给出答案,但我猜这个答案太简单了,或者就是错误的。目前的技术水平仍然无法替代人类医生、药剂师或研究人员。在这种情况下,在这些人还是学生的时候,在他们身上培养智力的懒惰和内省的不足似乎会引致未来的灾害。

詹妮弗·施内尔曼(Jennifer Schnellmann)是亚利桑那大学(University of Arizona)医学院和药学院的副教授,也是该校药学院药物科学系本科生部的副主任。


综合项目型评估

我们时代的一个悖论是,虽然信息借由互联网唾手可得,但来自学院以外的呼声越来越高,要求缩减本科教育,只以“硬技能”的形式提供信息。

任何富有成效的评估讨论必须拒绝这个提议。我们必须保卫培养学生的核心目标,教育他们带着批判性、同理心和创造性去评估、分析、思考信息,并将这些技能应用到解决问题中。

我们对评估的反思应优先考虑三个问题。首先,要始终询问作业的目的。考试有什么用?我们如何将课堂与课堂之外的生活联系起来?我们如何才能让学生充分参与的同时,仍然期望他们以我们可以一致评估的方式严谨地应用批判性思维等核心人文技能呢?

一个替代传统的评估为“非论文形式”(unes​​says),它形式多样,从下棋到视觉艺术项目到播客制作,应有尽有。学生的创造力在疲于应对新冠疫情的当下特别有吸引力。对于习惯了Instagram 和 TikTok 的学生来说,与理解掌握如何将应试技巧应用于大学毕业后的生活相比,判断一个想法的视觉表达的适用性如何要容易得多。

Mirror
Source: 
Getty

但由于这是一种相对较新的作业形式,公平和一致评价就非常具有挑战性。采用这种类型的评估将需要整个教学组就目标和标准进行有效的讨论。

我们需要记住的第二个问题是作弊。在新冠疫情中,学术造假已经成为全球范围内各个学校的一大困扰。但是,与其坚持严厉的规则或更具侵入性的监督,我们需要说服学生,他们作弊是在实实在在地伤害自己。

大多数学生不会仅仅因为需要而重视课程。如果他们认为离开教室后不会使用这些材料,那么让别人替他们干活又能有什么害处呢?

因此,在展示课程材料和设计作业时,我们需要更加明晰课堂以外的适用性。不是通过淡化内容,而是通过定期与学生讨论他们学习的思考、提问和调查将如何成为专业解决问题的关键工具。

换句话说,对于任何给定的任务,对他们来说将面对什么?如果我们想让评估富有成效并阻止作弊,那么这个问题的答案必须比成绩更重要,比“受过教育的头脑”更切实。

最后,我们需要确保我们评估学生的整体学习能力。展示整合学生大学生涯中的信息、问题和方法的重要性,是捍卫 21 世纪高等教育价值的关键。

一种有效的方法可能是向所有高年级学生展示相同的“现实世界”问题,而不论他们的专业或学习路径如何。例如,有关全球暴发新冠疫情的案例研究。任务是提交他们能想到的所有需要回答的问题,以便完全解决问题。

受过广泛本科教育的学生可能会针对从医学和科学问题到政治、经济、社会、文化和宗教问题等各种主题提出问题,这些问题将影响新冠疫情的传播。这将测试他们提出广泛的必要问题的能力——在他们大学毕业后的生活中,他们将通过追踪必要的信息并与他人合作构建解决方案来回答这些问题。

这些要点都不需要我们完全摒弃传统的评估形式。例如,期末的非论文评估可能会在学期早些时候与测验和更传统的论文相结合,或者以书面提案或分析为基础。关键是我们必须仔细地、创造性地思考如何继续追求我们的教学和智力目标,在我们的新冠时代和后新冠时代与时俱进。

凯伦·E·斯皮林(Karen E. Spierling)系俄亥俄州丹尼森大学(Denison University)历史学教授兼全球商业项目主任。


对葛莱恩先生推崇事实的认同

“现在,我想要的是事实。除了事实,什么都不教给这些男孩和女孩。生活中只需要事实。”

狄更斯笔下的葛莱恩先生用这个著名的演讲开启了《艰难时代》(Hard Times)。有时感觉好像许多学者和大学领导认为考试也全是为了反省事实。然而,就连葛莱恩先生自己最终也意识到,事实,比我们想的要复杂一些。

Teenage girls cheating during exam and passing paper note in the classroom. with a drawing of person in top hat looking as a metaphor for  Sympathy for Mr Gradgrind
Source: 
Getty/Alamy montage

毫无疑问,疫情对教育产生了巨大影响。它迫使我们尝试新事务,尤其是在评估方面。但是,似乎随着疫情的消退,至少在某些地方,我们现在应该回到原来的样子吗?

许多人说不:考试就像恐龙一样死去,不值得再写在纸上。智能手机统治的世界中知识保留已经过时,而考试只考的是葛莱恩先生推崇的事实。如果我可以自己查找知识,为什么我需要合格的法医科学家、药剂师或营养师?答案当然是:拥有知识是一回事,能够在新的情况和压力下正确应用它是另一回事,而精心编写的考试可以测试这些能力。是的,我可以在智能手机上查找内容,但我必须了解我需要什么信息。我必须知道谷歌回答我的东西是正确的——首先必须有人写出来。此外,如果机器停止了怎么办?

听起来可能像是葛莱恩主义,但了解基础知识是有价值的。一个不知道如何解决第一年量子力学问题的物理学生也无法解决第二年或第三年的量子力学问题,无论他们用谷歌搜索多少次。同样,如果有人工作时还需要询问Siri,您是否希望这些人为您和您的家人进行新冠病毒检测或开发疫苗?

我并不反对新冠疫情带来的许多创新。我喜欢考试的一些替代做法,例如训练营(短期、强化技能发展)。通过项目和实习进行的持续评估确实有一个优势,那就是学生的整个成绩在学期结束时不会只取决于3个小时的写作时间。

我也能理解机构希望用相同的资源教更多学生的愿望。传统考试需要一个房间,这通常需要花钱租用,进行合适的评估也通常比项目或演示更费力。

但是线上考试和替代方案并不是万能的,它们会带来自己的问题。例如,如果线上评估要成为主流,我们将需要解决越来越大的合同作弊问题。近年来,论文工厂和在线“帮助”网站的爆炸式增长使学者们无法确定在线提交作品的人就是撰写该作品的人。监考考试也能被耍弄,但它们确实让这个问题更容易管理。

也许,事实上,没有一种万能的评估方法。但是,在我看来,至少,考试的整体害处被大大夸大了。

奥利弗·A·H·琼斯(Oliver A. H. Jones)系皇家墨尔本理工大学(RMIT University)的分析化学教授,是分管生物科学和食品技术的副院长。

本文由陈露为泰晤士高等教育翻译。

后记

Print headline: Is it time to rethink student assessment?

请先注册再继续

为何要注册?

  • 注册是免费的,而且十分便捷
  • 注册成功后,您每月可免费阅读3篇文章
  • 订阅我们的邮件
注册
Please 登录 or 注册 to read this article.

Reader's comments (2)

Taking the 'Ethics for Computer Scientists' examination from 'sit at wobbly desks in a hall' to an online 24-hour 'takeaway' examination has vastly improved the quality of the examination process - the good answers are a joy to read, and somewhat surprisingly, there are more less good answers from those who have missed the point or just written any old thing without evidence of much thought. Discrimination between students is better when they are released from the fetters of feats of pure memory, it seems. And I can read the answers! No more taking several attempts at a sentence to figure out what the words in it actually are! Computer scientists rarely use pens in everyday life and it shows! I don't want to haul them back into an exam hall.
Exams should not be the only, or even the majority, component of assessment. Anyone can have an off-day that ruins their entire life thereafter. However ditching them altogether reminds me of the schoolboy howler book answer I once read in the geography section where a pupil once answered 'Where would you find the Andes?' with 'On Google Earth'. Well OK, yes, you could say, who needs atlases, or even world knowledge, when we have all these Internet tools? Until the power/Web goes down, and we have to fall back on our own head knowledge. Rather like holidaymakers who have no idea which continent Mykonos is on, or where the 'country of Africa' is (sic), or how to drive from Norwich to York. Because their Satnav always directs them. At worst, this sort of mentality, across all subjects, leaves us very vulnerable to a cyber-catastrophe, from foreign attack to solar flare to nuclear war to some other apocalypse. Keep exams at ca. 30-40% of assessment. And maybe don't cap resits at 40%.