多客科技 发表于 2025-10-3 01:32

AI时代的教育评估:重新设计作业和考试

作者:微信文章
2025年7月,数字教育委员会和Pearson发布了题为《教育测量的下一个时代:AI 在评估设计中的全球回顾》报告。这个报告指出,作业和考试必须进行结构性改革,不仅是为了确保学术诚信,更是为了反映学生在现实世界中如何与 AI 工具协作。



报告首先分析了AI在评估中的具体影响,随后将当前的评估实践划分为三大类型:无AI评估(AI-Free)、AI辅助评估(AI-Assisted)AI整合评估(AI-Integrated)。其中AI整合评估(AI-Integrated)部分基于对全球101个案例研究的深入分析,报告明确了两种主流的AI整合评估方法——“AI增强传统评估”,即利用AI支持核心学科学习;以及“AI作为学习对象”,即侧重于培养学生的AI素养。



报告详细阐述了14种新兴的AI整合评估设计方法论,并将每种方法与具体的学习成果和AI能力(如提示词设计、AI输出评估和AI伦理)相对应。

除了这些实践研究,报告还强调了在教育中“AI韧性(AI-Resilience)”的重要性。该理念是指一种评估设计的关键原则,其核心目标是通过结构性的重新设计,而不是仅仅依赖于规则或技术来确保学生无法轻易地将核心学习任务外包给人工智能,从而保护评估的有效性和完整性。

一、理解AI在教育评估的影响

为了理解AI如何影响教育评估,报告首先给出教育评估的五个阶段——讨论“AI让哪些事变得可能?” 和“我们必须做出哪些调整?” 之前,我们得先理解我们要做的这个事本身。先理解教育评估,然后才能讨论AI能够影响到哪些部分。



报告并没有从教育的评估类型入手讨论,而是把一般教育评估周期分解为五个关键阶段,即,只要是教育评估,都应存在的5个步骤:设定学习成果(目标)、规划课程(传授)、设计评估、实施评估、反馈与审查(评估“评估”)。详情见下表:



在AI时代,评估设计需要在多个层面进行审慎考量——评估的性质、评估原则、评估的优先级。

1.评估性质(Assessment Type):根据特定的学习成果以及AI使用程度确定评估的性质是为无AI、AI辅助还是AI整合。

为应对AI带来的机遇与挑战,教育领域涌现出三种评估实践类型:无AI评估、AI辅助评估和AI整合评估。每种类型都有其独特的目的,并侧重于学生学习的不同方面,它们在平衡且面向未来的评估策略中都扮演着重要角色。

2.评估设计原则(Assessment Design Principle):一旦确定AI的角色,应用适当的AI韧性设计策略,以维护每项任务的真实性和严谨性。一个具有AI韧性的设计,能够确保核心学习成果不易被外包给AI——这不是通过依赖学生的自觉遵守,而是通过精心创造条件和结构,使得学生难以利用AI来完成核心学习任务

举个简单的例子:学生用AI搜作业答案一搜就能做全对则说明这个作业具有较低的AI韧性。

实现“AI 弹性”的策略包括:
将核心人类任务保留在课堂中:例如,学生可以在家使用 AI 起草初稿,但在课堂上进行现场论证和答辩 。

将焦点从“结果”转向“过程”:评估导致最终结果的推理、规划和决策过程 。

嵌入检查点和可追溯的开发过程:要求学生提交中期成果、反馈记录或规划草案,以展示其渐进的思考过程 。

在单元层面而非任务层面进行验证:通过一系列相互关联的评估来验证学生的学习,而非依赖单个任务

3.评估组合(Assessment Portfolio):在课程层面,有意识地融合无AI、AI辅助和AI整合评估,以确保学生既能展示无辅助的独立思考能力,又具备与AI工具高效协作的能力。

报告建议教师在一个学期中有意识地对不同评估任务进行排序,例如,初期通过“无 AI”任务(如课堂测验)来夯实基础(优先级1),期中和期末项目则引入“AI 整合”任务(优先级1和2),最后的总结性评估(如监督考试)再次聚焦于无AI评估,以检验学生的独立能力 。
二、AI 时代评估设计的实用指南




这部分从三种不同性质的评估(无 AI 评估、AI 辅助评估和 AI 整合评估)入手,讲解如何实操。
1. 无 AI 评估 (AI-Free Assessment)




无 AI 评估 (AI-Free Assessment) 旨在考察学生在没有 AI 帮助下的独立思考和基础技能 。报告强调,实现这一目标的关键在于通过结构性设计从根本上消除用AI的可能性,而不是仅仅发布“禁止使用 AI”的规则并寄希望于学生的自觉。最有效的方法是转向同步评估 (Synchronous Assessment),因为它在任务执行期间切断了访问 AI 的途径。

例如,有监督的考试、口试、课堂写作、现场演示或课堂讨论等形式,都能在结构上有效抵制 AI 的干扰。

对于无法在受控环境中进行的异步评估(如课后),教师则可以设计一些利用 AI 当前局限性的任务,让 AI 难以完成或使其介入变得没有意义。这包括要求学生将知识应用到 AI 不易获取的本地情境或近期课堂讨论中 (Contextualised Application Tasks) ,或者要求他们提交带注释的草稿或规划笔记等过程性文件 (Process Documentation),以展示其思考过程(如:英语作文《我的英语老师》,英语老师肯定能看出来写的是不是他自己)。
2. AI 辅助评估 (AI-Assisted Assessment)




AI 辅助评估 (AI-Assisted Assessment)即考察学生用AI完成作业和测试的能力。布置这类作业时,教师必须明确划定界限,确保 AI 是作为学习的支持而非替代品 。为此,报告提供了一个“AI 使用地图” (AI Usage Map),帮助教师规划在评估的哪些环节可以或不可以引入 AI。



该地图列出了学生在完成作业时可以用AI的场景:
规划阶段 (Planning Stage):头脑风暴、建议结构、规划时间线。

研究阶段 (Research Stage):建议搜索词、查找资料、总结文献、解释术语。

创作阶段 (Creation Stage):生成初稿、撰写部分内容(文本、代码等)、制作图表或视觉材料。

编辑阶段 (Editing Stage):改写、语法检查、模拟反驳论点、修正参考文献 。

反馈与反思阶段 (Feedback and Reflection Stage):生成反馈、提示自我反思、与评分标准对齐。

教师可以利用这张地图,来决定在哪些环节允许、限制或需要对学生使用 AI 进行明确指导。对于需要限制 AI 使用的部分,报告建议教师应重点重新设计这些环节以确保其具备 AI 韧性,而不是依赖学生的自觉。
3. AI 整合评估 (AI-Integrated Assessment)




这部分是指南中最详尽的部分,旨在将 AI 工具作为核心部分融入评估中,以培养学生的 AI 相关能力并加深学科学习。报告将这些新兴实践分为两大类:
第一类:AI 赋能传统评估 (AI to Enhance Traditional Assessment)




在这种模式下,AI 主要作为支持学生达成特定学科知识和技能的工具 。报告总结了8种设计方法:

1)AI 引导的自我评估与反思:学生与 AI 进行结构化对话,以测试和评估自己对某个概念的理解 。AI 扮演对话伙伴的角色,提出问题并提供反馈 。

2)AI 初稿,人类修订:学生先用 AI 生成一个初稿或解决方案,然后对其进行评估、修订、纠错和深化 。

3)人类初稿,AI 审阅:学生首先独立完成任务,然后使用 AI 工具来审查和改进自己的作品 。

4)AI 生成材料供分析:由 AI 产出案例、场景或文本等样本材料,然后学生运用学科框架对其进行分析和解读 。

5)AI 作为模拟合作者或角色扮演者:学生与一个扮演特定角色(如病人、历史人物、行业专家)的 AI 进行互动,以练习沟通、决策或访谈技巧 。

6)AI 用于沉浸式学习:学生使用 AI 工具创造丰富的体验(如第一人称叙事、视觉场景),以加深对学科概念的理解和情感联系 。

7)人类与 AI 作品对比:学生分析和比较人类与 AI 在同一任务上的产出,通过对比来强化特定学科的技能 。

8)AI 作为助手:学生在任务的一个或多个阶段(如规划、研究、起草)将 AI 作为协作者,并反思人机协作的过程。
第二类:AI 作为学习对象 (AI as the Key Object of Study)




此模式下,AI 本身成为学习和评估的中心,旨在直接培养学生的 AI 素养和批判性数字能力。报告总结了6种设计方法:

1)AI 输出批判与评估:学生批判性地分析和评估 AI 生成内容的准确性、偏见、相关性和整体质量 。

2)提示工程与过程分析:学生通过设计、测试和迭代优化提示词 (Prompts),分析输入的变化如何影响 AI 的输出,从而理解 AI 的工作机制 。

3)AI 伦理、政策与社会影响:学生通过辩论、政策建议或反思文章等形式,深入探讨 AI 的伦理困境、政策法规和社会影响 。

4)建设性滥用 (Constructive Misuse):学生在道德和可控的范围内,故意尝试“误用”AI,以探索其极限、漏洞和潜在风险,从而培养批判性意识 。

5)AI 作为情境案例研究:将某个 AI 工具或现象作为具体的案例,运用特定学科(如界面设计、法律、公共政策)的理论框架进行分析 。

6)AI 作为人工制品 (Al as an Artefact):学生亲手设计、开发或策划一个具体的 AI 产品(如一个定制的聊天机器人,其实这个真的不难,但是能够培养学生设计思维、和根据反馈调整提示词的能力),以展示他们对 AI 实际应用的理解。

报告还提到,教师可以将这些方法进行混合使用 (Blended Methodology),以创造更丰富的学习体验。并提供案例

案例分析

报告在第35页详细介绍了一个由哈佛大学MetaLab的AI教学法团队(The Al Pedagogy Team at MetaLab@Harvard)设计的综合性评估案例。



目的:帮助学生在培养AI能力的同时,学会评估原始资料(在这里特指AI生成的图片)如何影响一个历史或当代议题的叙事

案例名称:调查并再创作AI生成的图像 (Investigating and Recreating AI-Generated Images)

这项评估任务的具体步骤如下:

首先,老师要求学生像侦探分析案件一样,从网上找出三个真实的“AI假图片”案例:
一个有害的(比如用来造谣的假新闻图)。

一个无害的(比如只是为了好玩的艺术创作)。

一个介于两者之间的,有点模糊的。

然后,学生需要去调查每张图片的“案底”:这张假图是怎么来的?在网上是怎么传开的?对人们造成了什么影响?通过这个过程,学生就学会了如何批判性地看待和分析这些AI内容。

学生需要打开AI绘画工具,像一个模仿者一样,想办法创作出和那三张案例图片一模一样的假图。这个过程非常关键,因为学生会发现:
想让AI听话,准确画出想要的东西,其实很难。

他们必须不断调整给AI的指令(这就是“提示工程”),才能让图片越来越逼真。

在这个模仿的过程中,他们会亲身体会到AI作图的“破绽”在哪里(比如手指画不清楚),以及哪些地方又特别容易以假乱真。

完成这两部分后,学生就从一个旁观者,变成了“圈内人”。因为他们不仅分析过别人的“作案手法”,自己还亲手“作案”了一遍。

这样一来,他们再看到网上流传的图片时,就会变得格外警惕和敏锐,能更快地识别出哪些可能是AI生成的,并且深刻理解这种技术是如何被用来影响舆论和传播信息的。

总结与启示

这份由数字教育委员会与培生集团联合发布的报告,其核心启示是:继续试图构筑防御AI的壁垒不仅徒劳,更是对教育资源的错配。真正的任务是拥抱变革,勇敢地将评估重心从记忆和复述,彻底转向那些定义人类智慧的核心——批判性思维、创造力、以及复杂的伦理决策能力。


经过超半年的尝试,我运营的「教育学人AIED知识社区」已经逐步和一些老师们形成了一个学习共同体。目前主要是我的日常分享和三个专栏——「AI时代的教育」、「标准和框架」、「教育学经典讲读」,「当代教学理念潮流」。专栏依托于不同类型的优质资源的分析和解读(由我和粉丝们共同选出),「日常分享」结合实事和大家的疑问进行更新(如:GPT-5使用心得、不同学者和机构对创新的定义等...)



接下来我会继续优化,在结构化和社群化方面继续提升,让大家不虚此行。
页: [1]
查看完整版本: AI时代的教育评估:重新设计作业和考试