学习元 · Part four(2): 教学与评价

学习科学与技术苏格拉底式课程知识支架智能体

上次量表调研数据显示，智能体相较于通用大模型，优势在于专业知识更可靠、问题导向更明确；同时，同学们更偏好知识卡片形式的输出方式。基于问卷结果，重新搭建了智能体的五个工作流，最终形成了以苏格拉底式追问和专业知识为核心特点的智能体。

角色设定：苏格拉底式课程知识支架智能体的核心功能是通过五类工作流支架引导学生从“问答案”转向“自主构建理解”。

苏格拉底式课程知识支架智能体链接：https://www.coze.cn/store/agent/7628158558442012706?bot_id=true

温馨提示: 可以复制链接至浏览器打开或点击链接直接打开。

评价类型

1.诊断性评价

（1）定义：诊断性评价一般是在一个单元、学期或学年的学习开始之前，即正式的教学活动尚未入轨道之前，对学生的知识和技能、智力和体力以及感情态度等情况进行摸底。教学前评价或前置评价。

（2）目的：目的是设计出可以满足不同起点水平和不同学习风格学生需要的教学方案，并分别将学生置于最有效的教学程序中。

（3）形式：智力测试（如韦氏儿童智力量表、瑞文标准推理测验）、摸底测验、课堂提问与观察、档案分析等。

2.形成性评价

（1）定义：形成性评价是通过诊断教育方案或计划、教育过程与活动中存在的问题，为正在进行的教育活动提供反馈信息，以提高实践中正在进行的教育活动质量的评价，一般用于教学发生的过程中。

（2）目的：收集学生学习诊断的信息，以在教学过程中根据学习者的表现不断进行教学调整。

（3）形式：观察、活动记录、测验、问卷调查、咨询等。

3.总结性评价

（1）定义：总结性评价是在教育活动发生后关于教育效果的判断，应用在教育阶段的末尾。一般而言，总结性评价与分等鉴定、做出有关教育者和教育者个体的决策、做出教育资源分配的决策等相练习。

（2）目的：收集学习诊断信息以判断学习者整体发展的最终结果。

（3）形式：学校的鉴定、教师的考核、学生的毕业考试等。

案例（一）

【案例1.1】美国Warwick Neck小学——iReady适应性诊断评估（2024—2025学年）

Warwick Neck小学在每年9月（秋季开学）、1月（学年中期）和6月（学年结束）对学生进行三次i-Ready诊断测试，覆盖K-5年级的数学和阅读。iReady是一种适应性诊断评估——题目难度会根据学生答题情况自动调整，答对则题目变难，答错则题目变简单，从而精准定位每位学生的真实水平。经过一学年的干预后，该校学生数学熟练率从秋季的18%提升至春季的64%，阅读熟练率从33%提升至66%。该案例中诊断性评价的 “适应性测量技术” ——通过动态调整题目难度来实现精准定位，且诊断结果直接用于分层教学和个性化干预，形成了“诊断—干预—追踪”的完整闭环。

【案例1.2】Edutopia——7种形成性评价活动

7 Low-Stakes Formative Assessment Activities | Edutopia

Edutopia推出的视频案例介绍了7种课堂形成性评价活动： Idea Doodle（概念涂鸦）让学生用简笔画直观展示对当天概念的理解，不依赖语言表达，便于发现理解偏差； Rapid Recall（快速回忆）、 Quick Sort（快速分类）和 Whiteboard Relay（白板接力）通过限时游戏化活动检验全班的理解水平； One-Question Quiz（单题小测）在课堂关键节点即时收集全班的掌握情况； Help Me Plan（帮我备课）让学生参与后续课程的规划讨论，反馈哪些内容已经掌握、哪些仍需加强。这些活动都是低利害、不记分的快速检查，目的是实时发现模糊理解并及时调整教学。

苏格拉底式课程知识支架智能体链接：https://www.coze.cn/store/agent/7628158558442012706?bot_id=true

温馨提示: 可以复制链接至浏览器打开或点击链接直接打开。

案例（一）分析

活动类型：

讨论交流

活动名称：

案例（一）分析

活动描述：

请根据你对上述相关知识点和案例的理解，组内成员互相交流观点与看法，分析三种评价的区别，以表格形式进行对比呈现，最后以组为单位提交。 PS:至少与智能体对话三次，与同伴回复交流三次

教学评价相关技术

1.内在主义技术伦理：教学评价智能化转型考量

从内在主义视角提出教学评价智能化转型的技术伦理规约路向：关注人文情感与技术理性的结合，树立需求本位的人机关系准则；实现有道德的算法设计与优化，合理保障师生教育自由与隐私安全；聚焦智能技术蕴含的积极伦理，增强对智能评价算法的动态监测；发挥智能评价的行为影响，构建以人为本的评价伦理秩序。

2. 循证教学评价技术

（1）内涵：近年来，受大数据技术、数据科学、人工智能技术的影响，循证成为各项教育改革的主要理念，循证教育(Evidence-based Education)重回研究者视野。循证教学源于循证医学对“最佳证据”与临床经验的整合，于20世纪90年代被引入教育领域。1996年，Hargreaves提出教育应当遵循研究证据，强调要将科学实证与教学实践相结合，以缩短教育理论与课堂实践之间的距离。循证教学评价是以教学评价理论、数据科学技术、教学分析方法为基础，以全教学数据链为抓手，运用绩效技术的理论和方法，对教学的整个过程及其成效进行多维、精确评估测量的一种方法。循证教学评价将评价方式由学生的感知印象转变为基于教学数据的证据评价。它侧重将教学人员的教学投入及其成效与能够获得的评价证据相结合，以全面、精确、有效地帮助教师更好地优化教学。

（2）循证教学评价层级塔

教学效果的体现与转化不仅反映在学习者身上，教师自身的时间、精力、情感等也需要纳入到评价范畴中。结合教学投入的深入程度以及学习成效的多种表征方式，牟智佳等（2021）设计了如下循证教学评价层级塔。塔中的学习表现与教学投入在呈现阶段性特征的同时，还具有承续性特征，即更高一级的行为涵盖上一级行为。在实际操作层面，需要依托多源数据融合技术对教学数据链进行逐层提取，以表征教学评价中的各层级要素。通过分析聚类上述要素形成数据簇，并进行融合处理，实现评价层级与数据的转化计算与关系映射。

图2 循证教学评价层级塔

注：

·教学行为：教学时间、教学准备的投入，以特定情境的专业知识掌握为评价依据。

·教学认知：教学设计与方法运用的投入，以实践应用与问题解决能力为评价依据。

·教学情感：教师对教学的态度和感情投入，以高阶思维、创新精神、个性发展为评价依据。

·教学智慧：教师针对教学情境中学习问题的挑战，以贯通的视野回应并帮助学生进行意义建构的持续性行动，它是教学投入高级阶段的表现形式。

参考文献： 赵磊磊,蒋馨培,代蕊华.内在主义技术伦理：教学评价智能化转型考量[J].中国远程教育,2023,43(01):40-48.

吴忭,林可可.学习科学视角下基于智能笔技术的循证教学框架构建及案例分析[J].现代教育技术,2026,36(03):129-136.

牟智佳,刘珊珊,陈明选.循证教学评价：数智化时代下高校教师教学评价的新取向[J].中国电化教育,2021,(09):104-111.

案例（二）

【案例2.1】教在浙大

基于“循证教育”理念，“教在浙大”平台依靠证据做评价，通过数字化技术构建教学全过程的完整证据链条和评价工具，为师生提供可个性设计、全过程反馈、回顾性评价的教学质量指标，推动形成数智赋能的教学质量提升闭环。

教在浙大(zju.edu.cn)（视频超链接）

【案例2.2】循证教学评价视角下混合学习投入评价研究

该研究选取H大学的“技术促进学习的前沿创新”混合学习课程进，按照基于多源数据的混合学习投入评价流程，参照混合学习投入评价的多源数据表征进行数据采集、关联、融合与决策。利用中国大学SPOC平台、慕课堂采集学生在教学平台参与线上活动的日志数据；利用摄像机采集学生在课堂参与线下活动的录像数据；利用腾讯文档、接龙管家小程序、问卷星等方式采集学生的线上线下的学习表现与成效数据，包括情感投入调查问卷、设计作品、思维导图等人工制品。研究发现，在混合学习课程中，来自在线教学平台日志、课堂教学录像、学习表现与成效等多源数据能较为准确测评学生混合学习投入类型与表现，并对混合学习投入状态有着良好预测。

图6 数据对齐与特征关联的过程

【案例2.3】多模态技术支持的教学评价

研究选取贵州省一县城小学数学教学比赛的10节课堂录像作为研究对象，遵循智能技术支撑的多模态互动教学评价思路，依据五维课堂互动评价体系完成数据采集、智能分析、量化评定与成果输出。借助课堂录像收集师生课堂互动的视频、音频多模态数据；通过“益课”智能分析平台运用计算机视觉、语音识别、情感分析等技术，实现师生互动行为的自动识别与数据计算；按照互动范围、参与度、亲密度、公平性、深度五大维度的评价标准，完成课堂互动质量的多维度评价与直观呈现。研究表明，在小学数学课堂场景下，课堂录像多模态数据、智能行为分析数据可精准反映课堂互动教学质量，为教学诊断优化和教师专业发展提供有效支持。

【案例4】西安电子科技大学-基于学习大数据及神经科学的多模态脑感知智能学习评价平台

项目采用fNIRS、EEG等多模态脑功能成像技术，实现了学习过程的神经状态监测与解码，结合自主研发的双流深度网络及CNN-Transformer混合模型，构建了集多模态数据融合、时序分析于一体的智能评价框架。通过融合教师专家经验、时序学习行为特征与脑区响应模式，显著提升了学习预测与分类精度，有效区分不同认知任务、学科特性与学习阶段，实现个体化反馈与潜能评估。

参考文献： 王梦珂,陈增照,石雅文,等.智能技术支持的多模态互动教学评价框架设计与应用效果[J].现代教育技术,2024,34(09):91-101.

人工智能赋能教学评价

1.人机协调智能课堂教学评价层级模型

（源自：《人机协同智能课堂教学评价层级模型构建研究》）

【模型建构】以循证教学评价层级塔为基础，结合课堂教育复杂系统特性、生成式人工智能（GenAI）人在回路特征与混合智能理论，从三大核心视角出发，构建了以教学法为核心、四层级架构、双原则落地的人机协同智能课堂教学评价模型。

【模型核心架构】

（1）核心：教学法

（2）四大评价层级：教学行为层（机器主导）→教学认知层（机器增强）→教学情感层（人机互补）→教学智慧层（人类主导）

（3）两大实施原则：a课堂实时分析与课后循证反思相融合；b低层级机器主导、高层级人类主导的协同分工。

2.融入GenAI的分层评价蛋糕模型

图9 融入GenAI的分层评价蛋糕模型

（源自：《GenAI时代的学习评价转型：指向高阶思维形成》）

【模型建构】以项目化学习逆向设计为底层逻辑，形成顶层综合目标逆向拆解→底层基础目标正向落地的双向递进闭环，五阶段既自下而上层层进阶，又自上而下逆向锚定，同时联动课堂内外、师生机双向互动，以完整适配 GenAI 时代的过程性评价需求。

参考文献：王志军,龙帅,张吉.人机协同智能课堂教学评价层级模型构建研究[J].远程教育杂志,2025,43(05):32-40.

王师晓,赵晓伟,沈书生.GenAI时代的学习评价转型：指向高阶思维形成[J].现代教育技术,2025,35(11):42-50.

案例（三）

【案例3.1】基于人工智能技术的循证课堂教学行为评价研究——以重庆市渝中区中华路小学校为例

重庆市渝中区中华路小学依托人工智能、大数据、图像识别等技术，针对传统课堂评价主观性强、反馈滞后的弊端，打造证据驱动的课堂教学行为智能评价体系。通过无感采集课堂音视频、师生行为、学习数据，借助 AI 开展多维度分析，形成可视化评价报告与优化建议，并以四年级语文课程开展实际应用，依据分析结果迭代调整授课模式

【案例3.2】英国的CENTURY Tech平台

https://www.century.tech/assessments/

https://www.century.tech/artificial-intelligence/

英国的CENTURY Tech平台是一款结合AI与认知科学的智能化教学评价系统。它通过将传统考试拆解为高频的“微型评估”，实时追踪学生的答题数据以精准诊断知识盲区，并自动为其推送个性化的补救学习路径；同时，平台为校方提供包含学业进度与学生心理健康状况的全局数据看板，在大幅减轻教师批改负担的基础上，实现了从“学情实时诊断”、“个性化学习干预”到“宏观教学质量监控”的一站式评价闭环。

【案例3】英国坎特伯雷高中（Canterbury High School）

在坎特伯雷高中，由于作业数量庞大，且需要人工逐一批改，教师们很难及时、有效地给学生提供反馈。这导致反馈时间被拖延，进而影响了学生及时改进学习效果的能力。该校采用了基于人工智能的反馈系统，能够即时分析学生的作业。该系统运用自然语言处理和机器学习算法来评估学生的书面作业，同时针对语法错误、内容相关性等方面给出即时反馈。此外，还会根据每个学生的具体需求提出改进建议。人工智能系统的引入，使得反馈过程变得即时且动态化。学生们在提交作业后的几分钟内就能收到个性化的反馈，从而能够及时了解自己的错误并加以改正。这一举措大大缩短了反馈的周期，同时也显著提升了学生修改和优化自己作业的能力。

如何进行形成性评价？

图11 形成性评价工作模型（OsmundsonEllen，2012）

参考文献：Atkin, J.M., Black,P., Coffey, J.(2001). Classroom Assessment and the National Science Education Standards[M]. Washington, D.C.:National Academy Press.

拓展资源

综合素质评价：智能化时代学习评价的变革与实施

数据驱动的精准化学习评价机制与方法

拓展资源分析

活动类型：

讨论交流

活动名称：

拓展资源分析

活动描述：

1.学习评价发生了怎样的变革？2.学习评价理念转变下，技术将如何支持过程性评价，实现学生的综合素质评价的精准化、个性化？讨论要求：每位同学积极发表自己的观点，自由讨论。浏览其他同学的观点并对其进行提问、补充或拓展。 PS:至少与智能体对话三次，与同伴回复交流三次

学习科学与技术通用大模型工具使用情境与学习支持感知调研问卷

亲爱的同学：

您好！本问卷旨在了解学生在课程学习中使用通用大模型工具的情况与真实感受，为后续优化课程智能体、改进学习支持服务提供依据。问卷中所说的“该工具”，主要指你在课程学习中较常使用的通用大模型工具，如 Kimi、DeepSeek、ChatGPT、豆包、文心一言等。本问卷仅用于课程研究与教学改进，不涉及个人成绩评价。所有数据将匿名处理，研究结果只作整体统计分析，不会公开任何个人信息。请根据你的真实使用体验和实际感受作答，不存在标准答案，也没有对错之分。问卷大约需要3—5分钟完成。感谢你的支持与配合！

问卷链接：https://v.wjx.cn/vm/ODRkY5Z.aspx#