• 智能测评

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • [学习目标]

    1.了解人工智能技术在教育评价中的作用和研究进展。
    2.认识主要的智能测评技术。
    3.了解智能测评现存问题,并思考解决方案。
     

    • 【学习建议】

    1.学习本章建议6课时。

    2.阅读相关论文提出相关建议。

    • 【章节思维导图】

    • 11.1 智能测评系统

    11.1.1 智能测评概述

    一、背景

      1.近年来, 教育大数据、学习分析和智能网络学习平台的逐步发展使得学习轨迹不仅能够得到记录进而形成全学习过程数据链, 而且能够对学习过程和结果进行个性化分析和评测。而以深度学习、机器学习、自然语言处理等为代表的人工智能技术兴起, 使得测评技术更加智能和精准, 基于学习内容和结果可以对学习者的知识和能力水平进行智能化评测, 以更好地服务于认知诊断。因此, 我们可以借助大数据和学习分析技术对学习过程中的阶段性学习表现进行评价和归因分析, 并结合学习者的个性特征定制基于内容掌握的学习路径, 最终促进其对知识的深度理解和概念的掌握。

     2.智能教学系统是一种先进的计算机教学系统,它集合了人工智能、计算机科学、认知科学、思维科学、教育学和心理学等多个学科,为学生提供高度个性化和智能化的学习体验,能根据学生的需求和喜好调整学习内容和知识表示。近年来,随着互联网的全面普及和人工智能技术的快速发展,智能教学系统迎来了新的发展机遇,孕育着新的升级。陈凯泉等[通过对文献的综合分析,指出智能教学系统正朝着多模态学习分析、适应性反馈、人机协同等方向不断拓展。其中,多模态学习分析指智能教学系统对学习过程数据的全方位收集、分析与应用;而人机协同重点关注教师如何与智能教学系统协同,为学生提供智能化的精准教学。随着智能教学系统结构的复杂化和功能的多样化,其系统性能的测评也需要提升,以提供更为精细、精准的测评结果,从而为系统的优化和升级提供数据依据。

     3.在智能教学系统的测评方面,Mark等于1993年提出了初步的智能教学系统测评方法,并于2016年进行完善 ,提出了用户评价、专家评定、虚拟学习者测试、实验测评、学习曲线分析和教育数据挖掘等六种测评方式;Jeremic等强调学生的主观体验在智能教学系统测评中的重要性;Sykes运用准实验研究的方法,测评了Java智能教学系统的应用效果;Hooshyar等综合运用定性、定量的分析方法,对某游戏化智能教学系统进行了测评;Mousavinasab等指出,智能教学系统的测评应包含系统表现、学习效果和学生体验三个方面。而在国内,刘明祥等提出从软件系统评价、教学功能评价和实践应用评价三个方面,来开展基于Web的智能教学系统评价;贾积有等总结了智能教学系统评价的定量方法,如T检验、协方差方法等;周楠等提出了一种基于深度学习的互动课堂学生学习行为分析与教学效果评价方法,可利用课堂视频信息,对学生表情进行检测,从而建立教学效果的评价模型。综上可知,目前针对智能教学系统测评的研究成果较少,且已有研究注重总体效果的测评,尚未考虑不同学习风格学习者使用智能教学系统后的学习效果差异,其效果测评不够精细,很难为系统的优化设计提供数据支持,因此有必要建立智能教学系统测评模型。

    二、教育应用

      1.学生能力和知识水平评估:突破纸笔测验的局限

      2.人格与心理健康评估:无痕式和伴随式评估

      3.教学过程评估:更加直接、便捷和精准

    三、教育意义

      1.人工智能是当下计算机行业未来的新方向,是一种技术,更是一种新的思维模式。利用机器学习方法,可根据获取的数据来分析结果。结合人工智能技术,运用人工智能思维方法,使系统能够自动分析所有学习者的数据,归纳普遍存在的学习问题,进行智能化数据归类总结。下一步将在此方面对系统进行优化完善,为教师教学提供更大帮助。

      2.在互联网及其终端大规模普及的情况下,人们的碎片化时间逐渐被丰富多彩的信息服务填充,而传统的教育无法充分利用可整合的大量碎片化时间,对于还处在受教育阶段的学生来说通过信息化和智能化的学习手段可以补充必要的学习时间和学习手段。另外,对于已经处于工作中的社会人群来说抽出大块的时间进行系统化学习是极为困难的,所以基于互联网和人工智能的教育服务更能充分利用空闲时间。通过互联网的教育测评等工具可以使学生和社会人群多-种不受地域和时间严格限制的学习途径,对于社会整体的教育水平提高有着积极的促进作用。

      3.随着中国经济持续发展,各行业对人才大量需求,各学习阶段的检测需求量 也随之增长,而传统的纸质考试会消耗大量的纸资源,2017 年的中国造纸协会年度报告中指出,用于印刷和书写的纸张年消费量已经增长到1744 万吨,同时随着社会经济的发展纸张的需求量仍在持续增长,而大量使用纸张不仅会消耗森林资源,也不利于国家实现节能减排、产业结构调整等国家战略:此外,传统的纸质考试方式还无法快速地统计大量考试信息,对学习过程缺乏高效的反馈。当今互联网特别是移动互联网的发展为在线考试技术提供了方便的平台,通过计算机和移动联网设备进行在线考试不仅可以替代传统纸质考试,还借助其可移动性增加了考试方式的多样性。

      4.多元智能测评系统的引入为孩子提供了个人发展的新模式,也使老师能够从一个全新的角度理解孩子的发展,审视老师对孩子的评价,从而树立科学的智力观、学生观、教学观、课程观、评价观。就目前来说,多元智能测评不但是好的教育理念,且应用价值很高,趣放学的老师通过多元智能测评系统能了解孩子先天人际智能、内省智能、逻辑数学智能、空间智能、语言智能、肢体智能、观察智能、音乐智能等智能的科学排序,进而判断得出孩子的“最优发展方向”,制定个性化的培养规划以及具体课程建议,为孩子未来的发展打下坚实基础。

    • 11.2 智能测评技术

          智能化测试主要指在持续追求提升研发交付效能下,人工智能技术在测试领域的应用,其本质是结合了AI算法和测试数据对测试多环节进行针对性的优化,具有更强的适应性和响应能力。智能化测试是当前阶段的热门,正在越来越广泛地深入到测试各环节中。

          测试用例的生成当前主要靠人工设计,并且要求测试人员具有一定的经验和专业水平,随着云化产品的功能日趋复杂、迭代周期不断加快,完全基于经验人工设计的接口测试效率十分低下。因此需要设计一种测试用例自动生成方法。

          华为云在智能测试用例生成的实践方面,提出了基于接口文档和现网流量数据的智能API测试生成技术,实现了单接口与多接口业务场景的双覆盖,做到真正帮助测试人员提高工作效率,并有力保障了云化产品质量。该生成服务的具体流程如图所示,其应用前景包括但不局限于以下几个方面:

      (1)对于小规模测试团队或无专职测试人员的全功能团队或测试小白,可基本实现少人参与或无人参与的无代码化高度自动化Rest 接口正常场景级测试用例生成,自动化执行和判定。

        (2) 对于有专职测试人员、测试专家的测试团队,可低成本提升测试场景覆盖率、缺陷拦截效率,减少测试设计投入。

        (3)可以正常场景API测试基础上实现异常场景 (可靠性测试)和并发场景(性能压力模型)的全自动化生成,完全替代现有接口fuzz测试,实现接口全场景测试无代码化。

    • 11.2.1 游戏测评(Game-based Assessment,GBA)

          GBA其实是Game-based Assessment的代称,中文意思叫做“游戏化测评”。GBA是建立在20世纪兴起的脑神经科学基础上的一种新型心理测评,其设计原理是将多种经典的心理学测评范式与游戏元素进行有机结合。

         事实上GBA是严格按照BPS(英国心理学家学会)标准历经多年研发出来的,里面有大量的心理学、测量学和脑神经科学的内核元素,是一款科学、客观、可信的心理测评。测评的外衣哪怕有一丝的小调整,其测试的稳定性和准确性都需要反复的样本和数据来验证。

         本质上,GBA是一款行为测评工具,它更关注的是测试人在整个游戏过程中的行为数据点,而非最终的得分。

         当然,游戏的形式是GBA测评的一大亮点,因为它非常符合年轻一代的互动习惯,能够增强雇主品牌的影响力;同时游戏的测评环境更容易带来自然的行为反应,有效减少伪装的发生,让测评工具能够更真实地洞察被测人的人格倾向。

    • 11.2.2 自适应测评(Computerized Adaptive Testing,CAT)·

    CAT-计算机自适应测评

      计算机自适应测验(Computerized Adaptive Testing,CAT)是基于项目反映理论和计算机技术的一种测验模式他根据考生的作答情况自适应地选择测验项目。计算机自适应测验与纸笔测试、一般计算机测验的区别是具备估算被试者的能力、不依赖于测试题目的特性; 可以根据题目的信息量,选择与被试者能力相匹配的题目; 测试管理灵活,测试结果可以立即显示,减少考生考试焦虑; 与传统测验相比,计算机自适应测验可节省成本。因此计算机自适应测验常用于总结性评估,如高风险的考试测评( 大学入学和就业等)

           传统的测评方式就是一张考试卷,所有人都回答同一张试卷,来测出每个学生的能力以及掌握程度。而计算机自适应测评具有以下特点:

      · 基于学生上一题及之前测评题上的作答情况,采用大数据及人工智能技术自适应选择下一道测评习题

      · 每个人最终形成一套个性化的测评题集

      · 高效:仅少量的题可测评出学生能力

     

     

    如左图可以看到给学生一个问题Qt,根据学生做题目的对与错,然后有一个认知诊断模型进行诊断,然后再通过选题策略,选择与学生能力相匹配的题目,通过少量的题目能够快速诊断出学生的能力。同时避免了对一些低水平的同学,题目太难,使学生丧失信心,或者对于一些高水平的学生,题目太简单,使学生变得无聊。

    右图展示的是个性化测评题集,首先由两个同学e1、e2开始作答,第一题给相同的题目,根据两个同学的答题情况,e1同学答对了,那么就会从题库里选择比较难一点的题目。e2同学答错了,那么下一道题就从题库选择简单的题目。真正做到千人千面,不同的学生所对应的题目也有差异。

    ② 计算机自适应测评的应用
      计算机自适应测试的成果,经过多年的推广,已经应用于非常广泛的领域。包括GRE、TOEFL、汉语水平考试(HSK)等语言测试,以及很多世界500强公司的行为能力和逻辑思维水平测试,都在大量的采用计算机自适应测试。GRE由美国教育考试服务处主办,最早起源于1937年,当时是由美国的4所顶级大学联合举办,最开始由卡耐基基金会承办,后来经过发展,在1948年交给教育测试中心ETS负责。目前,GRE作为应用最为广泛的英语能力测试,每年在世界众多国家和地区举行考试,考试结果作为留学人员的水平评估能力,由海外大学筛选确认。汉语水平考试,是为测试外国人的汉语水平的考试,目前已经成为外国留学生来中国留学,在中国工作的外国人汉语水平能力的最权威评判标准。

     

    计算机自适应测评存在的问题

       计算机自适应测验的最大优势是学生作答试题的难度与学生能力匹配,这一优势能带给学生更有益的考试体验。但同时也存在一些方面的不足:(1)不适用于开放式问题和不容易校准的写作;(2)考生无法在测试结束前退回去更改答案;(3)题库更新速度较慢;(4)安全性低等问题。

    • 11.2.3自动简答题测评(Automated Short Answer Grading,ASAG)

    1. 自动简答题测评背景技术

          自动评分是智慧化教学过程中评价教学质量的一个重要环节,是智慧教学中的一个研究热点。该任务通过一定模型与算法对待评分答案预测分值,不仅能减轻教师工作量,还能避免人的主观性引起的评分不一致问题。在此背景下,本发明利用关键词和无关词计算,同时结合基于深度神经网络语义计算方法,共同对简答题进行自动评分,从而获得一致性更高的评分结果,为用户提供自动评分服务,从而提高用户使用平台的效率。与现有简答题评分方法相比,本发明充分利用参考答案的语义信息,并利用无关词等多检测评分方法和步骤,可以有效提高简答题自动批阅的准确率。   

    结构图如下:                                                                 一种开放式简答题自动评分的方法和系统与流程

     

     

    2.技术实现要素:

          要解决的技术问题是:针对开放式简答题中涉及知识点广泛、作答文本的语言表述具有多样性的特点,提出从关键词、无关词、语义这三个角度进行评分,综合多方面的信息给出合理的分值,这种方法符合教师在评分过程中的基本依据和评价标准。

    根据本发明的一个方面,提出一种开放式简答题自动评分的方法,包括:

    s1、识别待评分答案的关键词,计算关键词评分;

    s2、识别待评分答案的无关词,计算无关词评分;

    s3、计算语义评分;

    s4、计算待评分答案的得分;优选的,得分=[关键词评分+(1-无关词评分)+语义评分]/3*简答题分值。

    • 11.3 智能测评现存问题

    11.3.1多模态数据的利用问题

      智能化测评采用数据驱动的人工智能分析方法,能够最大程度上利用多模态数据,实现对个体能力、认知水平、人格特质、心理健康等更全面和精准的评估。然而,目前智能化测评中对多模态数据的利用仍然处于起步阶段,基于多模态数据的测评主要以探索性研究为主,对多模态数据的协同分析还不够深入。

    11.3.2测评结果的准确性与可解释性问题

      智能化测评结果的准确性与可解释性是测评研究中最为重要的评价指标。准确性要求尽可能降低测评的误差;可解释性是测评结果可以被理解的程 度。智能化测评不仅对测评精度要求高,而且还要能够清楚解释测评分数是如何得到的.因此,如何结合人工智能技术来提高测评的准确性并保证可解释性,是面向教育评价改革的智能化测评技术需要解决的问题。

    11.3.3测评模型的针对性和精细化问题

      目前智能化测评的主要研究人群来自人工智能领域,他们一般从海量的文本数据以及智能设备采 集的日志文件等大规模数据集中,以数据驱动的方法对心理特质(如学习者的能力、人格特质、心理健康等)进行预测与测评。这些研究往往缺乏对心理特质的准确界定,忽略测评过程中可能产生的误差,忽视从理论上来阐释所测特质和特征抽取之间的关系,虽然构建的预测模型表现出了良好的准确率,但是却较难用于实际的教学实践活动中,并提供有效的教学建议。

    11.3.4智能化测评中的信效度检验问题

      目前,对智能化测评工具的信效度检验几乎都集中在机器评分与人工评分或传统测验分数的一致性上,且主要利用交叉验证方法对智能化评分模型的精确度、召回率以及F1值进行验证,而这只能说明智能化测评具有一定的预测效度,但是对区分效度、重测信度、一致性信度以及公平性施测群体不等方面缺乏检验和评估。虽然智能化测评往往具有较高的准确率,但这并不意味着就满足了测评的要求,需要依据传统测评框架对测评的信效度进行系统评价。

     

     
    • 11.4 智能测评未来发展

     全景多模态数据融合分析驱动下的教与学全方位精准测评趋势

      构建面向全时空场域的高质量课堂测评数据生态系统是未来智能技术在高质量课堂测评应用的趋势之一,线上线下无缝连接的混合型复杂课堂场景精准测评需要捕获、处理和分析多模态、全维度数据,以便理解教与学全过程中利益相关者的行为和相互作用的痕迹,为课堂教学质量提升提供更加客观全面的依据海量的教育数据既是测评课堂教学质量的核心要素之一,也是训练新一代人工智能测评模型的基础因此在课堂测评数据共享、预处理和存储与计算方面要建立完整系统的闭环,同时也不能忽视小数据的作用。

      智能技术支持下课堂认知、情感等多维度可解释性测评趋势

           建立面向认知、情感等全方位的课堂测评可解释性体系,是未来新一代人工智能在课堂测评应用的趋势之一。随着因果学习为代表的人工智能技术的快速发展以及教育领域对大数据诉求的增强,面向结果可解释的因果计算范畴将逐步拓展,聚焦学生认知、情感等高阶诊断问题,从单一的知识或行为分析走向“知(知识)—行(行为)—情(情感)”的综合演化与测评。

      全生命周期视野下基于人机协同的课堂测评定制化服务趋势

      结合课堂教与学个体的全生命周期数据追踪,建立面向个体全面发展的动态个性化服务定制,也是未来新一代人工智能基于人机协同的课堂测评应用中的发展趋势之一。智能课堂在应用时需以测评个性化、服务定制化等迫切需求为目标,全面分析课堂多类型主体的全过程数据,开展学生学习状态监测与预警、教师适性评价与指导、课堂科学管理决策等方面以智能化为核心的定制化服务,实现为教学管理“把脉”,深化人工智能与教育的融合。

    • 11.4.1 赋能结果评价

            智能测评包括人工智能在传统测试的各个环节中的应用。教育测评的过程本质上是把某种潜在特质(看不见、摸不着又确实存在的能力、素养或心理特质)用一种科学的方法进行量化,用数值来表示被试在该项特质上的发展水平。传统的测评主要有三个环节:命题、答题和评分。人工智能在这三个环节中的应用即为机器命题、机器答题和自动评分。

      数学和英语是机器命题应用较多的学科,特别是英语的语法和阅读理解题,已经有一些商业软件可以完成命题。例如,“Item Distiller”软件主要被用来命以单句为主的语法题,“EAQC(enhanced automatic question creator)”软件则多用于命阅读理解题。

      机器答题可以大大降低试测成本。在题库建设中,所有的新题都需要经过试测,计算其各项性能指标后,才能在实际考试中使用。招募被试进行试测需要花费大量时间和成本。此外,试测过程中,也可能存在考务安全的问题。目前也在大力加快题库建设,但由于保密问题,很难实现在高考这样的高利害考试中使用试测过的试题。机器答题也可以大大降低泄露试题的风险。

      目前已经有一些成熟的自动评分软件,如“Project Essay Grade”,美国ETS开发的“E-Rater”等。新一代的评分软件不仅可以完成评分,还能根据评分模型,给学生提出改进建议。当然,自动评分还存在很多局限。一方面,机器学习的资料是不同专家的评分,本身就存在一定的不一致性,因此,自动评分的结果与人工评分还会有一定的差异。另一方面,自动评分也十分依赖语料库的建设,对于计算语言学没有深入研究的语种,就难以建立比较精准的模型。此外,自动评分在面对“创作型写作”时,往往很难给出准确的判断。

    • 11.4.2 赋能过程评价

      通过人工智能,我们可以分析你在学习过程中对知识的掌握、每个知识点的学科能力、核心素养、身体健康发展和心理健康发展;它可以使我们的教育评价从单一的学科知识评价转变为全面的综合评价;它可以使我们的评价从以前的期末考试转变为过程评价;它可以嵌入到你的学习过程中,评估学习者,评估不仅是评估你的知识,也是评估你解决问题的能力。

      随着深度学习理念在课堂教学环境中的渗入,基于基础行为数据的深层次全方位教与学测评逐渐成为课堂过程性评价的核心,课堂测评更加关注具有更深层次教学含义的复杂教与学活动。现阶段相关研究主要聚焦于课堂教学参与主体的知识与能力水平、情感与态度测评两方面,基础行为数据意义建构、测评指标权重确定、分层融合决策等过程也成为课堂测评研究的重要内容。

    • 11.4.3 赋能增值评价

         中国电化教育杂志社与科大讯飞教育技术研究院承办的第四届智能教育论坛上,正式发布了由科大讯飞教育技术研究院/认知智能国家重点实验室智能教育研究中心组织编写的《2021智能教育发展蓝皮书——智能技术赋能教育评价》。 蓝皮书第一章对智能技术赋能教育评价的提出、创新思路和生态体系进行了系统的梳理;第二至五章分别对智能技术在改进结果评价、强化过程评价、探索增值评价、健全综合评价中的作用展开论述;第六章呈现了智能技术赋能基础教育质量监测、学校发展评价、在线课程评价、教师课堂教学评价、学生综合素质评价五种类型的综合实践案例;第七章对智能技术赋能下的教育评价产业生态体系、市场竞争格局、技术应用趋势和行业发展趋势进行了分析和展望。

    • 11.4.4 赋能综合评价

      相较于传统课堂和信息化课堂中的单一语言行为分析,智能技术应用使得话语、手势、肢体动作等多元课堂行为的精准识别和理解成为可能。课堂参与主体行为反映了课堂教学过程中教师和学生的基本状态,是构成复杂课堂活动的基础。从行为主体和行为活动方式两个维度出发,课堂教学行为可以分为教师言语行为、教师活动行为、学生言语行为和学生活动行为四大类 。而课堂行为分析是掌握教师教学情况和学生课堂表现的重要手段,也是课堂教学过程性评价的重要组成部分。

    • 【思考题】

    1.你认为智能测评在教育中的应用存在哪些问题?如何解决?
    2.如何将智能评价与人工评价有效结合,谈谈你的想法。
    3.你认为智能测评系统需要具备哪些功能?

    • 【参考文献】

    [1]孟青泉,贾积有,张志永,颜泽忠.智能教学系统测评模型的构建与实证研究[J].现代教育技术,2022,32(05):68-74.

    [2]牟智佳,俞显.教育大数据背景下智能测评研究的现实审视与发展趋向[J].中国远程教育,2018(05):55-62.

    [3]骆方,田雪涛,屠焯然,姜力铭.教育评价新趋向:智能化测评研究综述[J].现代远程教育研究,2021,33(05):42-52.

    [4]黄昌勤,涂雅欣,韩中美.智能技术赋能课堂评测:现状挑战与趋势[J].人工智能,2022(02):116-124.

    [5]田伟,杨丽萍,辛涛,生.科技赋能教育检测与评价:现状与前瞻[J].中国远程教育,2022(01):1-11.

    [6]乐琼华,赵毅,马珊珊,陈敏刚,陈文捷.人工智能系统质量与测评技术及标准化研究[J].信息技术与标准化,2022(09):22-28.

    [7]袁莉,曹梦莹,约翰·加德纳,迈克尔·奥利里.人工智能教育评估应用的潜力和局限[J].开放教育研究,2021,27(05):4-14.

    [8]高冲.计算机自适应测试研究进展[J].计算机产品与流通,2017(10):7.

    • 标签:
    • 教育人工智能
    • 知识图谱
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部