学习元 · 基于卷积神经网络的课堂行为识别分析

基于卷积神经网络的课堂行为识别分析
普通类
- 支持
- 批判
- 提问
- 解释
- 补充
- 删除

9.1.1问题描述和定义

1.问题描述

在21世纪中正处于智能时代中，随着科学技术与人工智能的高速发展，人工智能在相关领域得到充分应用，教育领域也逐渐意识到人工智能的重要性。将人工智能引入到课堂实践教学中，通过获取研究学习者的课堂学习行为，以改进教学资源与教学方法，从而提高教学质量与学习效果。本章在实际课程教学中采用相关设备与技术来获取学习者课堂学习行为数据并对其进行分析，教学内容为多媒体教学课件制作——按钮的学习。采用python3.7版本软件在GPU的高速平台上进行行为辨识模型的训练，然后运用基于卷神经网络算法进行数据分析，得到相关数据结果进行数据结果分析，对反馈结果在实际教学中做出调整以改进教学质量。进行学生课堂行为识别对课堂及教学评价具有重要意义。对于传统课堂模式，教师课堂上的精力有限，在授课的同时还要观察学生们的听课状态，这显然是不好实现的，教师不能同时兼顾很多学生，很难做到在专心授课的同时还要考察学生们的课堂状态，只能在与学生互动过程中观察学生的听课状态、表情行为、以便对自己教学效果进行评价。因此，需要教师经常观察学生的听课状态，才能对自己的教学行为进行反馈并及时调整教学方法，取得更好的教学效果，靠教师人工观察的方法十分的费时费力，也难以及时全面反映出课堂状况，这本身就不是教师教学的主要内容，再加之教师的精力问题，人工观察的方法是很难实现的。因此，需要人工智能介入课堂学生课堂行为识别分析中。

2.研究背景

国务院国家职业教育改革实施方案(国发〔2019〕4号)提出促进职业院校加强专业建设、深化课程改革、提高师资水平，全面提升教育教学质量及人才培养质量。通过对国内外课堂行为相关研究的学术史梳理，以及国内外主流数据库文献相关研究动态得知，国内关于高等教育领域的学生课堂行为研究很少。基础教育课堂行为研究主要采用主观报告和定性分析等研究方式，已有研究不适应于复杂的高等教育领域的学生课堂行为研究。本文将人工智能与教育教学研究相结合，对学生课堂行为进行客观量化分析，更好地服务于教育学领域。

本文依据国家相关发展规划，运用卷神经网络分析方法在课堂中开展实施，得到相关结论，以期为我国相关学生课堂行为识别研究提供一定参考。

3.相关研究现状

认真的表情和行为代表学生在课堂教学中是积极参与的，专注于教师的授课内容，能够跟上教师的教学进度并进行思考。学生的课堂状态还是要通过监控等设备捕捉课堂视频处理分析出来，如果学生表现出了消极的课堂状态，例如交谈、睡觉、玩手机等，可以解释为学生对当前的课堂内容感觉困惑甚至是厌烦，但是学生的课堂状态也是会随着课堂节奏变化而变化的，课堂上，学生的听课状态的动态性要求实时记录学生课堂行为的变化，才能分析出课堂中存在的问题，及时进行教学效果反馈。需要专业人员对课堂上录制的学生行为视频进行研究，对学生们的不同行为进行多样化分析，能够帮助教师调整教学方法，提高课堂上的教学效果。如何更高效地识别和分析学生课堂行为，这个问题已经引起了教育界广泛关注。
对于智慧化课堂建设，提高教学与听课质量，在此基础上，许多学者已作了大量的研究，并得出了许多结论。通过对教师行为分析，帮助教师进行教学评价与教学反思，从而推断学生的课堂参与度与课堂专注度，从而对教学效果进行评价。但是该方法也存在不足之处，对学生数量、学生人脸关键点进行检测，学生表情进行分类，但是对于小尺寸的人脸很难获得准确的面部信息。
典型的课堂行为分析方法S-T分析法，分别观察教师行为与学生行为，并分析两者之间的关联性，从而对教师教学方式做出调整改进，其中对学生行为的观察对本文有较大参考价值。贾鹂宇等人从情感识别的角度来判断学生的听课状况，吕方惠等人提出了利用卷积神经进行动态表情识别研究。但是，目前的研究也有其不足之处，即关注个体的行为，缺少对课堂学习行为的全面评价。现存方法还有许多，我们主要针对典型方法进行分析。

3.课堂行为识别定义

课堂行为是在课堂情境中的社会行为，它是课堂专注度的外在体现。学生的课堂行为反映学生的学习状态和学习效率，与课堂教学质量密切相关。目前课堂行为研究层次主要集中在基础教育、中等职业教育和基础研究(社会科学)方面。从现有的相关文献得知，国内集中在教师行为和师生互动行为的研究上，而对学生课堂行为的研究相对较少，研究最多的是关于学生课堂问题行为、学生课堂行为分类和学习行为的影响因素三个方面。课堂行为识别是在高速发展的信息技术时代中，运用云计算、大数据等先进技术来获取学习者在课堂中的学习行为数据，对数据进行质量性分析反馈以提高教学效果。

针对学生课堂行为类别的定义方法中，S-T分析法是目前比较成熟和常用的课堂行为分类方法，S-T分析法是一种基于学生（Student）和教师(Teacher）的课堂行为检测和统计的方法，也是对课堂教学过程与教学质量评价与反馈的一种分析方法。S-T课堂教学分析是指在一定的取样频率下，对一个教学过程进行观察或观看，再从一个特定的取样频率取样，再根据该取样的结果来判定该取样的行为是否来自于老师，并将其作为 S，T的对应符号记录下来。通过对学生行为进行分析，得出了学生行为占主导地位Rt师生行为转化率Ch，并绘制Rt-Ch图表，从而确定了课堂教学的方式。S-T分析的目标是获得教师在课堂上的行为和行为的数量分析，以及对学生的客观指导，以寻求改进教学的具体途径。ST分析只是针对课堂上教师行为与学生行为，仅划分为这两种类型。因此，虽然标记的数据种类较少，但是更容易计算并且获得正确的判断，受到判断者主观影响少，更容易判别出课堂的教学模式。视频全部来源于真实的课堂教学中，以30s为采样间隔截取课堂数据的图像样本，提高行为定义的客观性和可靠性，可以更好地改进教学模式，提高教学质量。S-T分析法的具体行为类别如表一所示。

S-T行为分类
行为主体	课堂行为分类
T行为	讲课、注意课堂动态、板书、提问、使用多媒体、走动观察学生
S行为	低头、睡觉、玩手机、认真听课

表一

将实际教学环境研究与S-T行为分析法深度结合，本章节以研究学生课堂行为为主，对学生（Student）的计算，记笔记和看黑板统一定义为认真听课。根据教学实际中出现的其他行为数据，最终确定了课堂行为中最具代表性认真听课积极行为，睡觉、玩手机和低头3种消极行为，共4种学生行为进行研究，这4种行为对于教师改进教学方式，学生调整听课习惯具有重要价值。

9.1.2数据描述和分析

1.数据描述

卷积神经网络是目前深度学习技术领域中非常具有代表性的神经网络之一，在图像分析和处理领域取得了众多突破性的进展，包括图像特征提取分类、场景识别等。卷积神经网络相较于传统的图像处理算法的优点之一在于避免了对图像复杂的前期预处理过程尤其是人工参与图像预处理过程，它可以直接输入原始图像进行工作。在行为辨识方面，主要包括动作识别，表情识别等以及目标辨识与姿态预测等。由于目前已有的大量数据集如 Mnist，ImageNet等，所以在进行学生课堂行为数据集构建时，首先要对经典数据集、中等规模数据集、深度学习数据集进行分析。经典数据集包含：KTH数据集、Weizmnn数据集；中等规模数据集包含： UCF101数据集、HMDB51数据集。以上为已经开发研究课堂行为识别数据，可用于本研究行为识别数据库且额外加强数据可信度。

以上数据集是比较成熟与常见的数据集，这些数据集拥有各自的特点，同时也存在一些不足。KTH和Weizmann作为行为辨识中使用率最高的数据库，在行为辨识方面发挥了重要的作用。当然，这两种资料库的限制也很明显，因为它们的背景很简单，不包括摄像机的移动，而且每个录像中都有一个人在进行一个动作，这和现实中的情况有很大的不同。UCF101的资料很多，种类也很多，不过这份资料主要是用来拍摄电影和照相机的，所以背景比较复杂，也有各种不同的场景。HMDB51数据集的数据量和种类都很多，不过这些数据都是用普通的摄像机和电影来制作的，所以这里的背景比较复杂，也有很多的移动和切换。这些数据集里面涉及到的动作用于研究学生行为不够全面，且面对的场景也有不符之处，因此，依照现有数据构建的方法采集学生课堂行为数据，构建学生课堂行为数据集。

1.1数据采集

数据类别分析完成之后将采用相关设备对教学活动全过程动态监测，采用摄像机与教室监控来对课堂全方位的记录学生的课堂学习行为。为了提高数据采集的品质，还原真实的课堂场景，数据采集环境选定在真实的教室环境，选择适合的教室。参考教室真实监控系统的采集数据角度，从三个角度进行数据采集，分别是左侧面，正面和右侧面对多名学生的4种行为进行录制，每名同学至少重复演示每种行为至少两次，不要求动作统一标准，为了增强数据的多样性，真实性和鲁棒性，不对学生的穿衣打扮，4类动作演示做任何要求，也不要求同学进行表情管理，以此来增加样本真实性，以确保最终网络训练的准确度。STU数据集不仅在数据方面具有可靠性与真实性。选择了索尼Alpha7III，它能以2420万的有效象素每秒10张左右的速度，精确的 AF/AE可以拍摄出260个时长为30分钟的视频。

1.2数据处理和去敏

为使原始数据更加丰富，本论文采用了数据增强技术来扩充学生行为数据集。丰富数据集所使用的的方法有两种，第一种是收集新的数据集，但是采集大量新的数据是非常困难的，会受到收集者的精力与人力资源的限制，导致采集的数据样本丰富性不够强。第二种方法是对已经采集到的数据进行数据处理与增强操作，利用图像处理对图像的某些特征进行强化，利用采集到的数据进行翻转，旋转等操作从而得到新的数据，这样操作也可以增强神经网络的泛化能力。将学生表现出的姿态、神情、动作等特征，通过CNN模型进行检测，判断学生上课专注度的高低。

首先，随机从学生课堂视频中截取图像帧，并且对图片进行相应处理;然后，使用CNN模型离线学习图像特征，构造深度特征提取器提取人脸图像特征，构建有监督地深度学习模型，通过在线微调训练人脸图像完成人脸识别任务；最后，对目标人脸面部特征进行检测，检测分析目标人物的眼睛、鼻子、嘴巴特征。将目标所在教室将所采集数据进行数据预处理，对于采集过程中对结果产生误导性数据进行处理，数据处理过程中需要使用大量数据处理设备，从而避免处理者的主观性行为对数据处理产生不可逆影响。由于每一张图像都是都是由像素组成的，RGB彩色图像是通过R，G，B三种颜色分量来定义图像中像素点的颜色，每个像素由RGB模型组成，RGB是由红，绿，蓝三原色组成，因此颜色分量基数是3个，RGB图像颜色变化范围就会很大，RGB模型中RGB每个值都是由0-255其中的一个值，一共有约一千六百万种颜色，在训练图像时计算量就会很大，将RGB图像进行灰度处理，以此来减少计算量。第一采用平均值方法：通过对三组颜色进行平均，得出一组不同颜色的光度，公式如下：
Gray(i,j)=R(i,j)+G(i,j)+B(i,j)/3

第二，最大值法：用三种颜色的最大值来表示灰度图的灰度，公式如下：
Gray(i,j)=max(R(i,j),G(i,j),B(i,j))

第三，分量法：以三幅图像的灰度值为三幅图像的灰度，可以按实际选择一幅图像。公式如下：
Gary1(i,j)=R(i,j)
Gary2(𝑖,𝑗)=𝐺(𝑖,𝑗)

Gary3(𝑖,𝑗)=𝐵(𝑖,𝑗)

第四，加权平均：根据三个要素的重要性和其他指标的权重。由于人类的眼睛对绿色的反应最为敏感，而对蓝色的反应最为敏感，因此利用下列公式对RGB三组分进行加权平均，可以得到较好的灰度图像，公式如下：
Gray(i,j)=0.299∗R(i,j)+0.578∗G(i,j)+0.114∗B(i,j)

1.3数据集制作

在教学过程中采取数据经过数据处理将生成由课堂行为分类而形成的数据结果，对数据结果再次分类集合，对数据集进行分类讨论。将研究对象的个人行为进行分析，并根据其自身的行为特征，设计出相应的数据集，并运用算法对其进行训练，并将训练后的模型用于具体的行为分类。首先，自建的数据集包含4类学生课堂行为，进行视频拍摄录制时，在不同的教室场景不同人物背景下录制包含4类行为动作的多个短视频。利用Python语言编写程序脚本，将视频按照一定帧数间隔解码成图片，对图片进行多轮的删减和挑选。其次将筛选出来的数据集图片用标签软件进行行为状态标注。数据集标注软件包含labelImg、RectLabel、OpenCV等，在这里本文采用labelImg数据集标注工具，因为该种方法标注后保存的文件格式为voc和coco格式，可以直接用于的行为识别网络中，避免训练数据之间的格式转变，减少错误出现,最后制作成一套完整数据集。如图：

2.数据结果分析

对所有采集数据经过处理得到最终数据结果，数据集分别被通过不同类别标记符进行标记和数据清洗来获得目标数据，将数据结果分别导入进行可视化分析得到相关需要结论。将采集数据的数据集进行处理，通过相关软件进行效度分析。对使用的卷神经网络方法进行综合性评价，其精确度展开调查分析，做出相关评价分析结果。对于视频中行为进行识别时，采用双流卷积神经网络中空间网络进行特征提取，这与它在图像识别中的作用相似，对单帧RGB图像进行识别。然而，视频人体行为动作识别的关键挑战是如何有效地获取和处理时间特征。如何获取和利用时间特征，已成为视频分类中的一个重要的课题，目前的解决方案可以分为两种，一个是在最终模型中使用能够提取时间特征的模型，另一种方法是添加一个额外的输入流，它可以使用卷积神经网络提取的时间特征。这种方法中的输入信息为光流图，它是一组图像，用来表示视频中物体与背景之间的相对运动，因此光流图像具有时间序列的特征。由于双流卷积神经网络有两个输入，传统的思想是训练两个独立的网络，一个处理RGB帧图像，另一个处理光流图像，将两个网络的识别结果融合起来，得到最终的行为识别结果。尽管双流卷积网络应用范围越来越广泛，在人体行为识别上要优于传统网络。

随着人们对于人体行为识别准确率要求的提高，传统的双流卷积神经网络越来越不能满足人们的需求，因此，研究者们尝试将注意力机制引入双流网络中，注意力在自然语言处理上最先被尝试，而后将注意力机制正式加入到双流卷积神经网络之中。在此基础上，本文以学生行为研究为基础，以一种本文所需的特有方式将注意力机制与双流卷积神经网络结合起来，利用空间与时间特征向量的权值进行自适应融合，该方法能更好的兼顾关键特征向量，忽略冗余信息，提高模型性能。

相关案例

案例：

案例选自科大讯飞在某中学开展学生行为识别方法运用实验，以促进该学校进行教学。实验环境为:硬件环境采用视频监控摄像机;软件环境采用深度学习实验平台，CPU为i7－5830K，内存为128 G，GPU为GTX1080，框架为Tensor Flow1.4，语言为Python3.6。

在案例中基于巨大规模人体动作和课堂教室及课桌分布类型数据训练，结合智能视频分析、神经网络和深度学习技术，依据人类身体18个关键点实时检测并捕捉人体姿态结果和运动方向，检测学生课堂出勤、听课、举手、起立、睡觉、随意走动、玩手机、互动、小组讨论和合作学习。随机选取50组学生在教室上课时的课堂视频序列。间隔5s左右随机采集学生上课时的课堂教学视频中的一帧图像进行人脸检测和人眼定位，计算学生上课时其眼睛张开时的眼球面积，结合通过CNN模型对学生上课时在课堂表现的神情、姿态进行是否认真听课的判断，最终得出被测学生在上课时的是否专注课堂学习的概率。在实验中学生进行课堂学习中，大多数的学生是抬头，眼睛张开度较大，神情较为专注，表示该学生在上课时专注课堂的概率较高，否则，则该学生在上课时专注课堂的概率较低。

设计基于CNN人脸识别模型的课堂行为分析算法，结合检测识别学生上课时的姿态、神情等，对被测学生在上课时的课堂专注行为进行研究，实现对人脸识别与人眼的定位，计算人眼张开度来判断学生在上课时专注课堂的概率，判断学生在上课时是否在认真学习，为教学质量评价提供客观量化的分析评测结果，同时基于CNN深度学习模型提升了人脸识别的准确率。

最后在案例中对结果分析：运用学生课堂行为分析方法开展课堂教学，在一定程度上学习者的学习状态得到提高。在实验过程中教师的关注度较少，对于学生的行为抓取较多，最后在分析过程中发现较多学生可以有意识的提高课堂集中力。

参考文献

[1]郑丹. 基于双流卷积神经网络的学生课堂行为识别研究[D].沈阳师范大学,2022.

[2]陈玥,李会会,韩嘉彬,陶鹏.基于卷积神经网络技术的大学生隐性消极课堂行为识别研究[J].太原城市职业技术学院学报,2020,(08):89-91.

[3]左国才,吴小平,苏秀芝,王海东.基于CNN人脸识别模型的大学生课堂行为分析研究[J].智能计算机与应用,2019,9(06):107-110.

[4] 刘锦峰. 基于卷积神经网络的学生课堂面部表情识别研究[J]. 高教学刊2020,(07):67-69.

[5] 虞菊花,常兴治,陶亚辉.程序设计类课程学生课堂行为数据采集系统的研究[J].现代职业教育,2021(32):67-69.

[6] Simonyan K, Zisserman A (2014). Two-Stream Convolutional Networks for Action Recognition in Videos[J]. Advances in neural information processing systems, 2014, 1.

[7] Ng Y H, Hausknecht M, Vijayanarasimhan S, et al (2015). Beyond Short Snippets: Deep Networks for Video Classification[C]// 2015 IEEE Conference onComputer Vision and Pattern Recognition (CVPR). IEEE, 2015.

[8] Wang L, Koniusz P, Huynh D Q (2019). Hallucinating Bag-of-Words and Fisher Vector IDT terms for CNN-based Action Recognition[J]. ICCV, 2019.

- 标签：
- 问题描述和定义
- 数据描述和分析
加入的知识群：
学习元评论 (0条)

聪明如你，不妨在这发表你的看法与心得 ~

登录之后可以发表学习元评论。

回复内容

匿名回复
不良信息举报

被举报人：姓名

被举报内容：内容

举报原因：违法色情暴力广告抄袭骂人其他

描述：

顶部

基于卷积神经网络的课堂行为识别分析

加入的知识群：

学习元评论 (0条)