• 人工神经网络和支持向量机

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 实验三:人工神经网络和支持向量机

    教育数据挖掘方法与应用实验报告

    姓名

    宣申奥

    学号

    202105720240

    年级

    2021

    专业

    计算机科学与技术(师范)

    学院

    教育科学与技术学院

     

     

    实验三:人工神经网络和支持向量机

    一、实验目的

    本实验旨在利用人工神经网络和支持向量机对PISA数据进行深入分析。PISA是经济合作与发展组织(OECD)开展的一项国际学生评估项目,旨在比较各国学生在数学、科学、阅读和问题解决能力等方面的表现。通过应用这两种机器学习方法,我们期望能更好地理解数据中隐藏的模式和关系,为教育政策制定者和实践者提供有价值的洞见。

    二、实验工具

    本实验采用SPSS Modeler软件作为主要分析工具,利用其强大的决策树分析功能,对PISA数据进行深入挖掘。

    三、实验原理

    SPSS modeler软件是一款专门用于数据挖掘的软件,操作界面通俗易懂,设置的挖掘参数方便快捷,建立的模型分析结果可靠。

    本实验所使用的PISA数据集包含了全球多个国家的学生评估数据。数据集包含了各种不同的变量,如学生的数学成绩、科学成绩、阅读成绩、问题解决能力,以及学生的性别、年龄、家庭背景等信息。这些数据为我们提供了宝贵的机会,去探索和理解影响学生表现的各种因素。

    人工神经网络是一种模拟人脑神经元网络结构的计算模型。它由多个神经元组成,每个神经元接收输入信号并产生输出信号。通过调整神经元的连接权重和偏置项,人工神经网络能够自适应地学习和预测新的数据。在本实验中,我们使用多层感知器(MLP)作为我们的神经网络模型。

    支持向量机(SVM)是一种基于统计学习理论的机器学习算法。它的基本思想是将原始数据映射到高维空间中,使得在高维空间中更容易划分数据。SVM的优点在于它能够有效地处理线性可分和非线性可分的数据。在本实验中,我们使用线性SVM和非线性SVM两种模型进行实验。

    四、实验步骤

    1)导入数据

    PISA数据为sav格式,导入时选择源中的statistics文件。

    2)数据预处理

    对数据进行清洗、整理和转换,确保数据格式符合SPSS Modeler要求。这部分与实验一的内容相似,这里就不再赘述。

    在成绩等级中,导出字段类型为名义。平均成绩的分布在146.880 - 783.743之间,所以我们将成绩划分为四个等级。

     

    3)特征工程

    尝试将单次考试成绩与平均值进行比较,如果学生成绩高于平均值,则标记为1

     

    4)数据分析:

    选择绘制直方图,根据成绩波动字段,选择该字段作为绘制直方图的变量。

    通过直方图对成绩波动进行分析,可以得出以下结论:

    1.等级为B的同学成绩基本布于平均值上方且成绩波动不明显,说明他们普遍表现较好,且水平较为稳定。

    2.等级为C的同学成绩波动分布不均,其中波动计数为2的人数基数最大,其余分布情况较为均衡,相较于等级为B的同学没有固定的波动趋势,说明他们在学业方面有很大的提升空间,尤其是波动较大的同学,是有很大的机会在阶段性的测试中明显提升考试成绩。

    3.等级为D的同学基本呈现波动计数为1,说明这一部分学生学业情况较差,且当前综合水平较为固定,提升学业成绩的困难程度也最高。

     

    5)建立模型

    使用SPSS Modeler软件,依次建立人工神经网络和支持向量机模型。设置合适的参数和网络结构。将数据集分为训练集和测试集,进行模型训练和验证。通常,70-80%的数据用于训练,20-30%的数据用于测试。

    1.建立人工神经网络模型:

    SPSS Modeler的主界面,选择“预测”节点,然后选择“神经网络”作为预测方法。调整神经网络的参数,例如隐藏层数、每层的神经元数等,以优化模型的性能。

     

    2.建立支持向量机(SVM)模型:

    SPSS Modeler的主界面,选择“预测”节点,然后选择“SVM”作为预测方法。调整SVM的参数,如C值和gamma参数,以优化模型的性能。

     

    3.模型训练和验证:

    使用训练集对人工神经网络和SVM模型进行训练。使用测试集对训练好的模型进行验证。查看模型的性能指标,如准确率、召回率、F1分数等,以评估模型的性能。

    4.模型优化与评估:

    根据模型的验证结果,调整模型参数和网络结构,以优化模型的性能。确保所有节点连接正确,并且工作流程没有错误。使用优化后的模型对新的数据进行预测。分析预测结果。

     

    五、实验结果

    图片无法上场......

     

    六、分析与讨论

    1)成绩波动直方图分析:

    通过直方图对成绩波动进行分析,可以得出以下结论:

    1.等级为B的同学普遍表现较好,且水平较为稳定。

    2.等级为C的同学在学业方面有很大的提升空间,尤其是波动较大的同学,是有很大的机会在阶段性的测试中明显提升考试成绩。

    3.等级为D的同学学业情况较差,且当前综合水平较为固定,提升学业成绩的困难程度也最高。

    根据成绩波动的直方图分析提出如下意见:

    1.维持A级学生的良好状态,继续给予他们适当的鼓励和引导,让他们保持稳定的学习状态。

    2.促进B级学生向更高的水平发展,可以通过加强学习指导和辅导,提高他们的学习效率和学习成果。

    3.重视C级学生的发展,特别是对于那些波动较大的学生,可以通过提供个性化的学习计划和辅导,帮助他们找到自己的学习方法和提高学习效率。

    4.牢抓D级学生,尽可能地帮助他们找到学习困难的原因,并提供必要的支持和帮助,让他们能够逐步提高学习成绩。

    2)比较人工神经网络和支持向量机

    人工神经网络和支持向量机在成绩波动预测方面均取得了一定的效果。综合考虑准确率、召回率、F1值等指标,可以得出哪种算法更适合该数据集的分析。

    1.原理和建模能力:

    人工神经网络:通过模拟神经元之间的连接和信息传递来建立模型。可以进行非线性建模,适用于复杂的数据模式和关系。

    支持向量机:通过寻找最优超平面来分离不同类别的样本。可以处理线性可分和非线性可分的问题,通过核函数可以将样本映射到高维空间进行非线性建模。

    2.特征学习和表示能力:

    人工神经网络:具有较强的特征学习和表示能力,通过多层次的非线性变换可以学习和提取复杂的特征表示。

    支持向量机:依赖于事先定义的特征表示,对输入特征的质量和选择较为敏感。可以通过核函数来引入非线性特征。

    3.模型复杂度和拟合能力:

    人工神经网络:参数较多,具有较高的模型复杂度和拟合能力,可以更好地适应大规模和复杂的数据集。

    支持向量机:参数较少,具有较低的模型复杂度,对于小样本数据集或具有较少特征的问题表现较好。

    4.鲁棒性和泛化能力:

    人工神经网络:对于噪声和异常值比较敏感,容易过拟合训练数据。需要进行适当的正则化和调参来提高泛化能力。

    支持向量机:对于噪声和异常值具有较好的鲁棒性,通过间隔最大化的原则可以提高泛化能力。

    5.可解释性:

    人工神经网络:由于其复杂的结构和参数,较难解释模型的决策过程和特征权重。

    支持向量机:通过最优超平面和支持向量可以提供较好的可解释性,可以解释样本分类的决策边界和支持向量的重要性。

    3)比较SVM-类神经网络和类神经网络-SVM

    两种常见的模型组合方法,用于提高分类或回归任务的性能。

    1.SVM-类神经网络:

    首先使用支持向量机(SVM)进行分类或回归任务,利用其在高维空间中寻找最优超平面的能力来有效地分离不同类别的样本。SVM的输出结果作为类神经网络的输入特征,提供了一个相对稳定和更容易分类的特征表示。类神经网络可以进一步学习这些特征,并在更高级别上进行建模和分类。

    好处:SVM通过优化超平面的方式能够较好地处理线性可分和非线性可分的问题,提供了较好的分类效果。类神经网络可以进一步学习和提取更多的特征信息,对复杂的数据模式进行建模。SVM提供的特征表示相对稳定,有助于减少类神经网络中的过拟合问题。

    2.类神经网络-SVM

    先使用类神经网络进行初步的特征学习和建模,通过多层次的非线性变换来学习和提取复杂的特征表示。类神经网络的输出结果作为SVM的输入特征,SVM作为后续的分类器进行分类任务。SVM可以利用类神经网络学到的特征进行分类,充分利用非线性特征和复杂模式的信息。

    好处:类神经网络在学习和提取特征方面具有较强的能力,可以处理复杂的数据模式。SVM作为后续的分类器,可以利用类神经网络提取的高级特征进行分类任务,提高分类的准确性。类神经网络-SVM的组合可以综合两种模型的优势,提高整体模型的性能。

    七、总结或个人反思

    可进一步改进和研究的方向:

    根据实验结果和分析,提出改进人工神经网络和支持向量机模型的方法。探索其他机器学习算法或混合模型的应用,以提高成绩波动预测的准确性和可靠性。进一步研究成绩波动的影响因素,探索更深入的数据挖掘和分析方法。

    在未来的研究中,我们可以进一步探索其他影响因素,如学校环境、教师质量等与学生表现之间的关系。此外,我们还可以利用更复杂的机器学习模型和技术,如深度学习、强化学习等,以更精细的方式理解数据中隐藏的模式和关系。这将有助于我们更好地为学生提供个性化的教育支持,促进全球教育质量的提升。

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部