-
人工神经网络和支持向量机
普通类 -
- 支持
- 批判
- 提问
- 解释
- 补充
- 删除
-
-
人工神经网络和支持向量机
教育数据挖掘方法与应用实验报告
姓名
欧阳晨飞
学号
202105720318
年级
2021级
专业
教育技术学(师范)
学院
教育科学与技术学院
实验一:使用人工神经网络处理pisa数据
-
二、实验工具
spss modeler18
-
三、实验原理
1、人工神经网络是一种受到生物神经网络启发的机器学习模型,用于进行数据分析、模式识别和预测。其原理基于神经元之间的信息传递和权重调整的概念。
人工神经网络的基本单元是神经元,它模拟了生物神经元的工作原理。每个神经元接收多个输入,通过加权和激活函数的处理产生输出。神经网络通常由输入层、隐藏层(可以有多层),和输出层组成。输入层接收原始数据,隐藏层进行特征提取,而输出层生成最终的预测或分类结果。每个连接都有一个相关联的权重,表示输入在神经元之间传递时的重要性。这些权重是训练过程中调整的参数,以使神经网络能够适应给定的任务。激活函数决定神经元的输出是否应该被激活,它们引入非线性性以使网络能够学习复杂的关系。数据通过网络从输入层传播到输出层的过程称为前向传播。每个神经元接收上一层的输出,将其乘以权重并通过激活函数产生输出。损失函数度量模型的输出与实际值之间的差距。训练过程的目标是最小化损失函数,通过调整权重来提高模型的预测准确性。反向传播是训练神经网络的关键步骤。它使用梯度下降算法,通过计算损失函数对权重的梯度,然后根据这些梯度来更新网络的权重,以减小预测误差。在训练过程中,模型通过反复迭代前向传播和反向传播的步骤来不断调整权重,以提高在训练数据上的性能。优化算法,如梯度下降,用于在权重空间中找到最小化损失函数的点。
-
四、实验步骤
1、导入并对数据进行清洗
2、将“导出”节点放置于数据流编辑区“导出”节点,将math1-10进行求平均数,代表学生数学成绩水平,命名为“平均成绩”
3、将“导出”节点放置于数据流编辑区,将“平均成绩”字段设置为标记型字段,并将其重命名为“成绩分类”,将true值修改为高,false值修改为低,将条件定为“平均成绩>=500”。
4、将“st012的字段”通过“导出”设置成家庭经济情况,同理将“st005”与“st006”字段导出为家庭教育情况,“st011”字段导出为教育环境。
5、将“类型”节点放置到数据流编辑区,将成绩分类字段设置为目标,并对部分变量进行删除。
6、将“分区”节点放置到数据流编辑区,将训练区分大小设置为70,将测试区分大小设置为30。
7、将“类神经网络”节点放置到数据流编辑区,选择定制字段,将“成绩分类”作为目标字段,并将“家庭教育情况”、“家庭经济情况”、“家庭学习环境”等作为变量,选择“多层感知器”
8、将“类神经网络”节点放置到数据流编辑区,选择定制字段,将“成绩分类”作为目标字段,并将“家庭教育情况”、“家庭经济情况”、“家庭学习环境”等作为变量,选择“径向基函数”
-
五、实验结果
流程
1、多层感知器
2、径向基函数
-
六、分析与讨论
1、多层感知器模型与径向基函数模型
在正确率方面,多层感知器模型的预测整体正确率为75.7%,对于“低”的预测成功率为97.0%,对于“高”的预测成功率为11.6%;而径向基函数模型的整体预测正确率为75.1%,对于“低”的预测成功率为97.5%,对于“高”的预测成功率为7.3%。观察可知,两者整体预测正确率差不多,多层感知器模型略高;两者都是对于“低”的预测正确率更高,而“高”则都较低。
在预测变量重要性方面,多层感知器模型“家庭经济情况”的重要性最高达到0.32,“教育环境情况”为0.20,“家庭教育情况”为0.17,最小的是性别仅为“0.03”;径向基函数模型“家庭教育情况”的重要性最高达到0.27,“教育环境情况”为0.25,“家庭经济情况”为0.24,最小的是性别仅为“0.06”。观察可知两者对于相同的变量给予了不同的重要性,其中多层感知器模型重要性差异较大,径向基函数模型差异相对较小。但是,主要重要的因素是“家庭经济情况”、“教育环境情况”、“ 家庭教育情况”三个,同时性别都是最小的,重要性很低。
由预测变量重要性可得出:家庭的情况对于学生成绩有很大的影响,一般家庭更好的学生可以取得更高的成绩;性别对于数学成绩的影响较小,因此男生女生都可以学好数学,二者几乎不存在差别;综合来看,家庭给予学生的学习环境对学生的成绩最大,因此要注意学生学习环境的建设。
-
七、总结或个人反思
首先,人工神经网络可以处理各种类型的数据,包括数值型、分类型和文本型数据。不同类型的数据需要采用不同的神经网络结构和算法来进行处理和优化。
其次,人工神经网络需要大量的数据和计算资源进行训练和优化。在实际应用中,我们需要收集足够多的数据,并进行数据清洗和预处理,以保证神经网络模型的准确性和鲁棒性。此外,我们还需要选择合适的计算设备和算法来进行模型训练和优化,以提高模型的效率和精度。
然而,人工神经网络也存在一些问题和限制。首先,由于神经网络模型的复杂性,我们很难解释和理解模型的内部运作机制。这给模型的可信度和安全性带来了一定的挑战。其次,神经网络模型需要进行不断的更新和优化,以适应新的数据和场景。这也需要我们不断地迭代和调整模型,以保持模型的有效性和稳定性。
最后,人工神经网络是一种强大的工具,但并不是万能的。在实际应用中,我们需要根据具体的问题和场景,综合考虑各种因素,选择合适的算法和技术来处理数据。
-
-
- 标签:
-
加入的知识群:
学习元评论 (0条)
聪明如你,不妨在这 发表你的看法与心得 ~