-
实验二 教育数据挖掘方法与应用实验报告(熊炀璐)
普通类 -
- 支持
- 批判
- 提问
- 解释
- 补充
- 删除
-
-
实验二 教育数据挖掘方法与应用实验报告(熊炀璐)
《教育大数据分析综合实验》实验报告
教育数据挖掘方法与应用实验报告
姓名
熊炀璐
学号
202105720330
年级
2021级
专业
教育技术学(师范)
学院
教育科学与技术学院
实验二:pisa数据的决策树分析
-
实验目的
通过spssmodeler软件来对于pisa数据进行决策树分析实验,旨在探索影响学生数学学业表现的关键因素,深入了解对学生数学成绩影响最大的因素,并为教育决策者提供有针对性的信息和建议,以改善教育质量、促进学生的数学学习和发展。这将有助于建立更公平、有效的教育体系,提高学生的数学素养和竞争力。具体实验目的包括:
1.优化教学方法
通过确定对学生数学成绩影响最大的因素,教育决策者可以针对这些因素制定更有效的教学方法。例如,如果发现家庭背景对数学成绩的影响较大,教育机构可以采取措施提供更平等的学习机会,如提供额外的辅导和资源支持。
2.个性化学习
决策树算法可以帮助我们识别出不同学生群体之间的差异和特点。通过了解哪些因素对学生数学成绩的影响最大,教育机构可以实施个性化学习计划,满足学生的不同需求和学习风格,以提高数学学习的效果。
3.提高教育公平性
通过分析pisa数据并确定对数学成绩影响最大的因素,可以帮助教育决策者识别和解决教育不平等问题。例如,如果发现经济背景对数学成绩的影响较大,政府可以采取措施改善家庭经济状况较差学生的学习条件,以提高他们的数学成绩。
4.预测学生表现
基于决策树模型,我们可以预测学生的数学成绩。这对学校、家长和学生本人都非常有用,可以帮助他们了解自己的潜在能力和发展方向,并采取相应的学习措施。
5.促进国际比较
pisa是一个全球性的评估计划,通过分析pisa数据并确定对学生数学成绩影响最大的因素,可以帮助我们了解不同国家和地区之间的教育差异。这有助于促进国际比较和借鉴,推动教育改革和发展。
6.增强数据分析能力
使用modelerspss软件的决策树算法对pisa数据进行挖掘需要一定的数据分析和建模技能。通过实践和探索,可以增强数据分析和建模能力,提高数据驱动的决策能力。
7.推动教育研究
pisa数据是一个重要的教育研究资源,通过分析pisa数据并确定对学生数学成绩影响最大的因素,可以促进教育研究和理论探索。这将有助于推动教育科学的发展和进步。
8.促进教育改革
通过分析pisa数据并确定对学生数学成绩影响最大的因素,可以帮助教育决策者更好地理解教育问题和挑战。这将有助于推动教育改革、提高教育质量和效果。
9.丰富教育评估
使用modelerspss软件的决策树算法对pisa数据进行挖掘可以丰富教育评估工具和方法。通过结合数据分析和建模技术,可以更准确地评估学生学习成果。
-
二、实验工具
ibm spssmodeler 18.0软件。
-
三、实验原理
决策树算法的目标是建立分类或回归模型,因为其输出结论的展示方式类似一棵倒置的树,所以称为决策树。决策树属于数据挖掘中的有指导学习算法,它要求参与建模的变量包括:作为输入角色的输入变量,以及作为输出角色的输出变量且输出变量在现有数据上已知。
使用modelerspss软件的决策树算法对pisa数据进行挖掘的实验原理是通过数据准备、特征选择、决策树构建、模型评估和调优等步骤,利用决策树模型对学生数学成绩进行预测和解释。这样可以揭示出最相关和最具预测能力的特征对学生数学成绩的影响,并为教育决策提供有价值的信息和建议。具体实验原理如下:
1.数据准备
首先需要获取和准备pisa数据,确保数据的完整性和准确性。这可能涉及数据清洗、数据转换和缺失值处理等步骤,以保证数据的可靠性和可用性。
2.特征选择
在pisa数据中,可能包含大量的特征变量,决策树算法需要选择最相关和最具预测能力的特征来构建决策树模型。特征选择可以通过统计方法、信息熵、基尼系数等方式进行,以确定哪些特征对学生数学成绩影响最大。
3.构建决策树模型
在特征选择完成后,使用modelerspss软件的决策树算法可以根据选择的特征变量构建决策树模型。决策树是一种基于树形结构的分类和回归算法,通过划分数据集并生成决策规则来预测目标变量,即学生数学成绩。
4.模型评估和调优
构建决策树模型后,需要对模型进行评估和调优。这包括使用交叉验证方法评估模型的性能,调整决策树参数和剪枝操作以提高模型的泛化能力和预测准确性。
5.模型应用和解释
完成模型评估和调优后,可以使用该决策树模型对新的pisa数据进行预测和解释。根据学生的特征变量,决策树模型可以给出相应的预测结果,并且可以根据决策树的结构和规则解释预测的原因和依据。
6.决策树c5.0
决策树c5.0算法是一种基于决策树的分类和回归方法,其原理是通过递归地将数据集划分为更纯的子集,从而构建出一棵决策树。它采用信息增益比作为划分标准,以避免决策树对可取值数目多的属性有所偏好,并且在构建过程中能够处理连续属性和缺失值。c5.0算法还提供了剪枝策略,以防止过拟合,并能够生成规则集,使得模型更加易于理解和应用。
7.决策树cart
决策树cart(classificationand regressiontrees)算法是一种基于树结构的机器学习算法,用于分类和回归任务。cart算法的核心原理是通过递归地将数据集划分为更纯的子集来构建决策树。在cart中,每个节点都表示一个特征和阈值的组合,用于将数据子集划分为两个或更多的子集。cart算法使用基尼不纯度或误差平方和等度量标准来选择最优划分特征和阈值,以最小化划分后的子集的误差。通过不断递归划分,cart算法最终生成一棵完整的决策树,可以用于分类或回归任务。cart算法具有生成简单、可解释性强的优点,并且在实践中表现优异。
8.决策树chaid
chaid(chi-squareautomaticinteraonteon)是一种常用的决策树算法,它于分类问题和回归问题。优点是可以处理离散型和连续型的变量,能够择最佳的划分变量,并且可以进行显著性测试。有可解释性和解。然而aid算法对于高纬度和大规模数据集可能不太适用,并且对于异常值和噪声比较敏感用过程中,还需要根据具体情况选择适当的件和参数设置。
-
四、实验步骤
1.c5.0决策树算法
1.1导入sav文件,进行目标变量的设置和数据预处理,下图是我在第一次作业的时候进行相关数据预处理。
1.2进行分类变量的处理,因为决策树c5.0只能进行分类变量的分析,而数学总分是一个连续变量。所以要把连续性的编程分类型的。
1.3设置角色,将数学成绩总分设置为了目标变量,数学总分设置为无。
1.4训练集和测试集的设置,训练分区80%,测试集20%。结果如下。
1.5拖出一个c5.0,并进行连接,可以看到图示发生了变化,c5.0已经转变成了mathclass的样子。
1.6进行c5.0的设置。
①字段设置:我们可以进行使用预定义角色,也就是我们刚刚已经进行了目标变量的设置。
也可以选择使用定制字段分析,而我们这里就选择使用预定义角色。
②模型设置:
使用分区数据就是我们刚刚进行的分区;
为每个分割构建模型就是可以把前面的变量编程分割,比如说性别就可以进行一个分割,然后会在性别的维度上进行细致的构建;
组符号就是会合并变量,精简决策树,减少分支;
使用boosting表示采用提示的方式建立模型,提高模型预测的稳健性;试验次数是迭代的次数;
交叉验证,是使用交叉验证的方法进行模型的建立;
简单模式就是采用软件默认的参数,专家模式可以去进行设置;
支持中的准确性,支持高预测精度为原则进行参数设置,可能会导致过拟合;
支持中的普遍性,决策树相对较小,减小了对数据的过度依赖;
预测噪声,不是完整的数据可以指定,10的话就是指明这个数据集里面不是完整数据在10%以内是可以做的,大于10%就不能做了。
选择专家模式,修建严重性,表明置信度是75%;
每个子分支的最小记录数表示每个节点允许的最小样本量;
③分析:输入输入变量重要性的一个指标;
计算原始倾向评分是指每个样本观测给出预测值为真的概率,这个概率是训练样本集给出的;
计算调整倾向评分,是指每个样本观测给出预测值为真的调整概率,测试样本集或验证样本集给出。
1.7点击运行,查看分析结果。
-
实验结果
1.决策树c5.0
①决策树概览图
②模型界面
2.cart算法
2.1创建相关内容,因为cart是可以对于分类与连续的变量都可以进行分析的,我们是使用连续,然后分区设置为70、30。
2.2进行cart节点的设置
2.chaid算法
有三个特点:
①目标变量可以是分类型变量也可以是数值型变量;
②可以建立多叉树;
③从统计显著性检验的角度,确定当前最佳分组变量和最佳分割点。
我们选择了穷举chaid。
-
六、分析与讨论
1.决策树c5.0
①在albania国家中的七八年级,将全部预测为高,而在另一个国家unitedarab emirates会比较复杂。
阿尔巴尼亚(albania)和阿拉伯联合酋长国(unitedarab emirates,简称阿联酋)是两个不同的国家,它们在地理位置、文化、政治和经济等方面存在一些区别。
地理位置:阿尔巴尼亚位于欧洲东南部,东临希腊,南濒爱琴海,西邻黑山和科索沃,北界塞尔维亚和马其顿。而阿联酋位于阿拉伯半岛东南部,东临阿曼湾和波斯湾,西濒沙特阿拉伯,北界卡塔尔,西南与沙特阿拉伯接壤。
文化背景:阿尔巴尼亚是一个拥有悠久历史和独特文化传统的国家,其文化受到了南斯拉夫、东正教、伊斯兰教等影响。阿联酋是一个多民族、多宗教的国家,主要宗教是伊斯兰教,阿拉伯文化是其主要文化背景。
政治制度:阿尔巴尼亚是一个议会制共和国,政府由总统和议会组成。阿联酋是一个联邦制君主立宪制国家,由七个酋长国组成,总统是七个酋长国的最高统帅。
经济发展:阿尔巴尼亚是一个低收入国家,经济以农业、制造业和旅游业为主要支柱。阿联酋是一个高收入国家,以石油资源和金融服务为主要经济支柱,同时也发展了旅游、房地产和航运等行业。
人口和语言:阿尔巴尼亚人口约为280万,主要使用阿尔巴尼亚语。阿联酋人口约为1000万,由于是一个多民族国家,使用阿拉伯语作为官方语言。
总的来说,阿尔巴尼亚和阿联酋在地理位置、文化背景、政治制度、经济发展和人口语言等方面存在显著的区别。这些区别使得这两个国家拥有各自独特的特点和面貌,这也会导致学生的数学成绩发生不同的变化。
②在技术参考书(st011q11ta=1)有的情况下,父亲的学历(st007q01ta)有对于数学学业成绩会有影响,为3a以及没有通过1的预测为高。
③身体形象的分属不同,也会影响数学成绩高低。
自我认知和自信心:外貌好的人可能更自信,这种自信的状态可能促使他们在学习上更有动力和决心。同时,他们也更有可能对自己的能力有正确的认知,这有助于他们更好地应对学习上的挑战。
社交和情感支持:外貌好的人可能会从社交中获得更多的正面反馈和支持,这有助于他们保持良好的情绪状态,从而更好地应对学习压力。
④有没有自己的房间会极大程度地影响学生地数学成绩。
有没有自己的房间会极大程度地影响学生的数学成绩,这可能与学习环境和心理状态有关。
首先,拥有自己的房间可以为学生提供一个安静、舒适的学习环境,有助于集中注意力,提高学习效率。如果没有自己的房间,可能会受到家庭成员活动的干扰,从而影响学习效果。
其次,拥有自己的房间可以给予学生心理上的安全感,有助于减轻压力和焦虑,从而更好地应对学习挑战。如果没有自己的房间,可能会让学生感到不稳定和无助,影响学习动力和信心。
⑤除此之外,以下的这些因素也会对于学生的数学成绩产生影响:
如家中卫生间的数量、年级、家中车数、家中联网只能设备数量、有字典否、家中书籍数量、电脑数量、家中艺术品数量等因素都会影响学生的数学学业成绩。2.决策树cart
在cart模型中,重要性的依次排序是:
家里汽车数量、电视数量、智能手机设备数量、智能阅读器数量、年级、父亲学历、母亲学历、家里乐器数量。
3.决策树chaid
在chaid模型中,重要性的依次排序是:
家里藏书数量、家里汽车数量、电视数量、父亲学历、是否有字典、智能手机设备数量、母亲学历、智能阅读器数量。
-
七、总结或个人反思
1.总结
①国家/地区的发展程度会影响学生的数学学业水平,见分析与讨论1-①。
②父亲学历会影响学生的数学学业水平,见分析与讨论1-②、2、3。
③身体形象会影响学生的数学学业水平,可能来源自自信、自律与自爱的程度,见分析与讨论1-③。
④有没有自己房间会极大程度地影响学生的数学成绩,见分析与讨论1-④。
⑤家庭经济情况会影响学生的数学学业水平,见分析与讨论1-⑤、2、3。
⑥家庭文化氛围会影响学生的数学学业水平,见分析与讨论1-⑤、2、3。
⑦学生年级会影响学生的数学学业水平,见分析与讨论1-⑤、2。
⑧母亲学历会影响学生的数学学业水平,见分析与讨论2、3。
其中,家庭经济情况和文化氛围给学生带来的影响是最大的。
2.个人反思
ibmspss modeler18.0这款软件提供了强大的功能和工具,使得数据分析变得轻松而高效,让我觉得越来越顺利。我对软件的用户界面印象深刻,它设计得简洁明了,操作起来非常直观,我可以轻松导入和管理我的数据集,并利用丰富的数据预处理选项对数据进行清洗和整理。它也提供了广泛的数据分析算法和模型,我可以根据需求选择合适的算法,并通过简单的拖放方式构建分析流程。这种交互式的建模方式让我能够快速实现数据挖掘和预测分析,并获得准确的结果。软件还提供了丰富的数据可视化工具,帮助我将分析结果以图表和报告的形式直观地展示出来。这样不仅方便了我与他人分享我的发现,还让我更好地理解数据背后的模式和趋势,它简化了繁琐的数据分析流程,提高了我的工作效率,并帮助我做出准确的数据驱动决策。尤其是在进行本次决策树数据挖掘的过程中,我认识到了方便的工具给我们数据挖掘所带来的便利,三种决策树的分析方法各有特色,告诉我之后应该选择合适的方法进行数据分析和挖掘。
在决策树模型预测结果的解读上,我意识到自己仍有许多需要学习和实践的地方。对于所呈现的结果数据,我未能充分理解其背后所反映的内在逻辑关系,这导致我在分析时产生了一些偏差。因此,我必须继续深入思考,努力学习,不断提升自己的数据分析能力,以便更好地理解和解释决策树模型的预测结果。我认为,在今后要多多保持学习统计分析软件的习惯,来更好地准备自己的本科生课外科研立项项目,这其实是非常有意义的事情。
-
-
- 标签:
- 实验二 教育数据挖掘方法与应用实
-
加入的知识群:
学习元评论 (0条)
聪明如你,不妨在这 发表你的看法与心得 ~