• 回归分析或Logistics回归

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 对PISA数据进行回归分析或者Logistics回归(张亦瑄)









    教育数据挖掘方法与应用实验报告

    姓名

    张亦瑄

    学号

    202105720433

    年级

    2021

    专业

    教育技术学(师范)

    学院

    教育科学与技术学院



    实验:对pisa数据进行logistics回归

    • 一、实验目的
    1. 理解logistic回归:通过实验了解logistic回归模型的基本概念和应用。

    2. 分析pisa数据:利用logistic回归分析pisa数据集,探究不同因素对学生学习成果的影响。

    3. 数据处理能力培养:提升数据处理、模型构建和结果解释的能力,为实际应用做准备。

    4. 增强理论与实践结合:通过亲自动手操作数据和应用模型,将理论知识转化为解决实际问题的能力。

    5. 掌握专业软件工具:学习和掌握用于logistic回归分析的统计软件或编程语言,增强实际操作能力。

    • 二、实验工具

    ibmspss modeler

    • 三、实验原理

    logistic回归是一种广义线性回归模型,用于处理分类问题,特别是二分类。它通过链接函数(通常是对数几率函数)将线性预测值映射到概率空间。模型的显著性和参数的重要性通过对数似然比检验、hosmer-lemeshow检验和wald统计量进行评估。这些统计测试共同确保模型的可靠性和各变量的贡献度,对于构建准确且可解释的分类模型至关重要。logistic回归通过函数lw’x+6对应一个隐状态pp=l(w’x+b),然后根据p1-口的大小决定因变量的

    回归方程的显著性检验有对数似然检验、hosmer-lemeshow检验。对数似然检验用于假设没有引入任何解释变量的回归方程的似然函数值为l0,引1入解释变量之后,回归方程的似然函数为l1,则似然比为lo/l1比值越接近1,表明模型中的解释变量对模型整体没有显著贡献,反之则表明有显著贡献。hlosmer-lemeshow检验:如果模型整体显著,则实际值为1的样本对应的概率较高,而实际值为。的样本对应的预测概率相对较低。依据列联表得到卡方值和p,通过比较p值和给定的显著性水平就可以判定回归方程是否整体显著。回归系数的检验wald统计量:wald检验的原假设为bi0wald统计量在原假设得到满足的前提下,服从一个自由度为1的卡方分布,spss將自动计算wald统计量及其对应的概率p值,通过比较第jwald统计量对应的p值和给定的原显著性水平就可以判定第j个回归系数是否显著,当口值小于给定的显著性水平时,则认为第j个回归系数不为0,否则认为第j个回归系数显著为0



    • 四、实验步骤
    1. 从“源”中拖拽出“statistics 文件”到数据流编辑区,并编辑数据。设置数据节点属性,在“过滤器”选项中,过滤掉“cntstuid”字段和“pv1math”-“pv10math”11 个字段。

    1. 从“字段选项”选项卡中拖拽“导出”节点到数据流编辑区,建立连接,建立好如图数据流,并编辑“导出”节点,在导出字段框中输入 mathclass,选择导出为标记,在 true 值框中输入“高”,false值框中输入“低”,并点击公式编辑器按钮,在弹出的表达式构建器中输入“math>=330”

    1. 选择“字段选项”选项卡,拖拽“类型”节点到数据流编辑区。将“类型”节点与“导出”节点建立连接,右键并对其进行编辑,将“math”字段的角色设置为“无”,“mathclass”字段的角色设置为“目标”其余字段设置为“输入”

    1. 从“字段选项”选项卡中拖拽“分区”节点到数据流编辑区,与“类型”节点连接,并右键编辑参数,设置 70%的数据用作训练,30%的数据用作预测。

    1. 建立如图所示数据流,从“建模”选项卡拖拽“logistic”节点到数据流编辑区,与“分区”节点建立连接,并进行属性的设置,在“模型”选项卡中选择“二项式”,并将性别字段输入,在“专家”选项卡中选择“分类图”“hosmer-lemeshow 拟合度”以及“expb)的 ci%)”。运行即可得到结果。

    • 五、实验结果

    运行结果

    成绩低的值赋为0,成绩高的值赋为1

    如图为分类变量编码效果,七年级赋值为(10000)可以此类推。

    方程中的变量表格结果如图所示,可见只有常数项纳入了模型的结果,且显著性为0.000< 0.05,即存在显著性差异。

    模型系数的omnibus检验结果如图所示,似然卡方检验的观测值为738.442,自由度为21,显著性值为0.000<0.05,认为所有回归系数不同时为0,输入的变量与logitp 之间的线性关系是显著的,由此可得该模型是合理的;

    从模型摘要表中可得,-2对数似然值较大,该值越小说明模型的拟合度越好,因此该模型的拟合优度并不理想,而考克斯-斯奈尔r方和内戈尔科r方的值越大越好,而实验数据较小,也同样证明该模型的拟合优度并不理想。

    霍斯默-莱梅肖检验的结果如图所示,显著性值为0.375>0.05,不存在显著性,说明该模型拟合程度较差。

    霍斯默-莱梅肖检验的列联表结果如图所示,从表格中可以清楚的读取每一组的实测值与期望值,因此可以直观进行比较,更好地判断模型的优劣。

    方程中的变量相关参数的值如图所示:以性别为例,本例中以变量的第一个值为参照对象即以性别女为参照对象,则男生成绩高的概率是女生的0.583倍,且显著性值为0.000<0.05,结果显著;以年级为例,第一个值为1即七年级为参照对象,则十二年级的学生成绩高的概率是7年级的0.136倍,且显著值为0.048<0.05,结果显著。

    • 六、分析与讨论

    在进行logistic回归分析后,得出一系列关于影响学生数学成绩高低的重要结论:

    预测变量重要性排序:

    通过分析预测变量的重要性,发现对学生数学成绩的影响按重要性从高到低排序如下:年级、书籍、书桌、性别、房间、父亲学历、母亲学历、联网、教育软件、电脑。这表明学生的年级是最重要的因素,其次是与教育相关的物品和性别。

    成绩编码:

    将成绩高低分别编码为10,以便进行logistic回归分析。这种编码使得能够比较不同因素对学生成绩的影响。

    模型拟合度:

    分析模型拟合度的结果显示,模型中只有常数项具有显著性,而其他变量的显著性较低。这表明模型在解释学生成绩方面并不理想。考克斯-斯奈尔r方和内戈尔科r方的值也相对较小,进一步表明模型的拟合度有待改进。

    omnibus检验:

    omnibus检验结果表明,回归系数不同时为0,而且输入的变量与logitp之间的线性关系是显著的,这表明模型是合理的,但并不一定适用于数据。

    霍斯默-莱梅肖检验:

    霍斯默-莱梅肖检验的结果显示,模型的拟合程度较差,因为显著性值为0.375,大于0.05。这意味着模型不能很好地拟合实际数据。

    变量相关参数:

    分析变量相关参数的值时,以性别和年级为例,男生成绩高的概率是女生的0.583倍,且具有显著性,而十二年级学生成绩高的概率是七年级的0.136倍,同样具有显著性。这些结果提供了有关不同因素如何影响学生成绩的详细信息。

    通过logistic回归分析,确定了影响学生数学成绩的关键因素,并发现模型的拟合度有待改进。这些结论为进一步研究和改进教育体系提供了重要的参考信息,以帮助学生取得更好的数学成绩。



    • 七、总结或个人反思

    在这项实验中,我进行了一系列与logistic回归分析相关的工作,探究影响学生数学成绩的关键因素

    通过这次实验我发现数据质量至关重要在进行回归分析之前,数据的质量和准确性是关键。在今后的研究中,我更加注重数据的收集和清理过程,以确保分析的可靠性。

    这次实验提醒我模型选择和拟合度的重要性。在面对复杂数据时,选择合适的模型以及对其进行充分的评估至关重要。分析结果的解释对于研究的实际应用至关重要。我会努力提高我的数据解释能力,以更好地传达研究发现。

    这个实验是一个学习的过程,让我对logistic回归分析有了更深入的理解。我将继续学习和提高自己的分析技能,以更好地为我的工作提供支持。

    这次实验为我提供了宝贵的经验,使我更好地理解了数据分析的复杂性和挑战。我将积极运用这些经验,不断提高自己的技能,以更好地为教育事业提供支持和指导。



    • 标签:
    • PISA数据
    • 回归分析
    • Logistics
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部