• 基于联邦学习的个性化学习推荐技术的框架构建

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 摘要:

    近年来,个性化学习推荐技术是实现精准教学的关键性一步,该技术需要以大量的教育数据为支撑,但随着隐私泄露问题的凸显,如何在保护学习者隐私的基础上,使用来自多方的数据来提升个性化学习推荐的性能,成为智能时代亟待解决的问题。为此,文章引入了人工智能领域新兴的联邦学习概念,分析个性化学习推荐和联邦学习的研究现状,系统模型与训练过程,并将联邦学习与深度神经网络结合,以解决实现个性化学习推荐技术时,在教育数据挖掘中可能出现的隐私保护问题,分析基于联邦学习的个性化推荐技术的优势。研究发现,联邦学习方法能够从原理上保障数据隐私,且容易整合到现有的教育应用中;在保护隐私的基础之上,运用联邦学习能够最大程度地提高模型精确度。联邦学习将为教育的信息化与智能化发展开辟全新的路径。

    • 关键词:

    联邦学习;个性化学习推荐;技术框架

    • 一、引言

    2012年12月28日, 第十一届全国人民代表大会常务委员会第三十次会议通过了《关于加强网络信息保护的决定》, 以保护网络信息安全,保障公民、法人和其他组织的合法权益,维护国家安全和社会公共利益;2016年11月7日颁布的《中华人民共和国网络安全法》 中提出,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息;以及2018年8月31日通过《中华人民共和国电子商务法》, 规定电子商务经营者根据消费者的兴趣爱好、消费习惯等特征向其推销商品或者服务,应当同时向该消费者提供不针对其个人特征的选项,尊重且平等保护消费者合法权益。对数据监管趋势的严格化、全面化、密集化导致至少80%的企业存在数据孤岛现象,如何在不泄露数据隐私的情况下,实现数据共享成为一个问题 。在这种背景下,联邦学习顺势而生。数据拥有者训练本地模型随后上传更新的梯度至聚合服务端,聚合端将收集到的多份梯度聚合随后更新维护最终模型。之后将聚合更新过的模型再发送至各个训练参与方开始新一轮的训练。 通过这种方式避免了数据直接暴露且依旧能够利用隐私数据进行机器学习训练。个性化学习推荐需要以大量的学生学习数据为基础,传统的机器学习使这一过程面临学生数据泄露的危险,而联邦学习可以在保护数据隐私安全的基础上实现数据共享,为实现精准教学、安全教学,利用联邦学习实现个性化学习推荐功能十分有必要。

    • 二、文献综述

    2.1 个性化学习推荐研究现状

    个性化学习推荐是智能学习的一个研究领域,其目标是在学习平台上给特定的学习者提供有效的学习资源,从而提升学习积极性与学习效果。在国内外学者对个性化学习推荐领域的研究中,有以下两方面值得关注:

    1、一些学者结合学习者学习情况等相关因素对传统的协同过滤算法做出改进,以期取得更好的学习推荐效果。bobadilla等提出一种学习推荐算法new-cosine,该算法对每个学习者推荐的重要程度进行加权,提升学习成绩更好的学习者的推荐权重。dwivedi等构建一个信任感知网络学习推荐系统trcf-ls-kl,该系统结合学习者的学习风格、知识水平和不同学习者的信任度等方面对协同过滤算法进行改进。bourkoukou等提出一种基于改进协同过滤算法和顺序模式挖掘的学习模型cf-spm,该模型融合学习者的学习对象得分、学习时间和频率等以改进协同过滤算法,进而预测其他学习对象的得分,最后运用spm算法对学习内容排序后进行推荐。segal等提出联合协同过滤和社会选择理论的个性化学习推荐模型edurank,通过协同过滤计算得到待推荐学生的相似学生集合,并根据相似学生集合在不同学习内容的答题情况,对学习内容进行难度排序,最后向学生推荐排序后的学习内容。

    上述模型在实践中获得了不错的学习推荐效果,但仍然存在对学习者的学习情况相关因素挖掘不够充分和准确的共性问题,影响了学习情况相似度计算的准确性以及最终的推荐效果。因此,如何客观地挖掘和表征学习情况及其他相关因素,提高相似度计算结果的精确度,进而构建推荐效果更优的协同过滤模型,是值得进一步研究的方向。

    2、基于知识地图的学习推荐方法。这类学习资源推荐模式以知识地图为支撑,基于课程内容之间的内在联系进行学习资源推荐。zheng等构建一个以知识地图为中心的学习系统yotta,根据课程的知识结构特点及其逻辑关系创建知识地图,建立学习资源与知识单元的联系,根据学习者在不同知识单元中的学习情况推荐合适的学习资源。wang等提出一个基于知识地图的知识共享社区模型,该模型通过结合学习系统特性,基于知识地图引导学习者在社区中共享知识内容。李士平等提出使用颜色标记知识点及其之间的关系类型、协同共建资源、自动生成学习路径等促进自我导向学习的策略,论证了知识地图在自我导向学习中起到的积极促进作用。柯立秋提出一种基于知识地图的学习资源融合系统,该系统从知识元关联关系出发,结合学习资源相关标准,建立知识元与学习资源间的关联。

    上述基于知识地图的学习推荐模型存在一个明显缺陷:由于不具备对学习情况的预测功能,只能局限于在已有测试数据的学习范畴内进行知识点推荐,不能对其余知识点进行预测性推荐。该缺陷恰好可以通过协同过滤算法进行弥补,将知识地图融合运用于协同过滤学习推荐算法中,发展出一种具备高拓展性和准确度的学习推荐模型。

    2.2 联邦学习在教育领域的应用现状

    近年来,人工智能、大数据等技术在教育领域的研究已取得一定的进展,如zhang等人基于深度学习构建出一个适用于高等教育的智能教育系统框架,实现对学生的知识学习状况进行跟踪;liu等人提出了一种基于人工智能神经网络误差反向传播算法和压力测试的方法,来分析教师的教学态度、教学内容、教学方法等对大学生对知识的掌握和能力建设的影响;standen等人采用多模式传感器数据与机器学习算法相结合的方法,来识别与学习相关的情感状态,继而确定学习内容的呈现方式,从而使学习者保持最佳的情感状态,并最大程度地提高其学习速度。这些技术虽加快了教育智能化进程,但长期以来,教育工作者更期望能够建立一套跨学科的综合课程教学系统,而stem、自适应电子学习等系统缺少综合性学习体验,仅局限在单一或几个学科,不具全面性,无法针对学生学习能力和兴趣爱好等差异而实现定制化教育。

    为此,联邦学习可实现教育资源的整合,构建一个覆盖性全面的初始模型,通过整合学习者模型、课程知识等,并拓展延伸以适应于其他学习者,实现定制化教育。针对学生a、学生b、学生c不同的兴趣爱好,教育机构利用联邦学习技术,基于学生端移动设备(如智能手机、ipad以及笔记本电脑)所存储的数据,协同构建一个通用学习计划模型。其一般流程是由各学生端从教育机构下载初始化通用学习计划模型,用于本地模型训练,但因学生端不同设备而导致的设备异构性问题,可通过引入用户端-边缘端-云端分层联邦学习系统,允许多个边缘服务器执行部分模型聚合,用以减少模型训练时间、通信成本以及学生端设备的能量消耗其架构如图2-1所示。学生端将其模型参数发送给边缘服务器进行部分聚合后,由边缘服务器发送给云端服务器聚合;其次由云端服务器将聚合后的模型参数分发模型参数给边缘端;最后由边缘器发送给学生端用于其本地更新。因此,学生端可根据其自身特长、需求以及兴趣等进行本地模型更新,训练出定制化、个性化学习指导模型。

    2-1联邦学习在教育领域中的应用

    • 三、基于联邦学习的个性化学习推荐技术框架构建

    3.1联邦学习系统模型与训练过程

     

    3-1联邦学习系统模型

    联邦学习的系统模型由中央服务器与数据拥有者或参与者组成,如图3-1所示。中央服务器一般由发起联邦学习任务的公司、组织或研究者的私有云服务器或租用的公有云服务器承载。根据任务的不同,数据拥有者的类型可以是多样的。例如,当教育机构内部需要使用学生的教育数据训练模型时,数据拥有者就是存储教育数据的学生自有客户端如手机、电脑、平板电脑等移动设备。当教育机构之间借助各自存储的数据合作进行模型训练时,数据拥有者就是各机构的私有服务器。数据拥有者需于本地安装联邦学习相关的训练组件,一般而言,组件是与任务发起者提供服务的软件组装在一起的。参与联邦学习过程的数据持有者于本地存储数据需要经过一段时间的积累。如果没有积累足够的数据,就不能入选为参与者。数据拥有者需要通过以太网络或蜂窝网络与中央服务器连接与通信。

    3-2联邦学习训练过程

    训练过程主要包括以下三个步骤:

             步骤一:任务初始化。中央服务器决定训练的目标与任务,以及相应的数据要求,选定加密方式。之后,中央服务器确定全局模型的超参数与训练过程,并将初始化的全局模型参数wfl0传输给参与者。

    步骤二:本地模型训练与更新。参与者收到全局模型参数后,分别使用本地的数据训练本地模型mit,完成后将本地模型的参数wit进行加密并回传给中央服务器。

    步骤三:全局模型的聚合、更新与迭代。中央服务器收到各参与者回传的模型参数后,将参与者的模型参数求平均,更新全局模型mflt,再次传回参与者本地。如此重复第二至第三个训练步骤,推动全局模型迭代t轮,直至损失函数l收敛以尽可能地减少全局模型的精度损失。

    3.2联邦学习推荐技术框架

    使用传统的机器学习方法进行模型训练时,研究者需要收集大量的教育数据样本,集中进行数据处理来训练模型。在这一过程中,数据的收集、传输、存储、使用等环节都有可能造成数据泄露而侵犯隐私。而在联邦学习中,机器学习过程只在参与者的本地进行,不需要收集与传输数据,与中央服务器的通信内容仅限于加密后的参数,能够有效地保护参与者的隐私。几乎所有应用于教育领域的机器学习模型都可以使用联邦学习方法进行训练,为教育数据挖掘过程中的个人隐私保护问题提供有效的解决方案。在解决数据隐私问题的同时,联邦学习也能够最大化地保证机器学习模型的准确性。本文以基于深度神经网络的学习资源推荐为例说明使用联邦学习的方法与流程。

    3-3联邦学习在深度神经网络中的应用流程图

    1.原理

    深度神经网络具有多层人工神经网络,在图像识别、语音识别、文本识别等方面表现优异。在教育领域,深度神经网络的典型应用为构建学习资源推荐系统。研究者收集学习者于在线学习平台上留下的历史学习数据与个人信息,如学习类型、学习数量、学历、所处行业等,以及学习资源中包含的信息,从而为数据集训练模型。深度神经网络的另一大应用为通过对学生的人脸识别以及语音识别进行情感计算,分析学生上课时的专注程度、理解程度等,从而促使教师提高课堂教学质量,帮助学生提高学习效率。此类深度神经网络模型需要收集多视角的课堂录像,利用其中包含的大量图像数据与语音数据进行训练。图像、语音与文本数据中包含的信息、内容、情感都构成了参与者的隐私,若发生泄露,不仅威胁学习者的个人隐私安全,还可能产生侵犯肖像权、知识产权等法律风险。

    基于深度神经网络算法的学习资源推荐模型原理是利用深度神经网络提取学习者特征以及学习资源特征,将两者进行预测评分,根据评分值的大小向学习者推荐学习资源利用深度神经网络的特征提取环节都可以使用联邦学习方法,将计算过程分散至参与者本地以避免数据泄露。

    2.流程

    提取学习者特征的联邦学习深度神经网络流程如图3-1所示,中央服务器需首先确定网络结构与初始参数,参与者根据本地的学习情况数据对网络参数进行优化并传回中央服务器。提取学习资源特征的联邦学习深度神经网络流程与之相似,参与者可以是提供学习资源的机构或组织。

    3.参考测试结果

    有研究者利用fashion-mnist数据集对集中式与联邦学习式深度神经网络算进行了性能测试研究表明,集中式深度神经网络算法花费26.4秒进行模型训练,准确度达到87%联邦学习式深度神经网络算法由于征集大量参与者,总算力超过单一服务器,所以即使在通信具有时间开销的情况下,还是仅用16.75秒就完成模型训练,准确度为85.15%可见,联邦学习方法大幅提高了深度神经网络算法的效率虽然准确度有小幅损失,但在可以接受的范围内。

    • 四、基于联邦学习的个性化学习推荐技术优势

    4.1 与传统的个性化学习推荐相比的优势

    与传统的个性化学习推荐技术相比,基于联邦学习的个性化学习推荐技术能保障学习者隐私,防止教育数据泄露。研究者实现个性化学习推荐技术需要收集学习者于在线学习平台上的学习记录和个人信息,如学习类型、学习数量、学历、所处行 业等,以及学习资源中包含的信息,从而为数据集训练模型。通过对学生的人脸识别以及语音识别进行情感计算,分析学生上课 时的专注程度、理解程度等,从而促使教师提高课堂教学质量,帮助学生提高学习效率。这一过程需要收集多视角的课堂录像,利用其中包含的大量图像数据与语音数据进行训练。图像、语音与文本数据中包含的信息、内容、情感都构成了参与者的隐私,若发生泄露,不仅威胁学习者的个人隐私安全,还可能产生侵犯肖像权、知识产权等法律风险。应用联邦学习方法无需集中收集原始数据,也就没有后续的数据传输与公开共享等环节,能够在根本上解决数据挖掘中的隐私保护问题。

    其次,个性化学习推荐技术需要以大量的教育数据为基础,由于各种有关隐私保护政策文件的相继出台,企业与企业、企业与学校出现的数据孤岛现象难以解决,导致技术方无法得到数据或足够的数据,传统的个性化学习推荐在这种情况下难以实现。联邦学习使各参与方无需上传数据也就解决了数据安全的问题,打破了数据孤岛的现象。使技术方有足够的数据进行建模,需求方可以得到相应的产品,共同获利。

    4.2 对利益相关者的好处

    学生 教师 学校 教育技术研究人员、教育人工智能开发者 教育软件与硬件制造商
    保护个人隐私权 提升自身教学水平和专业水平 保障数据所有权 节约成本

    扩展收入来源

    表4-1

    各利益相关者也将从使用联邦学习方法的智慧教育中受益:(1)学生无需让渡隐私权,即可利用人工智能技术辅助学习。通过联邦学习能够产生高质量的模型,为学生提供更具针对性的学习辅助,以提高学习效率,增强学习效果。(2)教师可利用人工智能技术辅助教学,利用联邦学习方法汇集的教育经验与智慧以提升自身的专业知识与教学能力水平,积极探索基于技术的教学模式、教学评价方式等的创新。(3)学校等教育机构能够保全其教育数据的所有权与访问权, 保护 其学生的隐私,同时能够了解机器学习的任务目标,自主决定是否参与机器学习过程,减少与第三方合作时可能发生的数据滥用、数据泄露等问题。规模相对小的机构也能参与其中,而越多机构的参与就会产生越多有价值的数据集,反过来每个参与机构都能受益于更加全面与准确的全局模型。 (4)教育技术研究人员、教育人工智能开发者可以通过联邦学习访问大量实际数据,省去收集数据的步骤,节约大量时间和人力成本, 而更加专注于算法本身的研发和评估, 加速教育智能化的进程。 尤其规模小的实验室与初创教育企业在这一模式下能够快速成长。(5)教育软件与硬件的制造商可以利用联邦学习方法,在不涉及隐私的情况下获取可 用数据促使系统改进,优化产品设计,扩展收入来源。

    • 五、总结

    在大数据时代,教育人工智能技术发展对于教育数据的需求已经达到前所未有的水平。作为新兴的机器学习方法,联邦学习将为教育数据挖掘过程中的隐私保护问题提供解决方案:联邦学习通过把模型学习过程分布至各参与者本地的去中心化机器,将碎片化的教育数据连接起来,帮助研究者或开发者简单、高效地利用教育数据进行模型训练,能够在解决个人隐私保护问题的基础之上,充分发挥教育数据的价值。总体来说,联邦学习仍是一种正在蓬勃发展的方法,还有一些技术难题需要攻克,如联邦学习的鲁棒性、通信效率等问题亟待研究。但毫无疑问的是,联邦学习将成为未来人工智能领域的重要发展方向,为教育的信息化与智能化发展开辟全新的路径。

    • 参考文献

    [1]李少波,杨磊,李传江,张安思,罗瑞士.联邦学习概述:技术、应用及未来[J].计算机集成制造系统,,:1-29.

    [2]吴正洋,汤庸,刘海.个性化学习推荐研究综述[J/OL].计算机科学与探索:1-23[2022-01-06].https://kns-cnki-net.webvpn.jsnu.edu.cn/kcms/detail/11.5602.tp.20210923.1758.004.html.

    [3]梁天恺,曾碧,陈光.联邦学习综述:概念、技术、应用与挑战[J/OL].计算机应用:1-13[2022-01-05].http://kns.cnki.net/kcms/detail/51.1307.TP.20211231.1727.014.html.

    [4]李浩君,张征,郭海东,王旦.深度学习视角下的个性化学习资源推荐方法[J].现代远程教育研究,2019,31(04):94-103.

    [5]陈兵,成翔,张佳乐,谢袁源.联邦学习安全与隐私保护综述[J].南京航空航天大学学报,2020,52(05):675-684.DOI:10.16356/j.1005-2615.2020.05.001.

    [6]张依琳,陈宇翔,田晖,王田.联邦学习在边缘计算场景中应用研究进展[J].小型微型计算机系统,2021,42(12):2645-2653.

    [7]王向旭,杨孝堂.国际视野下的开放教育理念与实践[J].中国远程教育,2020(11):28-38+46.DOI:10.13541/j.cnki.chinade.2020.11.004.

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部