一种基于Transformer深度知识追踪模型


一种基于transformer深度知识追踪模型
(一)技术领域
1.本发明涉及机器学习,深度学习及数据挖掘等技术领域,具体是一种基于transformer模型的深度知识追踪模型。
(二)

背景技术:



2.近年来,随着在线教育平台的发展和普及,越来越多的线上教育课程被人们所接受。并且伴随着疫情的影响,很多学生被迫呆在家学习。在线教育打破了实体课堂的局限,同时,在线学习系统已被证明比传统学习方式更有效,为学生提供更智能的教育服务。
3.为每个学生提供智能服务,在线学习系统不断记录大量有关学生与系统交互的可用数据,可以进一步挖掘这些数据以评估他们的知识水平和学习偏好。具体而言,知识追踪(kt)是智能教育最基础和最关键的研究问题之一。kt利用一系列面向序列建模的机器学习方法,能够利用教育相关数据来监控学生的动态知识状态。如今,kt广泛应用于在线智能辅导系统,也越来越受到关注。
4.知识追踪问题可以描述为:给出学生的历史学习交互记录x={x1,x2,

,x
t
},通过预设的模型从中提取出学生隐式的知识状态,并追踪其随时间的变化。学习交互通常表示为一个题目和答案的元组x
t
=(q
t
,a
t
),意为学生在时间t回答了问题q
t
,a
t
则指示了回答的情况。由于很难直接衡量学习者的实际学习状态,现有的kt模型通常采用一种替代解决方案,使模型预测下一个题目答对的概率p(a
t+1
=correct|q
t+1
,x
t
)。
5.在知识追踪领域,根据不同学者的研究,很多模型都可以得到一个较好的结果,目前主流的方法是以循环神经网络为主的深度学习方法,循环神经网络以其网络结构的优势保留学生学习轨迹,得到较好的预测结果,被广泛应用于知识追踪领域。但是它仍然存在部分缺点:(1)深度学习模式在训练过程中是不透明的,研究者无法或者模型具体的训练过程,很难对一部分问题进行针对性的调整训练;(2)循环神经网络在训练过程中存在长距离依赖问题,模型不能一次处理过长的序列,这就导致在进行学生信息整理的时候需要进行分割,这就影响了学生学习数据的连续性。
(三)

技术实现要素:



6.本发致力于解决循环神经网络在应用于知识追踪领域中存在的可解释性问题以及长期依赖问题,提供了一种基于transformer的注意力机制模型,在一定程度上提高模型的可解释性差和无法处理长序列的问题。并根据学生长序列学习过程中的交互动作,推测学生在每个交互过程中的遗忘可能性,进一步调高模型的性能。
7.本发明所采用的技术方案是:
8.步骤一、对目前领域中的公开数据集进行数据清洗,筛选和预处理,去掉其中的无效信息。步骤二、将筛选后的数据按学生id为标签分组,以答题的结束时间为标准确定答题的先后顺序,作为输入模型长序列数据的排序依据。
步骤三、进行数据填充,不同学生序列长度不同,以最长序列为依据,对其余序列进行无影响数据填充步骤四、原始transformer的自注意力计算方法对局部信息不敏感,在数据投入模型之前,对学生交互数据进行卷积处理,从而减少模型因异常点带来的影响。步骤五、通过交互序列中的时间信息,当前题目与上一相同题目的间隔时候、当前题目与上一题目的间隔时间、和当前知识点与上一知识点的间隔时间为因子,计算下一次交互的遗忘因子,并将其添加到模型的注意力矩阵中,可以有效的对学生遗忘行为进行建模。步骤六、使用自注意力模型transformer,将学生长序列交互数据分别作为编码器和解码器的输入,对学习过程建模。步骤七、将解码器的输出经过一个sigmoid激活的预测层,得到最终的预测结果。
9.与现有技术相比,本发明具有如下优势:
10.在模型的选择方面,本发明创新的采用了知识追踪领域中使用较少的模型,从而避免了循环神经网络所带来的的长期依赖问题。在模型的使用过程中,不需要考虑序列的长度,不用将一个交互信息进行等距分割,可以很好的保留长序列信息中的连贯性。
11.transformer模型有其独特的计算方式,通过注意力机制所生成的权重矩阵可以很好的展示出不同交互之间的隐藏关系,从而可以很好的缓解循环神经网络所带来的可解释性差问题。
12.在权重矩阵计算过程中,将交互序列的遗忘因子与权重矩阵进行结合,从而对权重矩阵进行合理的调整,这种结合是对现实中的遗忘进行分析,可以有效的模拟出遗忘行为对结果的影响
13.支持并行,训练得更快。基于rnn的模型中每一个隐状态都依赖于它前一步的隐状态,因此必须从前向后必须逐个计算,每一次都只能前进一步。而transformer没有这样的约束,输入的序列被并行处理,由此带来更快的训练速度
14.采用卷积神经网络对长序列数据进行卷积处理,强模型对时间序列中局部上下文信息的建模能力,从而降低异常点对预测结果的影响程度,提高预测准确性。
(四)附图说明
15.图1为本发明的模型的框架图。
16.图2为本发明的遗忘因子计算过程。
17.图3为本发明的自注意流程。
18.图4为卷积神经网络对数据的处理过程。
(五)具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚,以下结合具体实例,并参照附图,对本发明进一步详细阐述。
20.本发明以基于自注意力机制的知识追踪模型为实例描述本发明方法的具体实施过程。
21.本发明的模型框架如图1所示。结合示意图说明具体步骤:
步骤4、采用多头注意力机制,使模型能够注意来自不同表征子空间的信息,增强泛化能力并扩展关注不同位置的能力。multiheadattention=concat(head1,

,headh)
·w24.本发明的卷积神经网络对数据的处理过程如图4所示。结合示意图说明具体步骤:步骤1、为了保证卷积后的数据和原数据维度一直,对编码数据进行filling填充。步骤2、定义卷积核对编码数据进行扫描,其中卷积核的宽度可以自定义,长度与编码维度保持一直,不同宽度可以扫描不同长度的学生序列步骤3、采用矩阵的内积乘法对编码数据进行扫描,矩阵内积乘法是把两个矩阵进行相乘运算,相同位置的元素进行乘法运算,从而得到一个新的矩阵。
25.以上所述实例仅是本发明的较优实施例,本发明并非局限于上述实施例和实施例方法。相关技术领域的从业者可在本发明的技术思路许可的范围内进行不同的细节调整和实施,故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰,均包括于本发明专利申请。


技术特征:


1.本发明公开了一种基于transformer深度知识追踪模型,其主要包括:首先,对进行筛选,并将筛选后的数据标签分组作为输入模型的长序列数据;其次,对学生交互数据进行卷积处理,减少模型因异常点带来的影响;接下来,通过交互序列中的时间信息,计算下一次交互的遗忘因子,并将其添加到模型的注意力矩阵中,对学生遗忘行为进行建模;然后,使用自注意力模型transformer把学生长序列交互数据分别作为编码器和解码器的输入,对学习过程建模;最后,将解码器的输出经过一个sigmoid激活的预测层,得到最终的预测结果。2.根据权利要求1所述的一种基于transformer深度知识追踪模型,其特征在于:在模型的选择方面,本发明创新的采用了知识追踪领域中使用较少的模型,从而避免了循环神经网络所带来的长期依赖问题,在模型的使用过程中,不需要考虑序列的长度,不用将一个交互信息进行等距分割,可以很好的保留长序列信息中的连贯性。3.根据权利要求1所述的一种基于transformer深度知识追踪模型,其特征在于:transformer模型有其独特的计算方式,通过注意力机制所生成的权重矩阵可以很好的展示出不同交互之间的隐藏关系,从而可以很好的缓解循环神经网络所带来的可解释性差问题。4.根据权利要求1所述的一种基于transformer深度知识追踪模型,其特征在于:在权重矩阵计算过程中,将交互序列的遗忘因子与权重矩阵进行结合,从而对权重矩阵进行合理的调整,这种结合是对现实中的遗忘进行分析,可以有效的模拟出遗忘行为对结果的影响。5.根据权利要求1所述的一种基于transformer深度知识追踪模型,其特征在于:基于rnn的模型中每一个隐状态都依赖于它前一步的隐状态,因此必须从前向后必须逐个计算,每一次都只能前进一步,然而transformer没有这样的约束,输入的序列被并行处理,由此带来更快的训练速度。6.根据权利要求1所述的一种基于transformer深度知识追踪模型,其特征在于:采用卷积神经网络对长序列数据进行卷积处理,强模型对时间序列中局部上下文信息的建模能力,从而降低异常点对预测结果的影响程度,提高预测准确性。

技术总结


本发明公开了一种基于Transformer深度知识追踪模型,其主要包括:首先,对进行筛选,并将筛选后的数据标签分组作为输入模型的长序列数据;其次,对学生交互数据进行卷积处理,减少模型因异常点带来的影响;接下来,通过交互序列中的时间信息,计算下一次交互的遗忘因子,并将其添加到模型的注意力矩阵中,对学生遗忘行为进行建模;然后,使用自注意力模型Transformer把学生长序列交互数据分别作为编码器和解码器的输入,对学习过程建模;最后,将解码器的输出经过一个Sigmoid激活的预测层,得到最终的预测结果。本发明致力于解决循环神经网络在应用于知识追踪领域中存在的可解释性问题以及长期依赖问题,并可以进一步提高知识追踪模型的性能。高知识追踪模型的性能。高知识追踪模型的性能。


技术研发人员:

刘铁园 张猛 常亮 古天龙

受保护的技术使用者:

桂林电子科技大学

技术研发日:

2022.05.09

技术公布日:

2022/12/26

本文发布于:2024-09-22 00:54:34,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/48872.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   序列   数据   卷积
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议