一种面向试题知识点分类的层次化语义匹配方法

著录项
  • CN202210063062.1
  • 20220119
  • CN114429138A
  • 20220503
  • 广州启辰电子科技有限公司;华南理工大学
  • 郑彦魁;马震远;马千里;陈海斌
  • G06F40/30
  • G06F40/30 G06F40/211 G06N3/04 G06N3/08

  • 广东省广州市黄埔区天丰路3号301-1房
  • 广东(44)
  • 北京前审知识产权代理有限公司
  • 张静;李亮谊
摘要
本发明公开了一种面向试题知识点分类的层次化语义匹配方法。本发明方法首先构建了试题知识点层次化结构,将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。该匹配关系由试题知识点层次化结构所决定。具体而言,试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。在试题知识点分类应用时,本发明方法可以根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。
权利要求

1.一种面向试题知识点分类的层次化语义匹配方法,该方法包括以下步骤:

S1、根据试题知识点的层次化结构,将知识点标签l=(l1,l2,...lK)(K为知识点标签的数量)构建为试题知识点层次化结构。标签与标签间的连边值表示为e=(el1-l2,el1-l3,...el1-lK),若在试题知识点层次化结构中,两个知识点标签存在联系,则连边值为1,不存在联系则连边值为0。

S2、将试题文本切分为句子s=(s1,s2,...sT)(T为分句后的句子数量),每个句子切分为词w=(w1,w2,...wS)(S为每个句子的词语数量)。将文本句子输入特征提取器BERT(基于Transformer的双向编码器表示)m1中,提取试题文本的向量表示为特征向量,上标i为向量维度。

S3、基于S1中的知识点标签l和标签间连边e,我们可以构建描述层次化结构的有向图G=(V,E)。其中有向图G的结点为V,由知识点标签l构建。有向图G的结点连边E由标签间连边e构建。为了提取体现层次化结构的特征向量,我们首先将知识点标签l的文本转换为向量表示,然后将有向图G输入特征提取器GCN(图卷积神经网络)m2中,提取知识点层次化语义向量表示为特征向量,上标j为向量维度。

S4、基于试题文本的向量表示Ht和知识点层次化语义向量Hl,使用MLP(多层感知机)神经网络将Ht和Hl映射到联合空间中。联合空间中,试题文本的向量表示为知识点层次化语义向量为上标k为联合空间中的向量维度。

S5、基于S4中获得的联合空间向量表示,结合知识点层次化结构特定进行匹配学习。试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。首先,使用联合空间损失函数对联合空间向量表示进行约束。具体而言,该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。其次,使用边缘损失(Margin Loss)函数建模试题文本向量表示与其他知识点向量表示的关系。具体而言,除了上述与试题最切合的小知识点,试题文本向量应该与知识大领域的标签基本匹配,与无关的知识点完全不匹配。

S6、本发明方法在神经网络训练时,基于所述联合空间损失函数、边缘损失(MarginLoss)函数进行梯度反向传播训练,获得一个有较好性能的知识点分类模型。

S7、基于以上方法训练神经网络模型后,本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义,获得试题知识点分类标签。

2.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S3中,使用特征提取器GCN(图卷积神经网络)m2,提取知识点层次化语义向量φi的过程如下:

Hl=σ(E*V*W1)

其中,σ为激活函数,W1为可学习的矩阵参数。

3.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S4中,将试题文本的向量表示Ht和知识点层次化语义向量Hl映射到联合空间的过程如下:

φt=FFN(Ht)

φl=FFN(Hl)

其中,FFN为两层的感知机神经网络。

4.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S5中,联合空间损失函数过程如下:

损失函数的形式是L2范数的平方差,其中g表示与该试题最切合的知识点。该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。

5.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S5中,边缘损失(Margin Loss)函数过程如下:

其中,D为语义距离度量函数L2范数,n表示与该试题不完全切合的知识点,γ表示损失函数惩罚的权重。在与该试题不完全切合的知识n中,如果是知识大领域的标签,它是相对匹配该试题的,但不够准确,因此设置小的γ值,进行小的损失函数惩罚,鼓励其保持适当的语义距离。在与该试题不完全切合的知识n中,如果是完全无关的知识点标签,则设置大的γ值,鼓励试题文本向量表示与无关的知识点标签表示远离。通过以上方法,该发明使用层次感知的语义匹配方法,建模试题文本语义与不同试题知识点语义的匹配关系。

6.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的步骤S7的过程为:本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义,获得试题知识点分类标签,具体形式如下:

其中,Ylabel为试题知识点分类标签,表示试题文本语义与知识点标签的语义距离,ξ表示分类阈值,若试题文本语义与特定知识点标签的语义距离小于该阈值,则视为可归类为该标签。

7.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于本发明方法可以在联合空间中根据试题文本语义与不同知识点语义的语义距离远近,分析特定试题与不同知识点的匹配程度,具有一定的解释性。

8.根据权利要求1所述的一种面向试题知识点分类的层次化语义匹配方法,其特征在于所述的试题文本数据覆盖包含中文的试题、包含英文的试题、包含公式的理科科目等。

说明书
技术领域

本发明涉及自然语言处理中的层次化文本分类领域,具体涉及一种面向试题知识点分类的层次化语义匹配方法。

层次化文本分类的任务是,给定一段文本,通过对文本进行分析与建模,给出由通用概念到细粒度概念的分类标签。应用在教育领域,以试题知识点分类为代表,可以预先构建包含大知识领域、小知识考点等的知识点层次化结构。给定若干试题,该任务可以针对性获得试题对应的知识点考察标签。本研究任务可以对电子化试题库进行智能分析与归类,是试题分析、试题智能推荐等场景的基础。在如今智能教育迅速发展的背景下,试题知识点分类有着重要的实践和应用价值。

在试题知识点分类方法方面,国内外使用的模型方法可分为通用文本分类方法和层次感知的文本分类方法。在通用文本分类方法中,已有的中文专利“谭春燕;秦钰森.知识点推荐方法、装置、终端及计算机可读存储介质[P].中国发明专利,CN113590956A,2021-11-02”使用通用文本分类方法对试题进行分析,获得试题对应的语义表示,检索分类获得对应的知识点分类标签。该通用文本分类方法适用于各类分类场景,但对于有明确层次化结构的试题知识点分类而言,如果忽略了知识点形成的由通用概念到细粒度概念的层次化结构,分类的标签可能造成概念混淆,无法获得试题从大知识领域到小知识考点的完整标签。在文献“Huang,Wei,et al.″Hierarchical multi-label text classification:Anattention-based recurrent network approach.″Proceedings of the 28th ACMIhternational Conference on Information and Knowledge Management.2019.”中,Huang等人基于注意力机制,逐层进行知识点分类。当知识点数目较大时,逐层多次判断效率降低,且忽略了试题文本语义和知识点文本语义不同程度的匹配关系。目前该领域存在的问题是,对试题知识点的语义提取不够充分,没有考虑试题文本语义和不同粒度知识点语义的匹配关系。

本发明的目的是为了解决现有技术中的上述缺陷,提供一种面向试题知识点分类的层次化语义匹配方法,该分类方法将试题文本语义和知识点层次化语义映射到两者的联合空间中,使用语义匹配方法建模试题文本语义与不同试题知识点层次化结构的匹配关系。在试题知识点分类应用时,本发明方法根据试题文本语义与知识点层次化语义的语义匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。

与现有技术相比,本发明侧重于提取试题知识点语义向量,构造试题文本语义与知识点文本语义的联合空间,依据语义匹配的程度关系进行知识点分类,从而具有更好的泛化性和准确性,且对于不同类型试题均适用。

本发明的目的可以通过采取如下技术方案达到:

一种面向试题知识点分类的层次化语义匹配方法,该方法包括以下步骤:

S1、根据试题知识点的层次化结构,将知识点标签l=(l1,l2,...lK)(K为知识点标签的数量)构建为试题知识点层次化结构。标签与标签间的连边值表示为e=(el1-l2,el1-l3,...el1-lK),若在试题知识点层次化结构中,两个知识点标签存在联系,则连边值为1,不存在联系则连边值为0。

S2、将试题文本切分为句子s=(s1,s2,...sT)(T为分句后的句子数量),每个句子切分为词w=(w1,w2,...wS)(S为每个句子的词语数量)。将文本句子输入特征提取器BERT(基于Transformer的双向编码器表示)m1中,提取试题文本的向量表示为特征向量,上标i为向量维度。

S3、基于S1中的知识点标签l和标签间连边e,我们可以构建描述层次化结构的有向图G=(V,E)。其中有向图G的结点为V,由知识点标签l构建。有向图G的结点连边E由标签间连边e构建。为了提取体现层次化结构的特征向量,我们首先将知识点标签l的文本转换为向量表示V,然后将有向图G输入特征提取器GCN(图卷积神经网络)m2中,提取知识点层次化语义向量表示为特征向量,上标j为向量维度。

S4、基于试题文本的向量表示Ht和知识点层次化语义向量Hl,使用MLP(多层感知机)神经网络将Ht和Hl映射到联合空间中。联合空间中,试题文本的向量表示为知识点层次化语义向量为上标k为联合空间中的向量维度。

S5、基于S4中获得的联合空间向量表示,结合知识点层次化结构特定进行匹配学习。试题文本语义与试题核心考察的知识点语义是较为匹配的,与无关的知识点语义是不匹配的。首先,使用联合空间损失函数对联合空间向量表示进行约束。具体而言,该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。其次,使用边缘损失(Margin Loss)函数建模试题文本向量表示与其他知识点向量表示的关系。具体而言,除了上述与试题最切合的小知识点,试题文本向量应该与知识大领域的标签基本匹配,与无关的知识点完全不匹配。

S6、本发明方法在神经网络训练时,基于所述联合空间损失函数、边缘损失(Margin Loss)函数进行梯度反向传播训练,获得一个有较好性能的知识点分类模型。

S7、基于以上方法训练神经网络模型后,本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义,获得试题知识点分类标签。

进一步地,所述的步骤S3中,使用特征提取器GCN(图卷积神经网络)m2,提取知识点层次化语义向量φl的过程如下:

Hl=σ(E*V*W1)

其中,σ为激活函数,W1为可学习的矩阵参数。

进一步地,所述的步骤S4中,将试题文本的向量表示Ht和知识点层次化语义向量Hl映射到联合空间的过程如下:

φt=FFN(Ht)

φl=FFN(Hl)

其中,FFN为两层的感知机神经网络。

进一步地,所述的步骤S5中,联合空间损失函数过程如下:

损失函数的形式是L2范数的平方差,其中g表示与该试题最切合的知识点。该损失函数拉近了联合空间中试题文本向量表示和该试题最切合的知识点的向量表示。

进一步地,所述的步骤S5中,边缘损失(Margin Loss)函数过程如下:

其中,D为语义距离度量函数L2范数,n表示与该试题不完全切合的知识点,γ表示损失函数惩罚的权重。在与该试题不完全切合的知识点标签n中,如果是大知识领域的标签,它是相对匹配该试题的,只是不够准确,因此设置小的γ值,进行小的损失函数惩罚,鼓励其保持适当的语义距离。在与该试题不完全切合的知识n中,如果是完全无关的知识点标签,则设置大的γ值,鼓励试题文本向量表示与无关的知识点标签表示远离。通过以上方法,该发明使用层次感知的语义匹配方法,建模试题文本语义与不同试题知识点语义的匹配关系。

进一步地,所述的步骤S7中,本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义,获得试题知识点分类标签,具体形式如下:

其中,Ylabel为试题知识点分类标签,表示试题文本语义与知识点标签的语义距离,ξ表示分类阈值,若试题文本语义与特定知识点标签的语义距离小于该阈值,则视为可归类为该标签。

进一步地,本发明方法可以在联合空间中根据试题文本语义与不同知识点语义的语义距离远近,分析特定试题与不同知识点的匹配程度,具有一定的解释性。

进一步地,所述的试题文本数据覆盖包含中文的试题、包含英文的试题、包含公式的理科科目等。

本发明相对于现有技术具有如下的优点及效果:

本发明公开的一种面向试题知识点分类的层次化语义匹配方法,建模了试题知识点层次化结构的标签语义;结合层次化结构的特点,使用语义匹配方法建模试题文本语义与不同知识点语义的匹配关系;分类时可以分析特定试题与不同知识点的匹配程度,效果较好,具有一定的解释性。

图1是本发明公开的一种面向试题知识点分类的层次化语义匹配方法的流程图;

图2是本发明公开的试题知识点层次化结构的示意图;

图3是本发明公开的层次化语义匹配方法示意图。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

图1是本发明的流程图,如图1所示,本实施例公开的一种面向分级读物的多尺度难度向量分类方法包括以下步骤:知识点层次化结构构建、试题文本特征与知识点文本特征提取、映射到联合空间、匹配学习、知识点分类,具体如下:

T1、根据试题知识点的层次化结构,将知识点标签构建为试题知识点层次化结构。如图2知识点标签形成了层次化结构树,“代数”与“函数”存在上下级关系,则连边值为1,不存在联系则连边值为0。

T2、将该试题句子输入特征提取器BERT(基于Transformer的双向编码器表示)m1中,提取试题文本的向量表示使用BERT-base模型时则i取值为768维。

T3、使用BERT等模型将知识点标签l的文本转换为向量表示V,然后将有向图G输入特征提取器GCN(图卷积神经网络)m2获得知识点标签的向量表示j常见的取值为200维。

T4、将试题文本的向量表示Ht和知识点标签的向量表示Hl输入MLP(多层感知机)神经网络,分别映射到联合空间中,试题文本的向量表示为知识点层次化语义向量为k常见的取值为200维。

T5、基于联合空间向量表示,结合知识点层次化结构特定进行匹配学习。以图2、图3的说明为例,输入试题文本“幂函数y=f(x)...”,该试题完全切合的知识点是“函数”,使用联合空间损失函数鼓励试题文本的向量表示与知识点“函数”的向量表示相似。知识点“代数”是知识大领域的标签,因此我们使用边缘损失(Margin Loss)函数和小的惩罚参数γ,鼓励其保持适当的语义距离。知识点“几何”是完全无关的知识点标签,因此我们使用边缘损失(Margin Loss)函数和大的惩罚参数γ,鼓励语义距离较为远离。

T6、在训练过程中,我们使用梯度反向传播算法,基于上述联合空间损失和边缘损失进行模型学习。

T7、基于以上方法训练神经网络模型后,本发明方法在进行试题知识点分类时,在联合空间中搜索与试题文本语义最相近的若干个知识点标签语义,即基于试题文本“幂函数y=f(x)...”搜索到语义距离小于特定阈值ξ的标签“函数”、“代数”,因此将该题的知识点分类为“函数”、“代数”。

综上所述,本实施例提出的面向试题知识点分类的层次化语义匹配方法,先构造了试题知识点层次化结构图,针对试题文本表示和知识点标签分别获得其向量表示,将两者映射到联合空间中,进行层次化感知的语义匹配学习,应用时根据试题文本语义与知识点文本语义的匹配距离远近,获得层次化感知的知识点分类结果,该发明方法分类效果较好,具有一定的解释性。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

本文发布于:2024-09-24 16:33:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/85460.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议