基于命名实体识别与关系抽取模型的政策匹配方法及系统与流程



1.本发明涉及人工智能和自然语言处理领域,特别涉及一种基于命名实体识别与关系抽取模型政策匹配方法及系统。


背景技术:



2.随着互联网技术的飞速发展,各行业数据信息在爆发式增长,推动了行业大数据智能化分析挖掘服务与创新应用的发展,进一步推动着我国数字经济的发展。
3.在诸多政务大数据服务应用中,政策大数据服务是一个重要的服务领域。中国是一个政府主导、政策驱动型的经济发展模式,每年在国家、省市和科技园区等不同层面,都会发布大量的政策文件。各类宏观和产业扶持类政策,是企业高度关注的信息,对企业的运营和发展具有十分重要的意义。近几年,在国家政策大力支持和引导背景下,企业也逐步拥有了企业管理规范化和政府惠企政策项目申报的意识。在惠企政策项目申报过程中,不仅要时刻关注政府政策情况的发布和变化,还要把握政策信息的时效性和准确性,并且需要充分的政策信息支撑,支撑信息越充分,获得的信息量越大,获得的信息精准度与自己更相符,惠企政策项目申报的成功率越高。因此,如何高效、及时、精准地获取惠企政策信息,掌握政府对产业方向的政策引导和扶持信息,对企业运营和成长发展具有十分重要的意义和价值。
4.对政府而言,通过政策服务,能引导企业和产业发展方向,通过政策服务,政府也希望能及时了解惠企政策对企业和产业发展的实际作用和效果,并以此作为政策制定的依据,及时调整和优化政策。因此,通过政策服务大数据,对于政府及时了解企业对相关政策的关注程度、评估政策对企业和产业发展的扶持作用,帮助科学制定政策,也具有十分重要的意义和价值。
5.然而,目前无论对于企业还是政府,都缺少基于信息化和智能化技术的高效政策服务。一方面,企业难以及时高效地获得政府发布的惠企政策信息,需要通过人工查看和收集政策的方式,效率低下,费时费力。另一方面,由于缺少信息化和智能化手段,政府也难以掌握企业对不同政策关注程度的信息,难以评估惠企政策对企业帮扶、促进企业成长和产业发展的实际效果。
6.基于上述需求背景,我们发明了一种基于命名实体识别与关系抽取模型的政策匹配方法,可以根据企业信息和具体的政策条件,进行企业与相关政策的自动匹配,并将符合企业条件的政策匹配给企业,从而避免企业用人工方式去收集查政策信息。


技术实现要素



7.发明目的:本发明提出了一种基于命名实体识别与关系抽取模型的政策匹配方法,充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解难题,本发明还提供了一种应用所述基于命名实体识别与关系抽取模型的政策匹配方法的系统。
8.为了实现上述目的,本发明提出的技术方案为:
一种基于命名实体识别和关系抽取模型的政策匹配方法,该方法包括如下步骤:s1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;s2.基于步骤s1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;s3. 构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;s4.基于步骤s3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对s2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;s5. 构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;s6.基于步骤s5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对s4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;s7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;s8.基于步骤s7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对s6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;s9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;s10.基于步骤s9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤s8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;s11.基于步骤s1-s10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“and”或“or”连接,形成政策关系逻辑表达式;s12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
9.所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s1中所述构造政策语句分类数据集具体方法是:s101.对于预先收集好的政策文档集合d,将政策文档集合d中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集s1;s102.对于政策语句分类数据集s1中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;s103.对于步骤s101中标注好的政策语句分类数据集s1,将其中80%分为训练集,
20%分为验证集。
10.所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s2中所述训练政策语句分类算法模型具体方法是:s201.参数定义:对于一篇给定的政策句子,n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系,其中,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;s202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:s2021.使用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s2022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s2023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策句子对应的分类标签yi;s2024.对于每个句子的真实标签,使用二元交叉熵作为损失函数进行模型训练,直至模型收敛;s203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:s2031.对待分类的政策句子进行“one-hot”向量化;s2032.然后输入到训练好的前向和后向lstm和线性分类器中;s2033.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
[0011]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s3中所述构造政策要素实体边界识别数据集具体方法是:s301.使用步骤s2中的政策语句分类算法模型,从政策语句分类数据集s1中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集s2;s302.对于政策要素实体边界识别数据集s2中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子,输出每个单词对应的边界标签,其中,边界标签b表示对应字符为政策要素实体的起始字符,e对应字符为政策要素实体的结束字符,i对应字符为政策要素实体的非起始且非结束字符,o表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;
s303.对于步骤s301中标注好的政策语句分类数据集s2,将其中80%分为训练集,20%分为验证集。
[0012]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s4中所述训练政策要素实体边界识别算法模型具体方法是:s401.参数定义:对于一篇给定的政策句子, n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签,其中,边界标签b表示对应字符为政策要素实体的起始字符,i对应字符为政策要素实体的非起始字符,o表示对应字符不在政策要素实体中;s402.模型训练:基于双向lstm和crf搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:s4021.使用词表,对来自训练集的句子批次中的政策句子进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示。然后输入到前向和后向lstm中进行特征提取;s4022.将前向和后向lstm的输出的每个字符的隐状态拼接后作为crf的发射矩阵;s4023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化crf模型中的起始状态向量、终止状态向量,以及状态转移矩阵m这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;s403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:s4031.对待识别的政策句子进行“one-hot”向量化;s4032.然后输入到训练好的前向和后向lstm中;s4033.将前向和后向lstm模型的输出作为真实发射矩阵,基于训练好的crf模型,使用viterbi解码,预测待识别的政策句子每一个字符的边界标签。
[0013]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s5中所述构造政策要素实体分类数据集具体方法是:s501.使用步骤s4中的政策要素实体边界识别算法模型及viterbi解码,从政策语句要素实体边界数据集s2中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集s3;s502.对于政策语句要素实体分类数据集s3中的每一个要素实体,人工进行标签标注;s503.对于步骤s502中标注好的政策要素实体分类数据集s3,将其中80%分为训练集,20%分为验证集。
[0014]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s6中所述训练政策要素实体分类算法模型具体方法是:s601.参数定义:对于一个给定的政策要素实体,n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素实体的类别,表示步骤s5中政策语句要素实体的12个类型;s602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:s6021.使用词表,对来自训练集的句子批次中的政策要素实体s
ent
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s6022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s6023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策要素实体对应的分类标签yi;s6024.对于每个政策要素实体的真实标签,使用交叉熵作为损失函数进行模型训练,直至模型收敛;s603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:s6031.对待分类的政策要素实体进行“one-hot”向量化;s6032.然后输入到训练好的前向和后向lstm和线性分类器中;s6033.模型输出政策要素实体的类别。
[0015]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s7中所述构造政策要素关系分类数据集具体方法是:s701.对于政策要素实体分类数据集s3,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集s4;s702.对于政策要素关系分类数据集s4中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,具体是大于、大于等于、小于、小于等于以及等于5类,且每个标注政策要素实体可能包含不止一个关系类型;s703.对于步骤s702中标注好的政策要素关系分类数据集s4,将其中80%分为训练集,20%分为验证集。
[0016]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s8中所述训练政策要素关系分类算法模型具体方法是:s801.参数定义:对于一个给定的政策要素实体, n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出
为每个政策要素关系类别,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;s802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:s8021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s8022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s8023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策要素关系对应的分类标签;s8024.对于每个政策要素实体的真实标签,使用交叉熵作为损失函数进行模型训练,直至模型收敛;s803.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:s8031.对待分类的政策要素实体进行“one-hot”向量化;s8032.然后输入到训练好的前向和后向lstm和线性分类器中;s8033.模型输出政策要素实体的类别;s804.利用专家规则和外部知识库识别政策要素关系分类:s5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
[0017]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s9中所述构造政策要素中的关系值边界识别数据集具体方法是:s901.整理政策要素关系分类数据集s4加以人工校验,形成政策要素中的关系值边界识别数据集s5;s902.对于政策要素中的关系值边界识别数据集s5中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体 ,输出每个单词对应的边界标签,其中,边界标签b表示对应字符为政策要素中的关系值的起始字符,e对应字符为政策要素中的关系值的结束字符,i对应字符为政策要素中的关系值的非起始且非结束字符,o表示对应字符不在政策要素中的关系值中;s903.对于步骤s902中标注好的政策语句分类数据集s5,将其中80%分为训练集,20%分为验证集。
[0018]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s10中所述训练政策要素中的关系值边界识别算法模型具体方法是:
s1001.参数定义:对于一个给定的包含政策要素实体,n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个字符对应的边界标签 ;s1002.模型训练:基于双向lstm和crf搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:s10021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s10022.将前向和后向lstm的输出的每个字符的隐状态拼接后作为crf的发射矩阵;s10023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化crf模型中的起始状态向量、终止状态向量,以及状态转移矩阵m这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;s1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:s10031.对待识别的政策要素进行“one-hot”向量化;s10032.然后输入到训练好的前向和后向lstm中;s10033.将前向和后向lstm模型的输出作为真实发射矩阵,基于训练好的crf模型,使用viterbi解码,预测待识别的政策要素每一个字符的边界标签。
[0019]
所述的基于命名实体识别和关系抽取模型的政策匹配方法,步骤s12中所述匹配得分计算具体方法是:s1201.将步骤s11所述政策关系逻辑表达式转化为析取范式(dnf)格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“and”相连,子表达式之间以“or”相连;s1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分,企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数,若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
[0020]
一种基于命名实体识别和关系抽取模型的政策匹配系统,该政策匹配系统应用于上述方法,该系统包括:数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;用户层:用于基于web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能;
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“and”或“or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
[0021]
有益效果:相对于现有技术,本发明的优点在于:(1)设计了一个融合深度学习方法和专家规则的政策分解方法,可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值;(2)设计了一个政策条件与企业条件匹配度计算的方法,量化政策与企业条件匹配程度。
附图说明
[0022]
图1为本发明的基于命名实体识别与关系抽取模型政策匹配方法流程图;图2为基于神经网络搭建的文本分类模型框架图;图3为基于神经网络搭建的边界识别模型框架图;图4为本发明的政策匹配系统工作流程框架图。
具体实施方式
[0023]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0024]
如图1所示,本发明公开的基于命名实体识别与关系抽取模型的政策匹配方法,该方法包括如下步骤:s1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;s2.基于步骤s1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;s3. 构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;s4.基于步骤s3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对s2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;s5. 构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;s6.基于步骤s5中已标注的政策要素实体分类数据集,训练政策要素实体分类算
法模型,并使用政策要素实体分类算法模型,对s4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;s7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;s8.基于步骤s7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对s6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;s9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;s10.基于步骤s9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤s8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;s11.基于步骤s1-s10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“and”或“or”连接,形成政策关系逻辑表达式;s12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。
[0025]
步骤s1中所述构造政策语句分类数据集具体方法是:s101.对于预先收集好的政策文档集合d,将政策文档集合d中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集s1;s102.对于政策语句分类数据集s1中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;s103.对于步骤s101中标注好的政策语句分类数据集s1,将其中80%分为训练集,20%分为验证集。
[0026]
步骤s2中所述训练政策语句分类算法模型具体方法是:s201.参数定义:对于一篇给定的政策句子,n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系,其中,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;s202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:s2021.使用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s2022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即
句子中的第i个字符的隐状态;s2023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策句子对应的分类标签yi;s2024.对于每个句子的真实标签,使用二元交叉熵作为损失函数进行模型训练,直至模型收敛;s203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:s2031.对待分类的政策句子进行“one-hot”向量化;s2032.然后输入到训练好的前向和后向lstm和线性分类器中;s2033.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。
[0027]
步骤s3中所述构造政策要素实体边界识别数据集具体方法是:s301.使用步骤s2中的政策语句分类算法模型,从政策语句分类数据集s1中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集s2;s302.对于政策要素实体边界识别数据集s2中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子,输出每个单词对应的边界标签,其中,边界标签b表示对应字符为政策要素实体的起始字符,e对应字符为政策要素实体的结束字符,i对应字符为政策要素实体的非起始且非结束字符,o表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;s303.对于步骤s301中标注好的政策语句分类数据集s2,将其中80%分为训练集,20%分为验证集。
[0028]
步骤s4中所述训练政策要素实体边界识别算法模型具体方法是:s401.参数定义:对于一篇给定的政策句子, n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签,其中,边界标签b表示对应字符为政策要素实体的起始字符,i对应字符为政策要素实体的非起始字符,o表示对应字符不在政策要素实体中;s402.模型训练:基于双向lstm和crf搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:s4021.使用词表,对来自训练集的句子批次中的政策句子进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示。然后输入到前向和后向lstm中进行特征提取;s4022.将前向和后向lstm的输出的每个字符的隐状态拼接后作为crf的发
射矩阵;s4023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化crf模型中的起始状态向量、终止状态向量,以及状态转移矩阵m这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;s403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:s4031.对待识别的政策句子进行“one-hot”向量化;s4032.然后输入到训练好的前向和后向lstm中;s4033.将前向和后向lstm模型的输出作为真实发射矩阵,基于训练好的crf模型,使用viterbi解码,预测待识别的政策句子每一个字符的边界标签。
[0029]
步骤s5中所述构造政策要素实体分类数据集具体方法是:s501.使用步骤s4中的政策要素实体边界识别算法模型及viterbi解码,从政策语句要素实体边界数据集s2中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集s3;s502.对于政策语句要素实体分类数据集s3中的每一个要素实体,人工进行标签标注。根据领域专家知识,政策语句要素实体可分为多个类别,比如对于企业注册地、营收状况、从业人员、知识产权情况等的要求,每个政策语句要素实体属于其中一类,本系统将政策语句要素实体分为12类;s503.对于步骤s502中标注好的政策要素实体分类数据集s3,将其中80%分为训练集,20%分为验证集。
[0030]
步骤s6中所述训练政策要素实体分类算法模型具体方法是:s601.参数定义:对于一个给定的政策要素实体,n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素实体的类别,表示步骤s5中政策语句要素实体的12个类型;s602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:s6021.使用词表,对来自训练集的句子批次中的政策要素实体sent进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s6022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s6023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策要素实体对应的分类标签yi;
s6024.对于每个政策要素实体的真实标签,使用交叉熵作为损失函数进行模型训练,直至模型收敛;s603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:s6031.对待分类的政策要素实体进行“one-hot”向量化;s6032.然后输入到训练好的前向和后向lstm和线性分类器中;s6033.模型输出政策要素实体的类别。
[0031]
步骤s7中所述构造政策要素关系分类数据集具体方法是:s701.对于政策要素实体分类数据集s3,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集s4;s702.对于政策要素关系分类数据集s4中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,具体是大于、大于等于、小于、小于等于以及等于5类,且每个标注政策要素实体可能包含不止一个关系类型;s703.对于步骤s702中标注好的政策要素关系分类数据集s4,将其中80%分为训练集,20%分为验证集。
[0032]
步骤s8中所述训练政策要素关系分类算法模型具体方法是:s801.参数定义:对于一个给定的政策要素实体, n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;s802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:s8021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s8022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s8023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策要素关系对应的分类标签;s8024.对于每个政策要素实体的真实标签,使用交叉熵作为损失函数进行模型训练,直至模型收敛;s83.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:s831.对待分类的政策要素实体进行“one-hot”向量化;s832.然后输入到训练好的前向和后向lstm和线性分类器中;
s833.模型输出政策要素实体的类别;s804.利用专家规则和外部知识库识别政策要素关系分类:s5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。
[0033]
步骤s9中所述构造政策要素中的关系值边界识别数据集具体方法是:s901.整理政策要素关系分类数据集s4加以人工校验,形成政策要素中的关系值边界识别数据集s5;s902.对于政策要素中的关系值边界识别数据集s5中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体 ,输出每个单词对应的边界标签,其中,边界标签b表示对应字符为政策要素中的关系值的起始字符,e对应字符为政策要素中的关系值的结束字符,i对应字符为政策要素中的关系值的非起始且非结束字符,o表示对应字符不在政策要素中的关系值中;s903.对于步骤s902中标注好的政策语句分类数据集s5,将其中80%分为训练集,20%分为验证集。
[0034]
步骤s10中所述训练政策要素中的关系值边界识别算法模型具体方法是:s1001.参数定义:对于一个给定的包含政策要素实体,n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个字符对应的边界标签 ;s1002.模型训练:基于双向lstm和crf搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:s10021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s10022.将前向和后向lstm的输出的每个字符的隐状态拼接后作为crf的发射矩阵;s10023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化crf模型中的起始状态向量、终止状态向量,以及状态转移矩阵m这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;s1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:s10031.对待识别的政策要素进行“one-hot”向量化;s10032.然后输入到训练好的前向和后向lstm中;s10033.将前向和后向lstm模型的输出作为真实发射矩阵,基于训练好的crf模型,使用viterbi解码,预测待识别的政策要素每一个字符的边界标签。
[0035]
步骤s12中所述匹配得分计算具体方法是:s1201.将步骤s11所述政策关系逻辑表达式转化为析取范式(dnf)格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“and”相连,子表达式之间以“or”相连;s1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分。企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数。若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。
[0036]
以上是本发明提出的基于命名实体识别和关系抽取模型的政策匹配方法的具体实施过程。
[0037]
如图4所示,本发明公开的基于命名实体识别和关系抽取模型的政策匹配方法是基于上述提出的基于命名实体识别和关系抽取算法进行系统设计的。该系统主要包括数据库、用户层、人机交互模型预测层、算法训练层。
[0038]
数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;用户层:用于基于web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能。
[0039]
人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“and”或“or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。
[0040]
该系统是人机交互的过程。首先,利用现有的政策文本数据集来训练命名实体识别和关系抽取任务模型;然后,管理员不断提供新的政策文件到系统,使用训练好的政策条件抽取模型进行推断得到政策条件关系;其次,管理员对与本专利发明自动生成的候选政策条件进行人工调整之后,再次作为训练数据保存到数据库中,成为下一次模型训练的数据。通过人机交互的方式不断地扩充数据来提升本专利发明涉及的多个命名实体识别和关系抽取算法模型的准确度。因此,该人机过程由管理员、政策分解系统、数据库3个实体一起构成一个不断学习与数据集扩充的闭环。
[0041]
在本技术所提供的实施例中,应该理解到,所揭露的方法,在没有超过本技术的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本技术的目的。例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0042]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵
盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:


1.一种基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,该方法包括如下步骤:s1.构造政策语句分类数据集,对政策语句分类数据集进行人工标签标注;s2.基于步骤s1中已标注的政策语句分类数据集,训练政策语句分类算法模型,并使用政策语句分类算法模型对政策文章中的句子进行分类,识别出包含政策要素条件关系的句子;s3.构造政策要素实体边界识别数据集,对政策要素实体边界识别数据集进行人工标签标注;s4.基于步骤s3中的已标注的政策要素实体边界识别数据集,训练政策要素实体边界识别算法模型,并使用政策要素实体边界识别算法模型,对s2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别;s5.构造政策要素实体分类数据集,并对政策要素实体分类数据集进行人工标签标注;s6.基于步骤s5中已标注的政策要素实体分类数据集,训练政策要素实体分类算法模型,并使用政策要素实体分类算法模型,对s4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类;s7.构造政策要素关系分类数据集,并对政策要素关系分类数据集进行人工标签标注;s8.基于步骤s7中已标注的政策要素关系分类数据集,训练政策要素关系分类算法模型,并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则,对s6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类,识别已分类的政策要素实体中包含的关系类型;s9.构造数值关系类型的政策要素中的关系值边界识别数据集,并对政策要素关系值边界识别数据集进行标签标注;s10.基于步骤s9中已标注的政策要素关系值边界识别数据集,训练政策要素关系值边界识别算法模型,并使用训练政策要素关系值边界识别算法模型,对步骤s8中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素,识别其关系值的边界;s11.基于步骤s1-s10的文本分类、命名实体识别和关系抽取算法模型及专家规则,政策文章中的政策申报条件语句文本可以转化为多个“条件名称-关系-值”这样的政策要素关系表达式,并在政策要素关系表达式间以逻辑关系“and”或“or”连接,形成政策关系逻辑表达式;s12.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分,以最大值作为匹配得分。2.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s1中所述构造政策语句分类数据集具体方法是:s101.对于预先收集好的政策文档集合d,将政策文档集合d中的每一篇政策文档d分割为多个句子,形成政策语句分类数据集s1;s102.对于政策语句分类数据集s1中的每一个句子,人工进行标签标注,类标1表示该句子包含政策要素条件关系,类标0表示该句子不包含政策要素条件关系;s103.对于步骤s101中标注好的政策语句分类数据集s1,将其中80%分为训练集,20%分为验证集。
3.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s2中所述训练政策语句分类算法模型具体方法是:s201.参数定义:对于一篇给定的政策句子,n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个句子是否包含政策要素条件关系,其中,标签“1”表示这句话包含政策要素条件关系,标签“0”表示这句话不包含政策要素条件关系;s202.模型训练:基于神经网络搭建的短文本分类模型,训练政策语句分类器,具体方法是:s2021.用词表,对来自训练集的句子批次中的政策句子s进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s2022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s2023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策句子对应的分类标签y
i
;s2024.对于每个句子的真实标签,使用二元交叉熵作为损失函数进行模型训练,直至模型收敛;s203.模型推理:使用政策语句分类模型,识别政策语句是否包含政策要素条件关系,具体方法是:s20231.对待分类的政策句子进行“one-hot”向量化;s20232.然后输入到训练好的前向和后向lstm和线性分类器中;s20233.模型输出“1”表示该句子包含政策要素条件关系,输出“0”表示该句子不包含政策要素条件关系。4.根据权利要求3所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s3中所述构造政策要素实体边界识别数据集具体方法是:s301.使用步骤s2中的政策语句分类算法模型,从政策语句分类数据集s1中识别出包含政策要素条件关系的政策语句,并加以人工校验,形成政策要素实体边界识别数据集s2;s302.对于政策要素实体边界识别数据集s2中的每一个句子,人工进行边界标签标注:给定一个包含n个字符的句子,输出每个单词对应的边界标签,其中,边界标签b表示对应字符为政策要素实体的起始字符,e对应字符为政策要素实体的结束字符,i对应字符为政策要素实体的非起始且非结束字符,o表示对应字符不在政策要素实体中,并且一个句子中可能包含不只一个政策语句要素实体;s303.对于步骤s301中标注好的政策语句分类数据集s2,将其中80%分为训练集,20%分为验证集。5.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征
在于,步骤s4中所述训练政策要素实体边界识别算法模型具体方法是:s401.参数定义:对于一篇给定的政策句子, n表示该政策句子中包含n个字符,表示该政策文本中的第i个字符,模型的输出为每个字符对应的边界标签,其中,边界标签b表示对应字符为政策要素实体的起始字符,i对应字符为政策要素实体的非起始字符,o表示对应字符不在政策要素实体中;s402.模型训练:基于双向lstm和crf搭建的边界识别模型,训练政策要素实体边界识别算法模型,具体方法是:s4021.使用词表,对来自训练集的句子批次中的政策句子进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s4022.将前向和后向lstm的输出的每个字符的隐状态拼接后作为crf的发射矩阵;s4023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化crf模型中的起始状态向量、终止状态向量,以及状态转移矩阵m这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;s403.模型推理:使用政策要素实体边界识别算法模型,识别政策语句的政策要素实体,具体方法是:s4031.对待识别的政策句子进行“one-hot”向量化;s4032.然后输入到训练好的前向和后向lstm中;s4033.将前向和后向lstm模型的输出作为真实发射矩阵,基于训练好的crf模型,使用viterbi解码,预测待识别的政策句子每一个字符的边界标签。6.根据权利要求5所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s5中所述构造政策要素实体分类数据集具体方法是:s501.使用步骤s4中的政策要素实体边界识别算法模型及viterbi解码,从政策语句要素实体边界数据集s2中识别政策语句要素实体,并加以人工校验,形成政策语句要素实体分类数据集s3;s502.对于政策语句要素实体分类数据集s3中的每一个要素实体,人工进行标签标注;s503.对于步骤s502中标注好的政策要素实体分类数据集s3,将其中80%分为训练集,20%分为验证集。7.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s6中所述训练政策要素实体分类算法模型具体方法是:s601.参数定义:对于一个给定的政策要素实体,n表示该政
策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素实体的类别,表示步骤s5中政策语句要素实体的12个类型;s602.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素实体分类器,具体方法是:s6021.使用词表,对来自训练集的句子批次中的政策要素实体s
ent
进行“one-hot”向量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s6022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s6023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策要素实体对应的分类标签y
i
;s6024.对于每个政策要素实体的真实标签,使用交叉熵作为损失函数进行模型训练,直至模型收敛;s603.模型推理:使用政策要素实体分类模型,识别政策要素实体的类别,具体方法是:s6031.对待分类的政策要素实体进行“one-hot”向量化;s6032.然后输入到训练好的前向和后向lstm和线性分类器中;s6033.模型输出政策要素实体的类别。8.根据权利要求7所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s7中所述构造政策要素关系分类数据集具体方法是:s701.对于政策要素实体分类数据集s3,筛选出包含数值关系的政策语句要素实体形成政策要素关系分类数据集s4;s702.对于政策要素关系分类数据集s4中的每一个要素实体,人工进行标签标注,标注政策要素实体中包含的数值关系类型,所述数值关系类型是指大于、大于等于、小于、小于等于、等于这5类,且每个标注政策要素实体包含一个或者一个以上的关系类型;s703.对于步骤s702中标注好的政策要素关系分类数据集s4,将其中80%分为训练集,20%分为验证集。9.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s8中所述训练政策要素关系分类算法模型具体方法是:s801.参数定义:对于一个给定的政策要素实体, n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个政策要素关系类别,表示5种政策要素关系类别,一个政策要素中可能包含多个政策要素关系;s802.模型训练:基于神经网络搭建的短文本分类模型,训练政策要素关系分类器,具体方法是:s8021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向量
化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s8022.将前向和后向lstm的输出隐状态拼接后得到每个字符的隐状态,即句子中的第i个字符的隐状态;s8023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策要素关系对应的分类标签;s8024.对于每个政策要素实体的真实标签,使用交叉熵作为损失函数进行模型训练,直至模型收敛;s803.模型推理:使用政策要素关系分类模型,识别政策要素关系的类别,具体方法是:s8031.对待分类的政策要素实体进行“one-hot”向量化;s8032.然后输入到训练好的前向和后向lstm和线性分类器中;s8033.模型输出政策要素实体的类别;s804.利用专家规则和外部知识库识别政策要素关系分类:s5中的12类政策要素实体中除了数值关系外,还包含其它类型的关系,利用专家知识及外部知识库识别这些关系类型以及关系的值。10.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s9中所述构造政策要素中的关系值边界识别数据集具体方法是:s901.整理政策要素关系分类数据集s4加以人工校验,形成政策要素中的关系值边界识别数据集s5;s902.对于政策要素中的关系值边界识别数据集s5中的每一个关系实体,人工进行边界标签标注:给定一个包含n个字符的政策要素实体 ,输出每个单词对应的边界标签,其中,边界标签b表示对应字符为政策要素中的关系值的起始字符,e对应字符为政策要素中的关系值的结束字符,i对应字符为政策要素中的关系值的非起始且非结束字符,o表示对应字符不在政策要素中的关系值中;s903.对于步骤s902中标注好的政策语句分类数据集s5,将其中80%分为训练集,20%分为验证集。11.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s10中所述训练政策要素中的关系值边界识别算法模型具体方法是:s1001.参数定义:对于一个给定的包含政策要素实体,n表示该政策要素实体中包含n个字符,表示该政策要素实体中的第i个字符,模型的输出为每个字符对应的边界标签 ;s1002.模型训练:基于双向lstm和crf搭建的边界识别模型,训练政策要素中的关系值边界识别算法模型,具体方法是:s10021.使用词表,对来自训练集的句子批次中的政策要素实体进行“one-hot”向
量化,即将每个字符映射到维数等于词表的one-hot向量上,不在词表的字符统一以“[unk]”表示,然后输入到前向和后向lstm中进行特征提取;s10022.将前向和后向lstm的输出的每个字符的隐状态拼接后作为crf的发射矩阵;s10023.对于每个句子的真实边界标签,使用当前转移状态矩阵在正确路径的分数与所有路径分数之和的负对数似然作为损失函数进行模型训练,模型不断优化crf模型中的起始状态向量、终止状态向量,以及状态转移矩阵m这些矩阵参数,最终使得矩阵中正确转移状态序列的分数最大,此时模型收敛;s1003.模型推理:使用政策要素中的关系值边界识别算法模型,识别政策语句的政策要素中的关系值,具体方法是:s10031.对待识别的政策要素进行“one-hot”向量化;s10032.然后输入到训练好的前向和后向lstm中;s10033.将前向和后向lstm模型的输出作为真实发射矩阵,基于训练好的crf模型,使用viterbi解码,预测待识别的政策要素每一个字符的边界标签。12.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法,其特征在于,步骤s12中所述匹配得分计算具体方法是:s1201.将步骤s11所述政策关系逻辑表达式转化为析取范式格式,即政策关系逻辑表达式可分解为多个子表达式,每个子表达式内的条件以“and”相连,子表达式之间以“or”相连;s1202.使用同样已规范化成“条件名称-关系-值”格式的企业条件列表和政策关系逻辑表达式的所有子表达式计算匹配路径得分,企业条件与政策条件相符则记为匹配,否则不匹配,某个子表达式匹配得分为匹配的条件个数除以总条件数,若某个子表达式全部条件匹配则匹配得分为1.0,若没有子表达式完全匹配,则以最大得分作为最终匹配得分。13.一种基于命名实体识别和关系抽取模型的政策匹配系统,其特征在于,该政策匹配系统应用于权利要求1-12之一所述方法,该系统包括:数据库层:数据库主要用来存储本系统的政策文档及其结果,提供用户层所需要的数据;用户层:用于基于web技术实现与用户交互,给用户提供政策录入、政策管理、政策分解及政策查询功能;提供企业信息录入、企业信息更新、企业信息查询功能;人机交互模型预测层:用于通过用户层提供的政策文本并对这些政策文档进行预处理后,通过训练好的模型和专家规则进行推断得到政策要素实体及关系,然后后台管理员使用逻辑关系“and”或“or”连接政策要素条件形成政策关系逻辑表达式,将结果保存在数据库中;算法训练层:利用现有的政策文档作为数据集来训练算法模型;然后,通过人机交互模型预测层中管理员提供的新的政策文件作为新的训练数据;最后,对这些新的数据进行预处理,进行人工标注,来训练基于命名实体识别和关系抽取模型的政策匹配方法,提升算法精度。

技术总结


本发明公开了基于命名实体识别与关系抽取模型的政策匹配方法及系统。本发明的方法包括如下步骤:构造政策语句或政策语句片段的命名实体识别与关系抽取数据集,并进行人工标签标注;基于已标注数据,训练所需的算法模型以及编写专家规则;使用算法模型及专家规则,将政策文章中的政策申报条件语句文本转化为多个政策要素关系表达式,并将形成政策关系逻辑表达式与企业条件列表计算匹配得分。本发明充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解和政策条件与企业条件匹配度计算的难题。方法融合深度学习方法和专家规则的政策分解方法,可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值。值。值。


技术研发人员:

麦丞程 于辉 黄宜华

受保护的技术使用者:

江苏鸿程大数据技术与应用研究院有限公司

技术研发日:

2022.11.02

技术公布日:

2022/12/12

本文发布于:2024-09-20 12:41:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/34146.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:政策   要素   实体   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议