自然语言分词方法、装置、设备及介质与流程



1.本发明涉及计算机技术领域,特别涉及自然语言分词方法、装置、设备及介质。


背景技术:



2.在税务领域问答对话服务、政策法规颁布等自然语言处理场景中,我们经常会利用nlp(natural language processing,即自然语言处理)技术对场景中产生的语料进行挖掘和研究,以优化服务与政策库标签。现有技术基于某个泛用预设词库进行搜索分词,分词质量较大地依赖于本身词库质量,当待分词文本中存在新词语时,那么分词质量就会大大下降;其次,现有技术中虽然利用了hmm(hidden markov model,即隐马尔可夫模型)模型来对通用分词器进行未切分语料的补救措施,但是由于hmm模型在训练时存在标签偏置问题,导致hmm模型输出的分词结果为局部最优,并没有考虑文本整体,效果不稳定。
3.综上可见,如何提高对自然语言分词的效果是本领域有待解决的问题。


技术实现要素:



4.有鉴于此,本发明的目的在于提供一种自然语言分词方法、装置、设备及介质,能够提高对自然语言分词的效果。其具体方案如下:
5.第一方面,本技术公开了一种自然语言分词方法,包括:
6.获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;
7.利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;
8.基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;
9.判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
10.可选的,所述利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,包括:
11.通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。
12.可选的,所述从所述第二分词后文本和所述第三分词后文本确定出目标分词后文本之后,还包括:
13.保存所述目标词语至所述预设词库,以得到更新后预设词库;
14.当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗
后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。
15.可选的,所述保存所述目标词语至所述预设词库,以得到更新后预设词库之后,还包括:
16.判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前n-gramxgb模型进行更新训练,得到下一隐马尔可夫模型和下一n-gramxgb模型;
17.若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一n-gramxgb模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。
18.可选的,所述基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语之后,还包括:
19.若不存在则将所述第一分词后文本确定为目标分词后文本;
20.相应的,所述判断所述第二分词后文本和所述第三分词后文本是否一致之后,还包括:
21.若不一致在则将所述第一分词后文本确定为所述目标分词后文本。
22.可选的,所述利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理之前,还包括:
23.利用所述预设通用性分词器对第一训练文本进行分词处理和词性标注处理,以得到第二训练文本;
24.基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,以得到当前隐马尔可夫模型和当前n-gramxgb模型。
25.可选的,所述基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,包括:
26.基于四位序列标注法以及所述第二训练文本中的词语与词性,确定预设分词规则。
27.第二方面,本技术公开了一种自然语言分词装置,包括:
28.文本清洗模块,用于获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;
29.第一分词模块,用于利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;
30.第二分词模块,用于基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;
31.目标文本获取模块,用于判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
32.第三方面,本技术公开了一种电子设备,包括:
33.存储器,用于保存计算机程序;
34.处理器,用于执行所述计算机程序,以实现前述公开的自然语言分词方法的步骤。
35.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的自然语言分词方法的步骤。
36.可见,本技术获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。由此可见,本技术首先对当前待分词文本进行数据清洗,以剔除掉无意义信息,进而提高后续分词效率;利用预设通用性分词器得到与当前清洗后待分词文本对应的第一分词后文本后,还需要基于预设词库中判断第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,得到对应的第二分词后文本和第三分词后文本,也即第二分词后文本和第三分词后文本降低对预设词库的依赖,并且还利用了当前n-gramxgb模型,以降低仅利用当前隐马尔可夫模型会出现标签偏置问题的概率,提升文本分词效果。
附图说明
37.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
38.图1为本技术公开的一种自然语言分词方法流程图;
39.图2为本技术公开的一种具体的自然语言分词方法流程图;
40.图3为本技术公开的一种具体的预设分词规则示意图;
41.图4为本技术公开的一种具体的模型训练示意图;
42.图5为本技术公开的一种具体的hmm模型处理示意图;
43.图6为本技术公开的一种具体的n-gramxgb模型处理示意图;
44.图7为本技术公开的一种具体的自然语言分词方法流程图;
45.图8为本技术公开的一种具体的自然语言分词处理示意图;
46.图9为本技术公开的一种自然语言分词装置结构示意图;
47.图10为本技术公开的一种电子设备结构图。
具体实施方式
48.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.在税务领域问答对话服务、政策法规颁布等自然语言处理场景中,我们经常会利用nlp(natural language processing,即自然语言处理)技术对场景中产生的语料进行挖掘和研究,以优化服务与政策库标签。现有技术基于某个泛用预设词库进行搜索分词,分词质量较大地依赖于本身词库质量,当待分词文本中存在新词语时,那么分词质量就会大大下降;其次,现有技术中虽然利用了hmm模型来对通用分词器进行未切分语料的补救措施,但是由于hmm模型在训练时存在标签偏置问题,导致hmm模型输出的分词结果为局部最优,并没有考虑文本整体,效果不稳定。
50.为此本技术相应的提供了一种自然语言分词方案,能够提高对自然语言分词的效果。
51.参见图1所示,本技术实施例公开了一种自然语言分词方法,包括:
52.步骤s11:获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本。
53.可以理解的是,获取的当前待分词文本中可能存在特殊符号、停用词等无意义信息,例如空格,后续无需对这些无意义信息进行分词处理,所有可以在分词处理之前,将这些无意义词清除掉,也可以减轻后续处理压力,提高分词效率。
54.步骤s12:利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本。
55.本实施例中,预设通用性分词器例如为jieba分词器,也可以为其他可抽取词性、可维护词库的通用性切词器。需要注意的是,本实施例中只是利用分词器的词库作为载体或仓库,承载挖掘后的高质量新词,一为了保证细颗粒度词汇的高质量,二为了避免新词的重复发掘来提高效率。
56.步骤s13:基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本。
57.本实施例中,基于预设词库中判断与当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,也就是判断与当前清洗后待分词文本对应的第一分词后文本中是否有预设词库中不存在的新词语,也即目标词语,如果没有,则说明与当前清洗后待分词文本对应的第一分词后文本可以直接作为目标分词后文本,如果有,则需要利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本,本实施例中,不仅仅利用当前隐马尔可夫模型进行分词处理,还利用了当前n-gramxgb模型进行分词处理,可以有效避免当前隐马尔可夫模型进行分词处理时可能存在标签偏置的问题,提升整体分词效果。其中,标签偏置问题,是由于隐马尔可夫模型模型在训练时,某个词语在某个语境下出现的次数与被判定的概率过于武断,例如某个词语在第一个语境下出现了3次,在第二个语境下出现了7次,其他语境暂未出现,隐马尔可夫模型模型就会判定某个词语在第一个语境下的概率为30%,在第二个语境下的概率为70%,其他语境均为0,但是这
只是训练语料不够充分,并不代表着该词语不会在其他语境下出现,而本实施例即利用隐马尔可夫模型模型也利用n-gramxgb模型,就可以大大减少标签偏置的问题。
58.步骤s14:判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
59.本实施例中,如果第二分词后文本和第三分词后文本一致,则说明当前隐马尔可夫模型进行分词处理时没有出现标签偏置的问题,那么第二分词后文本和第三分词后文本可以作为目标分词后文本,如果不一致,则将与当前清洗后待分词文本对应的第一分词后文本作为目标分词后文本。
60.可见,本技术获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。由此可见,本技术首先对当前待分词文本进行数据清洗,以剔除掉无意义信息,进而提高后续分词效率;利用预设通用性分词器得到与当前清洗后待分词文本对应的第一分词后文本后,还需要基于预设词库中判断第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,得到对应的第二分词后文本和第三分词后文本,也即第二分词后文本和第三分词后文本降低对预设词库的依赖,并且还利用了当前n-gramxgb模型,以降低仅利用当前隐马尔可夫模型会出现标签偏置问题的概率,提升文本分词效果。
61.参见图2所示,本技术实施例公开了一种具体的自然语言分词方法,包括:
62.步骤s21:获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本。
63.步骤s22:利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本。
64.步骤s23:基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语。
65.步骤s24:若不存在则将所述第一分词后文本确定为目标分词后文本。
66.本实施例中,可以理解的是,如果与当前清洗后待分词文本对应的第一分词后文本中,不存在新词语,即目标词语,那么就无需利用当前隐马尔可夫模型和当前n-gramxgb模型进行分词处理,可以直接获取目标分词后文本,分词效率更高。
67.步骤s25:若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本。
68.本实施例中,所述利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述
当前清洗后待分词文本对应的第一分词后文本进行分词处理之前,还包括:利用所述预设通用性分词器对第一训练文本进行分词处理和词性标注处理,以得到第二训练文本;基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,以得到当前隐马尔可夫模型和当前n-gramxgb模型。
69.本实施例中,所述基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,包括:基于四位序列标注法以及所述第二训练文本中的词语与词性,确定预设分词规则。例如图3所示的一种具体的预设分词规则示意图,第一训练文本为“如何使用财税问答机器人”,经过数据清洗以及通用性分词器进行分词后为“如何/使用/财税/问答/机器人”,虽然“财税问答机器人”是财税问答领域的专有名词,但是因为“财税问答机器人”在预设词库中并不存在,所以将“财税问答机器人”过度切分为了多个词语,则基于每个词语的词性、四位序列标注法对第二训练文本进行标记,以便后续利用模型进行分词处理。其中,预设分词规则例如为:
70.1)识别符合中文语言习惯的词性顺序,并对第二训练文本打上“mark”标记,如“名词+名词”、“名词+动词”、“动词+名词+动词”等;
71.2)其他词性均以“s”标记代表单个噪声词、“sn”代表单个名词,并且通过调节模型参数可连同新词一起输出,作为领域内高频名词、“c”代表保留的逗号等代表停顿的符号,来辅助打标,比如两个名词间存在符号的话就不应该成为新词,因为实际语境中它们是断开的,因此休止符号不应该被删去,而是标为c;
72.3)识别连续的“mark”标记,并将首尾标上“b”、“e”标记,中间的词标上“m”标记,来表示出新词/短语的全貌;
73.4)另外“s”、“sn”、“c”作为辅助标识,可以让“bme”的标记更加精准或丰富。
74.可以理解的是,在利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与当前清洗后待分词文本对应的第一分词后文本进行分词处理之前,还需要对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,例如图4所示的一种具体的模型训练示意图,将训练语料导入之后进行清洗处理,并利用预设通用性分词器进行切词处理、词性提取以得到第二训练文本;基于四位序列标注法(begin、middle、end、single,即bmes)以及所述第二训练文本中的词语与词性,确定预设分词规则,然后利用第二训练文本和预设分词规则对初始隐马尔可夫模型和初始n-gramxgb模型进行训练。
75.其中,隐马尔可夫模型包含头部矩阵、转移矩阵、发射矩阵3种概率矩阵,头部矩阵决定文本序列中首个字/词的词性,以便后续词性转移与发射的计算,发射矩阵决定文本序列中每个字/词从隐层词性发射到显层词性的概率,转移矩阵决定文本序列中每个字/词从t-1位置的隐层词性转移到t位置的隐层词性的概率,因此在进行隐马尔可夫模型训练时,为每一条训练语料打上bmes隐层标签,让hmm模型训练生成3个概率矩阵:头部矩阵、转移矩阵、发射矩阵;头部矩阵学习了第二训练文本中第一个元素,在不同词性下的概率;转移矩阵学习了字/词的词性从t-1位置到t位置的词性转移概率;发射矩阵学习了从某种词性发射成为bmes隐层状态的概率,例如图5所示的一种具体的hmm模型处理示意图,基于这三种概率筛选出概率最大的分词结果,作为hmm模型分词处理的最终结果。
76.本实施例中,在对初始n-gramxgb模型训练时,根据制定好的预设分词规则,为每一条训练语料打上bmes隐层标签,训练初始n-gramxgb模型,语料中每一个字/词都有一个
bmes状态作为训练标签,该字/词的前后n个位置上的词性为输入的上下文词性特征,该字/词自身所在语料中的位置为输入的文本位置特征,也即n-gramxgb模型在确定当前词语的分词结果时,根据前n个位置以及后n个位置来确定,例如图6所示的一种具体的n-gramxgb模型处理示意图,其中设置n为2,那么在确定当前词语时,需要基于当前词语的前2个位置和后2个位置来确定,n即为学习长度,也为n-gramxgb模型的预设滑动窗口大小,n-gramexbg模型通过预设滑动窗口大小,保证了不同长度的预料序列都可以适用,而不需要通过限制、切割原预料长度导致信息冗余或丢失;;n-gramexbg模型还有诸多优点,例如n-gramexbg模型在实现类似crf模型(conditional random field algorithm,即条件随机场算法)目标的同时,避免了使用深度学习框架和与词语本身进行编码的要求,使得整个系统具有更灵活的部署环境是适配性;n-gramexbg模型仅基于预料序列窗口内的词性和位置信息进行训练,而不是基于词库中词语本身,因此模型参数规模可以得到有效控制,模型在精准的同时更轻量化;在hmm模型的下游加入n-gramexbg模型,避免了hmm模型只依赖于每个词的t-1位置词性的局限性,加入了语料远端词性信息及词性位置信息,使得bmes打标更考虑序列整体效果,提升新词质量,避免上下文信息遗漏。
77.步骤s26:判断所述第二分词后文本和所述第三分词后文本是否一致。
78.步骤s27:若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本;若不一致在则将所述第一分词后文本确定为所述目标分词后文本。
79.由此可见,本技术在进行分词处理时,如果预设通用性分词器进行分词处理后的文本中,包含了预设词库中不存在的目标词语,即新的词语,那么就可以利用当前隐马尔可夫模型和当前n-gramxgb模型对该文本进行分词处理,因此本技术不会过度依赖预设词库,对于预设词库中不存在的词语也可以进行高质量的分词处理,避免过度切分的情况出现,如果该文本中不包含目标词语,则可以将该文本作为目标分词后文本,无需经过当前隐马尔可夫模型和当前n-gramxgb模型来进行分词处理,还可以提高分词效率。
80.参见图7所示,本技术实施例公开了一种具体的自然语言分词方法,包括:
81.步骤s31:获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本。
82.步骤s32:通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本。
83.本实施例中,所述从所述第二分词后文本和所述第三分词后文本确定出目标分词后文本之后,还包括:保存所述目标词语至所述预设词库,以得到更新后预设词库;当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。
84.本实施例中,所述保存所述目标词语至所述预设词库,以得到更新后预设词库之后,还包括:判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前n-gramxgb模型进行更新训练,得到下一隐马尔可夫模型和下一n-gramxgb模型;若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一n-gramxgb模型对
与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。更新后预设词库满足第二预设条件时,利用更新后预设词库对当前隐马尔可夫模型和当前n-gramxgb模型进行更新训练会对hmm概率矩阵做出概率修正的贡献,也会对n-gramxgb模型进行样本增量训练,使得两个模型模型越用越准。
85.例如图8所示的一种具体的自然语言分词处理示意图,若更新后预设词库中满足第二预设条件时,也即若更新后预设词库中的新语料的数量达到预设阈值时,则自动触发模型更新流程,即利用这些新语料去重新训练当前隐马尔可夫模型和当前n-gramxgb模型,以得到下一隐马尔可夫模型和下一n-gramxgb模型。其中,可以理解的是,例如当前清洗后待分词文本为“如何使用财税问答机器人”,虽然“财税问答机器人”为财税问答系统的专用词语,但是由于预设词库中不包含“财税问答机器人”,因此利用预设通用性分词器分词后为“如何/使用/财税/问答/机器人”,即产生了过度分词现象,利用当前隐马尔可夫模型和当前n-gramxgb模型获得的文本为“如何/使用/财税问答机器人”,并且将该“财税问答机器人”保存至预设词库中,以得到更新后预设词库,那么当预设通用性分词器再次遇到“如何使用财税问答机器人”时,则可以直接利用更新后预设词库中的“财税问答机器人”,并且无需再利用n-gramxgb模型和隐马尔可夫模型,加快分词速度,提高分词效率,避免步骤冗余。挖掘出来的领域新词/短语,将被更新加入预设通用性分词器词库内,丰富领域词汇/短语。使得整个新词挖掘系统越来越适合于该特殊领域的切词任务。
86.步骤s33:基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本。
87.本实施例中,通过hmm模型的马尔可夫过程保证了从原词性前后顺序上的先验概率,使得新词更符合真实语言习惯;通过n-gramxgb条件概率模型验证,保证了原词性远端窗口内词性关系,也避免了标签偏置问题。最终使得挖掘出来的新词即准确又稳定,即联合概率加条件概率的双重保障。也可以使用其他模型进行新词挖掘,例如最大熵马尔可夫模型(maximum entropy markov model,即memm),但是n-gramxgb模型比最大熵马尔可夫模型更加轻量化,因此可以基于实际情况进行选择。
88.步骤s34:判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
89.可以理解的是,确定目标分词后文本时,获取该目标分词后文本所属的领域,利用该领域的领域提示词进行关键词信息增强处理,即将该目标分词后文本和领域提示词共同输出,以便下游任务基于目标分词后文本和领域提示词,可以更加快速的进行分析、搜索等处理,提高处理速度。
90.由此可见,本技术在更新后预设词库满足第二预设条件时,也即更新后预设词库中的新语料、新词语到达预设阈值时,可以自动进行模型更新训练,使得hmm模型和n-gramxgb模型能够越来越准确的进行分词处理,提高分词质量和效果。
91.参见图9所示,本技术实施例公开了一种自然语言分词装置,包括:
92.文本清洗模块11,用于获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;
93.第一分词模块12,用于利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;
94.第二分词模块13,用于基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;
95.目标文本获取模块14,用于判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
96.可见,本技术获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。由此可见,本技术首先对当前待分词文本进行数据清洗,以剔除掉无意义信息,进而提高后续分词效率;利用预设通用性分词器得到与当前清洗后待分词文本对应的第一分词后文本后,还需要基于预设词库中判断第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,得到对应的第二分词后文本和第三分词后文本,也即第二分词后文本和第三分词后文本降低对预设词库的依赖,并且还利用了当前n-gramxgb模型,以降低仅利用当前隐马尔可夫模型会出现标签偏置问题的概率,提升文本分词效果。
97.在一些具体实施例中,所述第一分词模块12,包括:
98.第一分词处理单元,用于通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。
99.在一些具体实施例中,所述自然语言分词装置,包括:
100.第二分词处理单元,用于保存所述目标词语至所述预设词库,以得到更新后预设词库;当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。
101.在一些具体实施例中,所述自然语言分词装置,包括:
102.第三分词处理单元,用于判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前n-gramxgb模型进行更新训练,得到下一隐马尔可夫模型和下一n-gramxgb模型;若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一n-gramxgb模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。
103.在一些具体实施例中,所述自然语言分词装置,包括:
104.第一目标分词后文本确定单元,用于若不存在则将所述第一分词后文本确定为目标分词后文本。
105.在一些具体实施例中,所述自然语言分词装置,包括:
106.第二目标分词后文本确定单元,用于若不一致在则将所述第一分词后文本确定为所述目标分词后文本。
107.在一些具体实施例中,所述自然语言分词装置,包括:
108.模型训练单元,用于利用所述预设通用性分词器对第一训练文本进行分词处理和词性标注处理,以得到第二训练文本;基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,以得到当前隐马尔可夫模型和当前n-gramxgb模型。
109.在一些具体实施例中,所述模型训练单元,包括:
110.分词规则确定单元,用于基于四位序列标注法以及所述第二训练文本中的词语与词性,确定预设分词规则。
111.进一步的,本技术实施例还提供了一种电子设备。图10是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
112.图10为本技术实施例提供的一种电子设备的结构示意图。具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现以下步骤:
113.获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;
114.利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;
115.基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;
116.判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。
117.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
118.通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。
119.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
120.保存所述目标词语至所述预设词库,以得到更新后预设词库;
121.当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗
后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。
122.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
123.判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前n-gramxgb模型进行更新训练,得到下一隐马尔可夫模型和下一n-gramxgb模型;
124.若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一n-gramxgb模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。
125.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
126.若不存在则将所述第一分词后文本确定为目标分词后文本;
127.相应的,所述判断所述第二分词后文本和所述第三分词后文本是否一致之后,还包括:
128.若不一致在则将所述第一分词后文本确定为所述目标分词后文本。
129.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,具体可以实现以下步骤:
130.利用所述预设通用性分词器对第一训练文本进行分词处理和词性标注处理,以得到第二训练文本;
131.基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,以得到当前隐马尔可夫模型和当前n-gramxgb模型。
132.在一些具体实施方式中,所述处理器通过执行所述存储器中保存的计算机程序,还可以进一步包括以下步骤:
133.基于四位序列标注法以及所述第二训练文本中的词语与词性,确定预设分词规则。
134.本实施例中,电源23用于为电子设备上的各硬件设备提供工作电压;通信接口24能够为电子设备创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
135.其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括ai
(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
136.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
137.其中,操作系统221用于管理与控制电子设备上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是windows、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备执行的自然语言分词方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据,也可以包括由自身输入输出接口25采集到的数据等。
138.进一步的,本技术实施例还公开了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的由自然语言分词过程中执行的方法步骤。
139.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
140.以上对本发明所提供的一种自然语言分词方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:


1.一种自然语言分词方法,其特征在于,包括:获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。2.根据权利要求1所述的自然语言分词方法,其特征在于,所述利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,包括:通过jieba分词器利用预设词库对所述当前清洗后待分词文本进行分词处理和词性标注处理。3.根据权利要求2所述的自然语言分词方法,其特征在于,所述从所述第二分词后文本和所述第三分词后文本确定出目标分词后文本之后,还包括:保存所述目标词语至所述预设词库,以得到更新后预设词库;当获取下一待分词文本时,则对所述下一待分词文本进行数据清洗,以得到下一清洗后待分词文本,然后通过所述jieba分词器利用所述更新后预设词库对所述下一清洗后待分词文本进行分词处理和词性标注处理,以得到与所述下一清洗后待分词文本对应的第一分词后文本。4.根据权利要求3所述的自然语言分词方法,其特征在于,所述保存所述目标词语至所述预设词库,以得到更新后预设词库之后,还包括:判断所述更新后预设词库是否满足第二预设条件,若满足则利用所述更新后预设词库对所述当前隐马尔可夫模型和所述当前n-gramxgb模型进行更新训练,得到下一隐马尔可夫模型和下一n-gramxgb模型;若与所述下一清洗后待分词文本对应的第一分词后文本中存在所述目标词语,则利用所述下一隐马尔可夫模型和所述下一n-gramxgb模型对与所述下一清洗后待分词文本对应的第一分词后文本进行分词处理。5.根据权利要求1至4任一项所述的自然语言分词方法,其特征在于,所述基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语之后,还包括:若不存在则将所述第一分词后文本确定为目标分词后文本;相应的,所述判断所述第二分词后文本和所述第三分词后文本是否一致之后,还包括:若不一致在则将所述第一分词后文本确定为所述目标分词后文本。6.根据权利要求1所述的自然语言分词方法,其特征在于,所述利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理之前,还包括:
利用所述预设通用性分词器对第一训练文本进行分词处理和词性标注处理,以得到第二训练文本;基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,以得到当前隐马尔可夫模型和当前n-gramxgb模型。7.根据权利要求6所述的自然语言分词方法,其特征在于,所述基于四位序列标注法的预设分词规则和所述第二训练文本对初始隐马尔可夫模型和初始n-gramxgb模型进行训练,包括:基于四位序列标注法以及所述第二训练文本中的词语与词性,确定预设分词规则。8.一种自然语言分词装置,其特征在于,包括:文本清洗模块,用于获取当前待分词文本,并对所述当前待分词文本进行数据清洗,以得到当前清洗后待分词文本;第一分词模块,用于利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理,以得到与所述当前清洗后待分词文本对应的第一分词后文本;第二分词模块,用于基于预设词库中判断与所述当前清洗后待分词文本对应的第一分词后文本中是否存在满足第一预设条件的目标词语,若存在则利用当前隐马尔可夫模型和当前n-gramxgb模型分别对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理,以得到对应的第二分词后文本和第三分词后文本;目标文本获取模块,用于判断所述第二分词后文本和所述第三分词后文本是否一致,若一致则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的自然语言分词方法的步骤。10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的自然语言分词方法的步骤。

技术总结


本申请公开了一种自然语言分词方法、装置、设备及介质,涉及计算机技术领域,包括:对获取的当前待分词文本进行数据清洗得到当前清洗后待分词文本;利用预设通用性分词器对所述当前清洗后待分词文本进行分词处理和词性标注处理得到与所述当前清洗后待分词文本对应的第一分词后文本;判断所述第一分词后文本中是否存在目标词语,若是则利用当前HMM模型和当前N-GramXGB模型对与所述当前清洗后待分词文本对应的第一分词后文本进行分词处理得到对应的第二分词后文本和第三分词后文本;判断所述第二分词后文本和所述第三分词后文本是否一致,若是则从所述第二分词后文本和所述第三分词后文本中确定出目标分词后文本。提高文本分词效果。文本分词效果。文本分词效果。


技术研发人员:

丁乐 徐煌 刘子星 王伟

受保护的技术使用者:

税友信息技术有限公司

技术研发日:

2022.10.25

技术公布日:

2022/12/16

本文发布于:2024-09-24 05:29:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/41075.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分词   所述   文本   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议