文本处理模型训练方法、装置和计算机设备与流程



1.本技术涉及计算机技术领域,具体而言,涉及一种文本处理模型训练方法、装置和计算机设备。


背景技术:



2.人们在日常沟通时,经常会使用一些习语来进行表达除字面以外的特殊含义,而随着互联网技术和社交媒体的发展,人们创造的新的习语也越来越多。
3.由于习语的形式多样并且代表的含义在不同的语境下可能会有不同的含义,因此经常需要识别出一个整句或一篇文章中是否存在习语。相关技术中,一般会针对每个习语词组训练一个分类器来判断词组是否在一个整句中属于习语,或者基于序列标注的方式利用预训练模型来确定整句或文章中的每个字或者单词是否属于习语的一部分,或者通过指针的预测方式利用模型预测习语词组的起止来获取整句或文章中的各个习语。
4.在互联网时代,人们可能会根据时事随时随地创造出新的习语,然而,相关技术的方案只能根据相关技术人员提前录入的习语对整句或文章中存在的习语进行识别。因此,针对新出现的习语,相关技术存在识别文本中的习语的准确率较低、难以对文本进行准确地处理的问题。


技术实现要素:



5.本技术的目的在于提供一种文本处理模型训练方法、装置和计算机设备,可以达到提高识别未知习语的准确率以及对文本进行准确地处理的效果。
6.本技术的实施例是这样实现的:
7.本技术实施例的第一方面,提供一种文本处理模型训练方法,所述方法包括:
8.基于多个样本文本训练得到通用文本处理模型,所述通用文本处理模型用于确定输入文本中各词语属性信息,所述属性信息包括:词性、含义以及用法;
9.对初始文本进行格式转换,得到初始语料,所述初始语料用于按照预设格式指示所述初始文本和所述初始文本中的习语;
10.根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,所述目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。
11.可选地,所述基于多个样本文本训练得到通用文本处理模型,包括:
12.将各所述样本文本输入初始文本处理模型,由所述初始文本处理模型对各所述样本文本中的至少一个字符进行标记;
13.由所述初始文本处理模型根据各所述字符的属性信息将各所述字符进行替换,得到与标记的各所述字符对应的替换后字符;
14.根据标记的各所述字符和各所述替换后字符确定所述初始文本处理模型的损失信息;
15.根据所述初始文本处理模型的损失信息,对所述初始文本处理模型进行迭代修正,直至所述初始文本处理模型达到第一预设条件结束训练,将达到所述第一预设条件的初始文本处理模型作为所述通用文本处理模型。
16.可选地,所述将各所述样本文本输入初始文本处理模型,由所述初始文本处理模型对各所述样本文本中的至少一个字符进行标记,包括:
17.将各所述样本文本输入初始文本处理模型,分别确定各所述样本文本中的字符总数;
18.基于各所述样本文本中的字符总数和预设比例,对各所述样本文本中字符进行标记,所述预设比例用于指示各所述样本文本中需要标记的字符数量占各所述样本文本中的字符总数的比例。
19.可选地,所述基于各所述样本文本中的字符总数和预设比例,对各所述样本文本中字符进行标记,包括:
20.基于各所述样本文本中的字符总数和所述预设比例,确定各所述样本文本中需要标记的字符数量;
21.由所述初始文本处理模型根据所述需要标记的字符数量随机对各所述样本文本中字符进行标记。
22.可选地,所述由所述初始文本处理模型根据各所述字符的属性信息将各所述字符进行替换,得到与标记的各所述字符对应的替换后字符,包括:
23.由所述初始文本处理模型确定与各所述样本文本中的目标字符相邻的任一字符是否为标记的各所述字符,所述目标字符为各所述样本文本中标记的各所述字符中的任意一个字符;
24.若是,则由所述初始文本处理模型将与所述目标字符相邻的字符和所述目标字符作为一个待替换词组;
25.若否,则由所述初始文本处理模型各所述目标字符分别作为一个所述待替换词组;
26.由所述初始文本处理模型基于所述预设词组库中各词语的属性信息将各所述待替换词组进行替换,得到与标记的各所述字符对应的替换后字符,所述预设词组库中包括多个词语和各所述词语的特征向量,各所述词语的特征向量用于指示各所述词语的词性、含义、用法。
27.可选地,所述由所述初始文本处理模型基于所述预设词组库中各词语的属性信息将各所述待替换词组进行替换,得到与标记的各所述字符对应的替换后字符,包括:
28.由所述初始文本处理模型根据各所述样本文本的语义从所述预设词组库中提取与各所述待替换词组匹配的词语;
29.将所述预设词组库中提取的各词语作为各所述替换后字符。
30.可选地,所述根据标记的各所述字符和各所述替换后字符确定所述初始文本处理模型的损失信息,包括:
31.确定标记的各所述字符的特征向量和各所述替换后字符的特征向量之间的一致性,得到目标损失值,并将所述目标损失值作为所述损失信息。
32.可选地,所述确定标记的各所述字符的特征向量和各所述替换后字符的特征向量
之间的一致性,得到目标损失值,包括:
33.根据标记的各所述字符的特征向量确定与标记的各所述字符对应的标签矩阵;
34.根据各所述替换后字符的特征向量确定与各所述替换后字符对应的概率矩阵;
35.通过交叉熵损失函数确定所述标签矩阵和所述概率矩阵之间的损失值,将所述损失值作为所述目标损失值。
36.可选地,所述对初始文本进行格式转换,得到初始语料,包括:
37.确定与当前的任务类型匹配的任务模板,所述任务模板用于指示所述通用文本处理模型和所述目标文本处理模型需要对各所述初始文本和各所述待处理文本执行的操作,以及指示所述通用文本处理模型和所述目标文本处理模型需要输出的内容;
38.按照所述任务模板对各所述初始文本进行格式转换,以得到各所述初始语料;
39.所述根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,包括:
40.将各所述初始语料输入所述通用文本处理模型对所述通用文本处理模型进行训练以调整所述通用文本处理模型的参数,将调整后的所述通用文本处理模型作为所述目标文本处理模型。
41.可选地,所述根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型之后,还包括:
42.将各所述待处理文本输入所述目标文本处理模型,识别各所述待处理文本中的各习语并确定各所述待处理文本中的各习语的位置;
43.利用预先训练的语言模型根据各所述待处理文本中的各习语的位置对各所述待处理文本中的各习语进行替换,得到替换后文本;
44.将所述替换后文本输入所述目标文本处理模型进行迭代替换,直至达到第二预设条件结束习语替换任务。
45.可选地,所述方法还包括:
46.将各所述待处理文本和识别出的各所述待处理文本中的各习语存储到习语数据库中。
47.可选地,在所述基于多个样本文本训练得到通用文本处理模型之前,所述方法还包括:
48.从习语数据库中获取各所述样本文本。
49.可选地,在所述基于多个样本文本训练得到通用文本处理模型之前,所述方法还包括:
50.对各所述样本文本进行预处理操作,所述预处理操作包括如下至少一项:数据过滤、文本划分。
51.本技术实施例的第二方面,提供了一种文本处理模型训练装置,所述文本处理模型训练装置包括:
52.训练模块,用于基于多个样本文本训练得到通用文本处理模型,所述通用文本处理模型用于确定输入文本中各词语属性信息,所述属性信息包括:词性、含义以及用法;
53.转换模块,用于对初始文本进行格式转换,得到初始语料,所述初始语料用于指示所述初始文本和所述初始文本中的习语;
54.调整模块,用于根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,所述目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。
55.本技术实施例的第三方面,提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面所述的文本处理模型训练方法。
56.本技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的文本处理模型训练方法。
57.本技术实施例的有益效果包括:
58.本技术实施例提供的一种文本处理模型训练方法,通过基于多个样本文本训练得到通用文本处理模型,对初始文本进行格式转换,得到初始语料,根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型。其中,基于各样本文本训练得到的该通用文本处理模型可以准确地获知各词语的属性信息,基于该通用文本处理模型对文本中的习语进行识别或提取或替换,就可以提高识别习语的准确率。对初始文本进行格式转换,得到初始语料,这样,可以使得该通用文本处理模型能够识别该初始语料。根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,由于,该初始语料用于指示该初始文本和该初始文本中的习语,那么通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型进一步获取各习语中的各个词语的属性信息,也就是说,通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型更好的掌握各种习语中的各词语的词性、含义、用法以及各种习语的结构,这样就可以通过该初始语料对该通用文本处理模型进行功能增强,就可以进一步提高该通用文本处理模型对未知习语的识别能力,进而得到的该目标文本处理模型就可以准确、高效地基于待处理文本中各词语的词性、含义以及用法识别待处理文本中的已知习语和未知习语。如此,通过该目标文本处理模型识别出各个词语的属性信息进而判断各词语的属性信息是否符合各种习语的结构、各种习语的含义、各种习语的用法,若符合则可以确定各词语为习语,这样,就可以提高识别出新创造的习语或未知习语的准确率以及对文本进行准确地处理的效果。
附图说明
59.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
60.图1为本技术实施例提供的第一种文本处理模型训练方法的流程图;
61.图2为本技术实施例提供的第二种文本处理模型训练方法的流程图;
62.图3为本技术实施例提供的第三种文本处理模型训练方法的流程图;
63.图4为本技术实施例提供的第四种文本处理模型训练方法的流程图;
64.图5为本技术实施例提供的第五种文本处理模型训练方法的流程图;
65.图6为本技术实施例提供的第六种文本处理模型训练方法的流程图;
66.图7为本技术实施例提供的第七种文本处理模型训练方法的流程图;
67.图8为本技术实施例提供的第八种文本处理模型训练方法的流程图;
68.图9为本技术实施例提供的一种文本处理模型训练装置的结构示意图;
69.图10为本技术实施例提供的另一种文本处理模型训练装置的结构示意图;
70.图11为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
71.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
72.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
73.在相关技术中,一般会针对每个习语词组训练一个分类器来判断词组是否在一个整句中属于习语,或者基于序列标注的方式利用预训练模型来确定整句或文章中的每个字或者单词是否属于习语的一部分,或者通过指针的预测方式利用模型预测习语词组的起止来获取整句或文章中的各个习语。在互联网时代,人们可能会根据时事随时随地创造出新的习语,然而,相关技术的方案只能根据相关技术人员提前录入的习语对整句或文章中存在的习语进行识别。因此,针对新出现的习语,相关技术存在识别文本中的习语的准确率较低、难以对文本进行准确地处理的问题。
74.为此,本技术实施例提供了文本处理模型训练方法,通过基于多个样本文本训练得到通用文本处理模型,对初始文本进行格式转换,得到初始语料,根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,利用该目标文本处理模型进行习语识别,可以达到提高识别新出现的习语的准确率以及对文本进行准确地处理的效果。
75.本技术实施例以应用在计算机设备中的文本处理模型训练方法为例进行说明。但不表明本技术实施例仅能应用于计算机设备中进行文本处理模型训练。
76.下面对本技术实施例提供的文本处理模型训练方法进行详细地解释说明。
77.图1为本技术提供的一种文本处理模型训练方法的流程图,该方法可以应用于计算机设备,该计算机设备可以是任意带有处理功能的终端设备或服务器。参见图1,本技术实施例提供一种文本处理模型训练方法,包括:
78.步骤1001:基于多个样本文本训练得到通用文本处理模型。
79.可选地,各样本文本可以是语句通顺、逻辑清楚正确的文本。这样,才可以确保训练得到的该通用文本处理模型的准确性和可靠性。
80.各样本文本的数量可以较多。另外,各样本文本可以包括一句话或几句话,各样本文本还可以包括整个段落的句子,本技术实施例对此不做限定。
81.可选地,该通用文本处理模型用于确定输入文本中各词语的属性信息。
82.各词语可以是指单个字符,也可以是至少包含两个或两个以上字符的词组,本申
请实施例对此不做限定。
83.该输入文本可以是指任意输入该通用文本处理模型的文本,该输入文本可以包括但不限于各样本文本和需要进行习语识别的待处理文本。
84.可选地,该属性信息包括:词性、含义以及用法。该词性包括:名词、形容词、副词、动词、代词等。该含义可以是指各词语的包含的意义。该用法可以是指各词语在文本、语句或段落中的用法,比如形容词一般需要位于名词或代词之前用来修饰名词或代词、副词一般需要位于动词或形容词之前用来修饰动词或形容词、各词语的倒装用法、各种修辞手法等。
85.值得注意的是,基于各样本文本训练得到的该通用文本处理模型可以准确地获知各词语的属性信息,基于该通用文本处理模型对文本中的习语进行识别或提取或替换,就可以提高识别习语的准确率,便于执行后续操作。
86.步骤1002:对初始文本进行格式转换,得到初始语料。
87.可选地,该初始文本可以是指包含习语词组或习语短句的文本。
88.该初始文本的数量可以较多,这样,就可以得到较多的初始语料。
89.可选地,该初始语料用于按照预设格式指示该初始文本和该初始文本中的习语。该初始语料还可以用于按照该预设格式该初始文本、该初始文本中的习语以及该初始文本中的习语的数量。
90.格式转换可以是指将该初始文本的格式转化为该通用文本处理模型可以识别的预设格式。
91.示例性地,可以将该初始文本输入到一个特定的模板中,以识别出该初始文本中的习语,该初始语料就可以按照这个特定的模板对应的预设格式同时指示出该初始文本的内容并且识别出该初始文本中的习语。
92.例如,该初始文本可以是“接下来我就抛砖引玉,先说一下我的方案”,那么,将该初始文本输入到这个特定的模板中,就可以识别出该初始文本中的习语就是“抛砖引玉”,而与这个特定的模板对应的预设格式可以是“初始文本为:

xxxxxx’,初始文本中的习语为:

xxx
’”
,其中,

xxxxxx’用于填入初始文本的内容,

xxx’用于填入识别出的习语。那么,该初始语料就可以是“初始文本为:

接下来我就抛砖引玉,先说一下我的方案’,初始文本中的习语为:

抛砖引玉
’”
。此处举例仅仅是为了解释说明该初始语料的形式和该预设格式,并不代表本技术实施例中的初始语料只能是这一种形式,本技术实施例对此不做限定。
93.步骤1003:根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型。
94.可选地,该目标文本处理模型可以用于基于待处理文本中各词语的词性、含义以及用法识别待处理文本中的习语。
95.该待处理文本可以是指需要进行习语识别、习语提取、习语替换、习语解释等处理的任意文本。该待处理文本中可以包括一个习语,也可以包括多个习语,该待处理文本中还可以不包括任何习语。
96.值得注意的是,若各待处理文本中包括了新出现的习语,在这种情况下,将各待处理文本输入该目标文本处理模型,该目标文本处理模型就可以基于各待处理文本中各个字符的词性、用法、含义判断各字符是否可以组合,并可以判断各待处理文本中各字符组合得
到的各词组是否符合习语的结构、用法等,若符合,则可以将各待处理文本中各字符组合得到的各词组中符合习语的结构、用法词组作为习语。
97.示例性地,若该初始语料指示的一个初始文本的内容为“接下来我就抛砖引玉,先说一下我的方案”,这个初始文本中的习语为“抛砖引玉”,那么,该通用文本处理模型就可以根据各个词的词性确定出“抛砖引玉”中“抛”和“引”为动词,“砖”和“玉”为名词,且“砖”和“玉”的含义分别为低价值的物品和高价值的物品,“抛”和“引”代表的动作含义也相反,那么若有一个包含“抛砖引金”的待处理文本输入这样得到目标文本处理模型中,该目标文本处理模型也就可以识别出“抛”和“引”代表的动作含义相反、且“抛”和“引”为动词、“砖”和“金”为名词,并且“砖”和“玉”的含义分别为低价值的物品和高价值的物品,那么该目标文本处理模型就可以识别出“抛砖引金”为习语。
98.也就是说,可以通过该目标文本处理模型识别出各个词语的属性信息进而判断各词语的属性信息是否符合各种习语的结构、各种习语的含义、各种习语的用法,若符合则可以确定各词语为习语,这样,就可以实现识别出新创造的习语或未知习语的目的。此处举例只是为了对本技术实施例提供的文本处理模型训练方法进行说明,并不代表本技术实施例仅仅能以这样的方式进行实施,本技术实施例对此不做限定。
99.值得说明的是,由于该初始语料可以指示出该初始文本中的习语。那么通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型进一步获取各习语中的各个词语的属性信息,也就是说,通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型更好的掌握各种习语中的各词语的词性、含义、用法以及各种习语的结构,这样就可以通过该初始语料对该通用文本处理模型进行功能增强。
100.如此,就可以进一步提高该通用文本处理模型对习语的识别能力,进而得到的该目标文本处理模型就可以准确、高效地基于待处理文本中各词语的词性、含义以及用法识别待处理文本中的习语。
101.在本技术实施例中,通过基于多个样本文本训练得到通用文本处理模型,对初始文本进行格式转换,得到初始语料,根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型。其中,基于各样本文本训练得到的该通用文本处理模型可以准确地获知各词语的属性信息,基于该通用文本处理模型对文本中的习语进行识别或提取或替换,就可以提高识别习语的准确率。对初始文本进行格式转换,得到初始语料,这样,可以使得该通用文本处理模型能够识别该初始语料。根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,由于,该初始语料用于指示该初始文本和该初始文本中的习语,那么通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型进一步获取各习语中的各个词语的属性信息,也就是说,通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型更好的掌握各种习语中的各词语的词性、含义、用法以及各种习语的结构,这样就可以通过该初始语料对该通用文本处理模型进行功能增强,就可以进一步提高该通用文本处理模型对未知习语的识别能力,进而得到的该目标文本处理模型就可以准确、高效地基于待处理文本中各词语的词性、含义以及用法识别待处理文本中的已知习语和未知习语。如此,通过该目标文本处理模型识别出各个词语的属性信息进而判断各词语的属性信息是否符合各种习语的结构、各种习语
的含义、各种习语的用法,若符合则可以确定各词语为习语,这样,就可以提高识别出新创造的习语或未知习语的准确率以及对文本进行准确地处理的效果。
102.一种可能的实现方式中,参见图2,基于多个样本文本训练得到通用文本处理模型,包括:
103.步骤1004:将各样本文本输入初始文本处理模型,由该初始文本处理模型对各样本文本中的至少一个字符进行标记。
104.可选地,可以通过各种方式对各样本文本中的各字符进行标记。
105.示例性地,可以通过对各样本文本中的各字符进行遮蔽或删除,还可以用特殊的符号对各样本文本中的各字符进行替换,还可以通过其他任意可能实现的标记方式进行标记,本技术实施例对此不做限定。
106.可选地,该初始文本处理模型可以是基于t5网络结构并且包括12 层transformer结构的神经网络模型,本技术实施例对此不做限定。
107.值得注意的是,在对各样本文本中的至少一个字符进行标记的情况下,该初始文本处理模型就无法识别出各样本文本中被标记的各字符,也即,该初始文本处理模型只能识别出未被标记的其他字符。
108.步骤1005:由该初始文本处理模型根据各字符的属性信息将各字符进行替换,得到与标记的各字符对应的替换后字符。
109.可选地,根据各字符的属性信息将各字符进行替换,可以是指通过各样本文本中未被标记的其他字符的上下文含义以及语境内容对被标记的各字符进行预测并补充,预测得到的结果就是标记的各字符对应的替换后字符。
110.步骤1006:根据标记的各字符和各替换后字符确定该初始文本处理模型的损失信息。
111.可选地,该损失信息可以用于指示标记的各字符和各替换后字符之间的一致性,也可以用于指示各样本文本与将各替换后的字符插入或补充到对应位置之后的到的替换后文本之间的一致性。
112.具体地,该损失信息还可以用于指示标记的各字符的特征向量和各替换后字符的特征向量之间的一致性。
113.一般地,该损失信息越小则可以确定标记的各字符和各替换后字符之间的一致性越高或者各样本文本与将各替换后的字符插入或补充到对应位置之后的到的替换后文本之间的一致性越高。
114.步骤1007:根据该初始文本处理模型的损失信息,对该初始文本处理模型进行迭代修正,直至该初始文本处理模型达到第一预设条件结束训练,将达到该第一预设条件的初始文本处理模型作为该通用文本处理模型。
115.可选地,该第一预设条件可以是由相关技术人员提前设置的用于停止训练该初始文本处理模型的条件。
116.该第一预设条件可以是对该初始文本处理模型进行迭代修正的次数达到预设次数,比如100次或500次,当然也可以是其他可能的次数。该第一预设条件也可以是该损失信息小于一定的阈值。本技术实施例对此不作限定。
117.可选地,该通用文本处理模型就是已经达到该第一预设条件的初始文本处理模
型,在这种情况下,该通用文本处理模型就可以准确地确定各词语的属性信息。
118.值得注意的是,在这种情况下,该通用文本处理模型并无法直接对各待处理文本准确地进行处理,也就是说,该通用文本处理模型若需要对各待处理文本准确地进行相应的处理,还需要对该通用文本处理模型进行功能增强,以调整该通用文本处理模型的参数,以使得该通用文本处理模型具备一定指向性的功能。
119.值得说明的是,基于各样本文本训练得到的该通用文本处理模型可以准确地获知各词语的属性信息,基于该通用文本处理模型对文本中的习语进行识别或提取或替换,就可以提高对习语进行处理的准确率,便于执行后续操作。
120.一种可能的实现方式中,参见图3,将各样本文本输入初始文本处理模型,由该初始文本处理模型对各样本文本中的至少一个字符进行标记,包括:
121.步骤1008:将各样本文本输入初始文本处理模型,分别确定各样本文本中的字符总数。
122.可选地,该字符总数可以包括汉字字符、英文字符、标点符号以及其他任意可能的语言的字符。
123.步骤1009:基于各样本文本中的字符总数和预设比例,对各样本文本中字符进行标记。
124.可选地,该预设比例用于指示各样本文本中需要标记的字符数量占各样本文本中的字符总数的比例。
125.另外,该预设比例可以是由相关技术人员提前设置的,一般地,可以将该预设比例设置为15%、20%或者其他任意可能的比例。
126.值得注意的是,一般可以将该预设比例设置的较大,这样,就需要上述初始文本处理模型对各样本文本的语义、各词语的属性信息有更深入的掌握,如此,可以提高训练得到的该通用文本处理模型的准确性。但是,也不能将该预设比例设置的过大,这样,就可以缩短训练得到的该通用文本处理模型的时长,还可以降低训练该通用文本处理模型时的处理压力。
127.一种可能的实现方式中,参见图4,基于各样本文本中的字符总数和预设比例,对各样本文本中字符进行标记,包括:
128.步骤1010:基于各样本文本中的字符总数和该预设比例,确定各样本文本中需要标记的字符数量。
129.示例性地,可以将各样本文本中的字符总数与该预设比例相乘,并得到乘积,并将得到的乘积作为需要标记的字符数量。
130.步骤1011:由该初始文本处理模型根据该需要标记的字符数量随机对各样本文本中字符进行标记。
131.值得说明的是,由于是随机对各样本文本中字符进行标记的,这样,就可以提高训练样本的多样性和随机性,进而可以提升训练得到该通用文本处理模型的准确性。
132.一种可能的实现方式中,参见图5,由该初始文本处理模型根据各字符的属性信息将各字符进行替换,得到与标记的各字符对应的替换后字符,包括:
133.步骤1012:由该初始文本处理模型确定与各样本文本中的目标字符相邻的任一字符是否为标记的各字符。
134.可选地,该目标字符为各样本文本中标记的各字符中的任意一个字符。
135.值得注意的是,由于各样本文本是语句通顺、逻辑清楚正确的文本,那么,各样本文本中的各个字符的顺序就是固定的。而确定与各样本文本中的目标字符相邻的任一字符是否为标记的各字符就是确定标记的各字符是否是相邻的。
136.步骤1013:若是,则由该初始文本处理模型将与该目标字符相邻的字符和该目标字符作为一个待替换词组。
137.也就是说,可以将各样本文本中多个相邻的被标记的字符合并为一个待替换的词组,这样,可以进一步提高训练得到的该通用文本处理模型识别词组的能力。另外,将相邻的被标记的字符作为一个词组,这样,就无需对每个被标记的字符均进行上下文语义识别,而可以直接根据待替换词组的上下文进行语义识别,这样,还可以降低训练该通用文本处理模型的计算量。
138.步骤1014:若否,则由该初始文本处理模型各目标字符分别作为一个该待替换词组。
139.这样,可以对每个被标记的字符均进行上下文语义识别,进而可以准确地确定出每个被标记的字符对应的替换后字符,进而可以提高训练得到的该通用文本处理模型的准确性。
140.步骤1015:由该初始文本处理模型基于该预设词组库中各词语的属性信息将各待替换词组进行替换,得到与标记的各字符对应的替换后字符。
141.可选地,该预设词组库中包括多个词语和各词语的特征向量。
142.可选地,该特征向量的长度可以为768维或者512维,该特征向量可以作为各词语的表示,具体地,各词语的特征向量可以用于指示各词语的词性、含义、用法。这样,可以方便计算机设备读取各词语的词性、含义、用法。
143.并且,在将该初始文本处理模型训练为该通用文本处理模型的过程中,该初始文本处理模型还可以转换并记录各样本文本中各词语的特征向量,这样,在后续的应用时,就可以直接从模型中获取到各词语的特征向量。
144.可选地,该预设词组库可以是由相关技术人员提前根据人们日常使用的词语建立得到的词组库,该预设词组库中可以包括单字符的词语,也可以包括两个或两个以上字符的词组,还可以包括歇后语、谚语等,本技术实施例对此不做限定。
145.示例性地,可以通过如下方式建立预设词组库:
146.获取多个语料,并对各语料进行预处理操作,得到各目标语料。
147.可以通过各个社交媒体网站和电子商务网站的评论数据、人民日报、中文、百度百科等,尽可能的收集到更多的语料。
148.对各目标语料进行数值转换,得到各目标语料的特征向量。
149.可以将各目标语料转换为长度可以为768维或者512维的该特征向量。
150.根据各目标语料和各目标语料的特征向量建立该预设词组库。
151.这样,基于各样本文本和对各样本文本中标记的各字符进行替换之后得到的各待替换字符训练得到的该通用文本处理模型就可以准确地获知各词语的属性信息,进而可以更为准确地了解各词语或各词组的语境含义、词性、用法、词组结构等。基于该通用文本处理模型对文本中的习语进行识别或提取或替换,就可以提高对习语进行处理的准确率,便
于执行后续操作。
152.一种可能的实现方式中,由该初始文本处理模型基于该预设词组库中各词语的属性信息将各待替换词组进行替换,得到与标记的各字符对应的替换后字符,包括:
153.由该初始文本处理模型根据各样本文本的语义从该预设词组库中提取与各待替换词组匹配的词语。
154.可选地,可以通过调用相应的语义识别算法来识别各样本文本的语义,也可以通过逐个确定各样本文本中的各字符的属性信息然后生成各样本文本的语义,本技术实施例对此不做限定。
155.将该预设词组库中提取的各词语作为各替换后字符。
156.这样,就可以得到与标记的各字符对应的替换后字符,可以准确地计算出上述的损失信息,进而提高该通用文本处理模型的准确性。
157.一种可能的实现方式中,参见图6,根据标记的各字符和各替换后字符确定该初始文本处理模型的损失信息,包括:
158.步骤1016:确定标记的各字符的特征向量和各替换后字符的特征向量之间的一致性,得到目标损失值,并将该目标损失值作为该损失信息。
159.一种可能的方式,确定标记的各字符的特征向量和各替换后字符的特征向量之间的一致性,得到目标损失值,包括:
160.根据标记的各字符的特征向量确定与标记的各字符对应的标签矩阵。
161.可选地,该标签矩阵可以是由各待替换词组中的被标记的各字符的特征向量转化得到的矩阵。
162.根据各替换后字符的特征向量确定与各替换后字符对应的概率矩阵。
163.可选地,该概率矩阵可以是由各样本文本中与各待替换词组中的被标记的各字符对应的字符的特征向量转化得到的矩阵。
164.通过交叉熵损失函数(cross entropy loss)确定该标签矩阵和该概率矩阵之间的损失值,将该损失值作为该目标损失值。
165.示例性地,可以通过如下式(1)所示的交叉熵损失函数来计算该标签矩阵和该概率矩阵之间的损失值。
166.h(p,q)=-∑
x
p(x)logq(x)
ꢀꢀꢀꢀ
(1)
167.其中,p为该概率矩阵,q为该标签矩阵。
168.这样,得到的目标损失值越小可以确定标记的各字符和各替换后字符之间的一致性越高或者各样本文本与将各替换后的字符插入或补充到对应位置之后的到的替换后文本之间的一致性越高。
169.下面提供一个具体的实施例来对上文中各个对应的实施例进行解释说明。
170.示例性地,假设上述预设比例为20%,一个样本文本为“天气太热了,我想吃冰淇淋。”,那么,可以确定出这个样本文本包括标点符号的字符总数为13个字,进而可以确定这个样本文本中需要标记的字符数量为2.6 个,进一步取整可以将这个样本文本中需要标记的字符数量作为3个,并随机对各样本文本中字符进行标记。
171.例如,若随机标记的字符为“太”、“热”和“冰”,由于“太”和“热”是相邻的,可以将“太”和“热”合并为一个“太热”的待替换字符,因此,可以得到这个样本文本中的待替换词
组为“太热”和“冰”。
172.另外,还可以将待替换词组进行遮蔽,并对标记后的样本文本进行格式转换,可以得到标记后的样本文本可以是“天气《x》了,我想吃《y》淇淋。”。
173.也就是说,需要对《x》和《y》进行预测,具体可以是根据上述的预设词组库中各个词语的特征向量来通过softmax的方式,根据上下文的语义、上下文字符的属性信息和文本结构将《x》和《y》的字符的特征向量分别转换成一个21128*2和一个21128*1的概率矩阵,另外,可以将未替换前的这个样本文本中的“太热”和“冰”分别转化为一个21128*2和一个21128*1的标签矩阵。
174.又例如,在《x》和《y》中仅仅只有一个字符的情况下,就可以通过 softmax的方式,根据上下文的语义、上下文字符的属性信息和文本结构将《x》和《y》的字符的特征向量分别转换成两个21128*1的概率矩阵,另外,可以将未替换前的这个样本文本中与《x》和《y》对应的两个字符分别转化为两个21128*1的标签矩阵。
175.以上内容仅仅是为了更好地对本技术的各个实施例进行解释说明的举例,并不代表本技术实施例仅仅能以上例列出的方式进行实施。
176.一种可能的实现方式中,参见图7,对初始文本进行格式转换,得到初始语料,包括:
177.步骤1017:确定与当前的任务类型匹配的任务模板。
178.可选地,该任务模板用于指示该通用文本处理模型和该目标文本处理模型需要对各初始文本和各待处理文本执行的操作,以及指示该通用文本处理模型和该目标文本处理模型需要输出的内容。
179.可选地,该任务类型可以包括习语识别、习语提取、习语替换、习语解释,该任务类型还可以包括文本情感分析,文本翻译,文本续写等,本技术实施例对此不做限定。
180.示例性地,该任务模板可以是“抽取句子中的习语:”、“句子中的习语词组有:”、“输出句子中的习语和习语的数量:”,在这种情况下,该目标文本处理模型就可以提取并输出各待处理文本中的习语。该任务模板也可以是“将句子中的习语替换为标准文本:”,在这种情况下,该目标文本处理模型就可以识别出各待处理文本中的习语,并且将各待处理文本中的习语替换为意思相同的标准文本。
181.步骤1018:按照该任务模板对各初始文本进行格式转换,以得到各初始语料。
182.示例性地,若一个初始文本为“接下来我就抛砖引玉,先说一下我的方案”,而一个任务模板为“抽取句子中的习语:”,这个初始文本中的习语为“抛砖引玉”,那么,经过格式转换之后得到的初始语料就可以是:输入:“抽取下面句子中的习语:接下来我就抛砖引玉,先说一下我的方案”,输出:“《s》抛砖引玉《/s》”。其中,该初始预料的预设格式就可以是“抽取下面句子中的习语:xxxxxx”,输出:“《s》xxx《/s》”,《s》和《/s》 是为了标识输出的内容,还可以标识输出的内容为习语,本技术实施例对此不做限定。
183.例如,若一个初始文本为“你这个??真会!!”,而一个任务模板为“句子中的习语词组有:”,这个初始文本中的习语为“??”和“!!”,那么,经过格式转换之后得到的初始语料就可以是:输入:“句子中的习语词组有:你这个??真会!!,输出:“《s》??,!!《/s》”。该初始预料的预设格式就可以是“句子中的习语词组有:xxxxxx”,输出:“《s》xxx《/s》”。其中,“??”和“!!”可以是指网络用语中一些不文明词语,或者其他在日常交流中不规范的词语,本技术
实施例对此不做限定。
184.又例如,若一个初始文本为“你这个??真会!!”,这个初始文本中的习语为“??”和“!!”,那么,经过格式转换之后得到的初始语料就可以是:输入:“输出句子中的习语和习语的数量:你这个??真会!!”,输出:“《s》??,!!《/s》,《s》2《/s》”。
185.若另一个初始文本为“天气太热了,我想吃冰淇淋”,而这另一个初始文本中没有习语,经过格式转换之后得到的初始语料就可以是:输入:“输出句子中的习语和习语的数量:天气太热了,我想吃冰淇淋”,输出:“《s》null《/s》”,《s》0《/s》”。其中,该初始预料的预设格式就可以是“输出句子中的习语和习语的数量:xxxxxx”,输出:“《s》xxx《/s》, 《s》y《/s》”,《s》和《/s》是为了标识输出的内容,还可以标识输出的内容为习语和习语的数量,本技术实施例对此不做限定。
186.又例如,若一个初始文本为“你可真会**啊”,而这个初始文本中“**”可以是指意思为“偷懒”的网络用语,一个任务模板为“解释句子中的习语:”,那么,经过格式转换之后得到的初始语料就可以是:输入:“解释句子中的习语:你可真会**啊”,输出:“《s》偷懒《/s》”。其中,该初始预料的预设格式就可以是“解释句子中的习语:xxxxxx”,输出:“《s》xxx《/s》”,《s》和《/s》是为了标识输出的内容,还可以标识输出的内容为习语的解释,本技术实施例对此不做限定。
187.继续参见图7,根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,包括:
188.步骤1019:将各初始语料输入该通用文本处理模型对该通用文本处理模型进行训练,以调整该通用文本处理模型的参数,将调整后的该通用文本处理模型作为该目标文本处理模型。
189.值得说明的是,由于该初始语料可以指示出该初始文本中的习语。那么通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型进一步获取各习语中的各个词语的属性信息,也就是说,通过该初始语料对该通用文本处理模型进行参数调整就可以使得该通用文本处理模型更好的掌握各种习语中的各词语的词性、含义、用法以及各种习语的结构,这样就可以通过该初始语料对该通用文本处理模型进行功能增强。如此,就可以进一步提高该通用文本处理模型对习语的识别能力,进而得到的该目标文本处理模型就可以准确、高效地基于待处理文本中各词语的词性、含义以及用法识别待处理文本中的习语。
190.为了更好地对本技术实施例提供的目标文本处理模型的应用场景进行解释说明,本技术实施例还提供一种可能的实现方式,来本实施例中,该目标文本处理模型的任务类型为习语替换,也即,该目标文本处理模型可以将各待处理文本中的习语识别出来,并将识别出的习语替换成标准文本或其他意思相同的文本。
191.参见图8,根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型之后,还包括:
192.步骤1020:将各待处理文本输入该目标文本处理模型,识别各待处理文本中的各习语并确定各待处理文本中的各习语的位置。
193.可选地,识别各待处理文本中的各习语可以是按文本顺序逐字对各待处理文本中各字符的属性信息进行识别,并且将各待处理文本中的各字符按顺序组合为各词组,并将
组合得到的各词组中与各种习语的结构、各种习语的含义、各种习语的用法匹配的各词组作为各待处理文本中的各习语。
194.另外,各待处理文本中的各习语的位置可以是指识别出来的各习语中的各个字符在各待处理文本中的排序序号,并且可以将各个习语中的第一个字符的排序序号作为这个习语在这个待处理文本中的起始位置,可以将各个习语中的最后一个字符的排序序号作为这个习语在这个待处理文本中的终止位置。还可以通过其他任意可能的方式来确定各待处理文本中的各习语的位置,本技术实施例对此不做限定。
195.步骤1021:利用预先训练的语言模型根据各待处理文本中的各习语的位置对各待处理文本中的各习语进行替换,得到替换后文本。
196.可选地,预先训练的语言模型可以是指基于bert[3]的语言模型,也可以是其他可能实现替换同语义词组替换功能的语言模型,本技术实施例对此不做限定。
[0197]
步骤1022:将该替换后文本输入该目标文本处理模型进行迭代替换,直至达到第二预设条件结束习语替换任务。
[0198]
可选地,该第二预设条件可以是由相关技术人员提前设置的用于停止习语替换任务的条件。
[0199]
示例性地,该第二预设条件可以是对各待处理文本进行习语替换和/ 或迭代替换的次数达到预设替换次数,比如3次或5次,当然也可以是其他可能的次数。该第二预设条件也可以是该替换后文本中不存在任何习语。本技术实施例对此不作限定。
[0200]
例如,可以默认每个句子中至多包括三个习语,那么就可以将该预设替换次数设置为3,那么,在根据各待处理文本中的各习语的位置对各待处理文本中的各习语进行替换并得到替换后文本之后,就可以在对替换后文本进行两次迭代替换之后,结束习语替换任务。
[0201]
需要说明的是,本技术实施例中仅仅以通过该目标文本处理模型对各待处理文本进行习语替换举例进行解释说明,但并不表明本技术实施例提供的该目标文本处理模型仅可以对各待处理文本进行习语替换这一功能,该目标文本处理模型还可以对各待处理文本进行习语识别、习语提取、习语解释等多种处理。
[0202]
这样,基于该目标文本处理模型就可以准确地识别出句子中存在的已知习语和新出现的习语,如此,就可以提高识别新出现的习语的准确率以及对文本进行准确地处理的效果。
[0203]
一种可能的实现方式中,该方法还包括:
[0204]
将各待处理文本和识别出的各待处理文本中的各习语存储到习语数据库中。
[0205]
可选地,该习语数据库中可以包括已知的习语,也可以包括由该目标文本处理模型从各待处理文本中识别出的习语,本技术实施例对此不做限定。
[0206]
一种可能的实现方式中,在该基于多个样本文本训练得到通用文本处理模型之前,该方法还包括:
[0207]
从习语数据库中获取各样本文本。
[0208]
值得注意的是,也就是说,在各样本文本中可以包括至少一个习语,可以从该习语数据库中取出习语词组和/或包括习语的句子作为训练该初始文本处理模型的样本数据,这样,可以提升得到的目标文本处理模型识别的准确率,提升识别习语的准确性和的效果。
然后循环式的提升习语识别模型的效果以及扩充该数据库的数量。
[0209]
一种可能的实现方式中,在该基于多个样本文本训练得到通用文本处理模型之前,该方法还包括:
[0210]
对各样本文本进行预处理操作,该预处理操作包括如下至少一项:数据过滤、文本划分。
[0211]
可选地,数据过滤可以是指过滤掉各样本文本中的网页链接、标签信息以及其他没有实际含义的字符。
[0212]
文本划分可以是指对包括两个以上的句子的样本文本中的以特定窗口值的形式进行划分。其中,窗口值可以用于指示划分后的各样本文本中的句子数量。
[0213]
示例性地,一个样本文本中包括5句话,然后可以以窗口值大小为2 的形式将这个样本文本划分为多个句子的组合。这样,就可以将这个样本文本中的5句话划分为4个新的样本文本,比如:可以将第1句和第2句作为一个新的样本文本,可以将第2句和第3句作为一个新的样本文本,可以将第3句和第4句作为一个新的样本文本,可以将第4句和第5句作为一个新的样本文本。
[0214]
在这种情况下,可以以句子间的标点符号作为断句的依据,本技术实施例对此不做限定。
[0215]
值得注意的是,经过对样本文本进行文本划分,可以进一步提高该通用文本处理模型和该目标文本处理模型对句子间的语义识别能力,这样,可以更高效、更可靠地完成模型训练任务。
[0216]
另外,在将各待处理文本输入该目标文本处理模型的情况下,可以对各待处理文本也进行相应的预处理,这样还可以提高对各待处理文本的识别的准确性。
[0217]
下述对用以执行的本技术所提供文本处理模型训练方法的装置、设备及计算机可读存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
[0218]
图9是本技术实施例提供的一种文本处理模型训练装置的结构示意图,参见图9,该装置包括:
[0219]
训练模块201,可以用于基于多个样本文本训练得到通用文本处理模型,该通用文本处理模型用于确定输入文本中各词语属性信息,该属性信息包括:词性、含义以及用法;
[0220]
转换模块202,用于对初始文本进行格式转换,得到初始语料,该初始语料用于指示该初始文本和该初始文本中的习语;
[0221]
调整模块203,用于根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,该目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。
[0222]
可选地,训练模块201还可以用于将各样本文本输入初始文本处理模型,由该初始文本处理模型对各样本文本中的至少一个字符进行标记。
[0223]
训练模块201还可以用于由该初始文本处理模型根据各字符的属性信息将各字符进行替换,得到与标记的各字符对应的替换后字符。
[0224]
训练模块201还可以用于根据标记的各字符和各替换后字符确定该初始文本处理模型的损失信息。
[0225]
训练模块201还可以用于根据该初始文本处理模型的损失信息,对该初始文本处
理模型进行迭代修正,直至该初始文本处理模型达到第一预设条件结束训练,将达到该第一预设条件的初始文本处理模型作为该通用文本处理模型。
[0226]
训练模块201还可以用于将各样本文本输入初始文本处理模型,分别确定各样本文本中的字符总数。
[0227]
训练模块201还可以用于基于各样本文本中的字符总数和预设比例,对各样本文本中字符进行标记。
[0228]
训练模块201还可以用于基于各样本文本中的字符总数和该预设比例,确定各样本文本中需要标记的字符数量。
[0229]
训练模块201还可以用于由该初始文本处理模型根据该需要标记的字符数量随机对各样本文本中字符进行标记。
[0230]
训练模块201还可以用于由该初始文本处理模型确定与各样本文本中的目标字符相邻的任一字符是否为标记的各字符。在是的情况下,则由该初始文本处理模型将与该目标字符相邻的字符和该目标字符作为一个待替换词组。在否的情况下,由该初始文本处理模型各目标字符分别作为一个该待替换词组。
[0231]
训练模块201还可以用于由该初始文本处理模型基于该预设词组库中各词语的属性信息将各待替换词组进行替换,得到与标记的各字符对应的替换后字符。
[0232]
训练模块201还可以用于由该初始文本处理模型根据各样本文本的语义从该预设词组库中提取与各待替换词组匹配的词语。
[0233]
训练模块201还可以用于将该预设词组库中提取的各词语作为各替换后字符。
[0234]
训练模块201还可以用于确定标记的各字符的特征向量和各替换后字符的特征向量之间的一致性,得到目标损失值,并将该目标损失值作为该损失信息。
[0235]
训练模块201还可以用于根据标记的各字符的特征向量确定与标记的各字符对应的标签矩阵。
[0236]
训练模块201还可以用于根据各替换后字符的特征向量确定与各替换后字符对应的概率矩阵。
[0237]
训练模块201还可以用于通过交叉熵损失函数(cross entropy loss) 确定该标签矩阵和该概率矩阵之间的损失值,将该损失值作为该目标损失值。
[0238]
调整模块203还可以用于确定与当前的任务类型匹配的任务模板。
[0239]
调整模块203还可以用于按照该任务模板对各初始文本进行格式转换,以得到各初始语料。
[0240]
调整模块203还可以用于将各初始语料输入该通用文本处理模型对该通用文本处理模型进行训练,以调整该通用文本处理模型的参数,将调整后的该通用文本处理模型作为该目标文本处理模型。
[0241]
参见图10,该装置还可以包括处理模块204。
[0242]
处理模块204还可以用于将各待处理文本输入该目标文本处理模型,识别各待处理文本中的各习语并确定各待处理文本中的各习语的位置。
[0243]
处理模块204还可以用于利用预先训练的语言模型根据各待处理文本中的各习语的位置对各待处理文本中的各习语进行替换,得到替换后文本。
[0244]
处理模块204还可以用于将该替换后文本输入该目标文本处理模型进行迭代替
换,直至达到第二预设条件结束习语替换任务。
[0245]
处理模块204还可以用于将各待处理文本和识别出的各待处理文本中的各习语存储到习语数据库中。
[0246]
训练模块201还可以用于从习语数据库中获取各样本文本。
[0247]
处理模块204还可以用于对各样本文本进行预处理操作,该预处理操作包括如下至少一项:数据过滤、文本划分。
[0248]
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
[0249]
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统 (system-on-a-chip,简称soc)的形式实现。
[0250]
图11是本技术实施例提供的一种计算机设备的结构示意图。参见图 11,计算机设备包括:存储器301、处理器302,存储器301中存储有可在处理器302上运行的计算机程序,处理器302执行计算机程序时,实现上述任意各个方法实施例中的步骤。
[0251]
处理器302,可以用于基于多个样本文本训练得到通用文本处理模型,该通用文本处理模型用于确定输入文本中各词语属性信息,该属性信息包括:词性、含义以及用法;
[0252]
处理器302,用于对初始文本进行格式转换,得到初始语料,该初始语料用于指示该初始文本和该初始文本中的习语;
[0253]
处理器302,用于根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,该目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。
[0254]
可选地,处理器302还可以用于将各样本文本输入初始文本处理模型,由该初始文本处理模型对各样本文本中的至少一个字符进行标记。
[0255]
处理器302还可以用于由该初始文本处理模型根据各字符的属性信息将各字符进行替换,得到与标记的各字符对应的替换后字符。
[0256]
处理器302还可以用于根据标记的各字符和各替换后字符确定该初始文本处理模型的损失信息。
[0257]
处理器302还可以用于根据该初始文本处理模型的损失信息,对该初始文本处理模型进行迭代修正,直至该初始文本处理模型达到第一预设条件结束训练,将达到该第一预设条件的初始文本处理模型作为该通用文本处理模型。
[0258]
处理器302还可以用于将各样本文本输入初始文本处理模型,分别确定各样本文本中的字符总数。
[0259]
处理器302还可以用于基于各样本文本中的字符总数和预设比例,对各样本文本中字符进行标记。
[0260]
处理器302还可以用于基于各样本文本中的字符总数和该预设比例,确定各样本
文本中需要标记的字符数量。
[0261]
处理器302还可以用于由该初始文本处理模型根据该需要标记的字符数量随机对各样本文本中字符进行标记。
[0262]
处理器302还可以用于由该初始文本处理模型确定与各样本文本中的目标字符相邻的任一字符是否为标记的各字符。在是的情况下,则由该初始文本处理模型将与该目标字符相邻的字符和该目标字符作为一个待替换词组。在否的情况下,由该初始文本处理模型各目标字符分别作为一个该待替换词组。
[0263]
处理器302还可以用于由该初始文本处理模型基于该预设词组库中各词语的属性信息将各待替换词组进行替换,得到与标记的各字符对应的替换后字符。
[0264]
处理器302还可以用于由该初始文本处理模型根据各样本文本的语义从该预设词组库中提取与各待替换词组匹配的词语。
[0265]
处理器302还可以用于将该预设词组库中提取的各词语作为各替换后字符。
[0266]
处理器302还可以用于确定标记的各字符的特征向量和各替换后字符的特征向量之间的一致性,得到目标损失值,并将该目标损失值作为该损失信息。
[0267]
处理器302还可以用于根据标记的各字符的特征向量确定与标记的各字符对应的标签矩阵。
[0268]
处理器302还可以用于根据各替换后字符的特征向量确定与各替换后字符对应的概率矩阵。
[0269]
处理器302还可以用于通过交叉熵损失函数(cross entropy loss)确定该标签矩阵和该概率矩阵之间的损失值,将该损失值作为该目标损失值。
[0270]
处理器302还可以用于确定与当前的任务类型匹配的任务模板。
[0271]
处理器302还可以用于按照该任务模板对各初始文本进行格式转换,以得到各初始语料。
[0272]
处理器302还可以用于将各初始语料输入该通用文本处理模型对该通用文本处理模型进行训练,以调整该通用文本处理模型的参数,将调整后的该通用文本处理模型作为该目标文本处理模型。
[0273]
处理器302还可以用于将各待处理文本输入该目标文本处理模型,识别各待处理文本中的各习语并确定各待处理文本中的各习语的位置。
[0274]
处理器302还可以用于利用预先训练的语言模型根据各待处理文本中的各习语的位置对各待处理文本中的各习语进行替换,得到替换后文本。
[0275]
处理器302还可以用于将该替换后文本输入该目标文本处理模型进行迭代替换,直至达到第二预设条件结束习语替换任务。
[0276]
处理器302还可以用于将各待处理文本和识别出的各待处理文本中的各习语存储到习语数据库中。
[0277]
处理器302还可以用于从习语数据库中获取各样本文本。
[0278]
处理器302还可以用于对各样本文本进行预处理操作,该预处理操作包括如下至少一项:数据过滤、文本划分。
[0279]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
[0280]
处理器,可以用于基于多个样本文本训练得到通用文本处理模型,该通用文本处理模型用于确定输入文本中各词语属性信息,该属性信息包括:词性、含义以及用法;
[0281]
处理器,用于对初始文本进行格式转换,得到初始语料,该初始语料用于指示该初始文本和该初始文本中的习语;
[0282]
处理器,用于根据该初始语料对该通用文本处理模型进行参数调整,得到目标文本处理模型,该目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。
[0283]
可选地,处理器还可以用于将各样本文本输入初始文本处理模型,由该初始文本处理模型对各样本文本中的至少一个字符进行标记。
[0284]
处理器还可以用于由该初始文本处理模型根据各字符的属性信息将各字符进行替换,得到与标记的各字符对应的替换后字符。
[0285]
处理器还可以用于根据标记的各字符和各替换后字符确定该初始文本处理模型的损失信息。
[0286]
处理器还可以用于根据该初始文本处理模型的损失信息,对该初始文本处理模型进行迭代修正,直至该初始文本处理模型达到第一预设条件结束训练,将达到该第一预设条件的初始文本处理模型作为该通用文本处理模型。
[0287]
处理器还可以用于将各样本文本输入初始文本处理模型,分别确定各样本文本中的字符总数。
[0288]
处理器还可以用于基于各样本文本中的字符总数和预设比例,对各样本文本中字符进行标记。
[0289]
处理器还可以用于基于各样本文本中的字符总数和该预设比例,确定各样本文本中需要标记的字符数量。
[0290]
处理器还可以用于由该初始文本处理模型根据该需要标记的字符数量随机对各样本文本中字符进行标记。
[0291]
处理器还可以用于由该初始文本处理模型确定与各样本文本中的目标字符相邻的任一字符是否为标记的各字符。在是的情况下,则由该初始文本处理模型将与该目标字符相邻的字符和该目标字符作为一个待替换词组。在否的情况下,由该初始文本处理模型各目标字符分别作为一个该待替换词组。
[0292]
处理器还可以用于由该初始文本处理模型基于该预设词组库中各词语的属性信息将各待替换词组进行替换,得到与标记的各字符对应的替换后字符。
[0293]
处理器还可以用于由该初始文本处理模型根据各样本文本的语义从该预设词组库中提取与各待替换词组匹配的词语。
[0294]
处理器还可以用于将该预设词组库中提取的各词语作为各替换后字符。
[0295]
处理器还可以用于确定标记的各字符的特征向量和各替换后字符的特征向量之间的一致性,得到目标损失值,并将该目标损失值作为该损失信息。
[0296]
处理器还可以用于根据标记的各字符的特征向量确定与标记的各字符对应的标签矩阵。
[0297]
处理器还可以用于根据各替换后字符的特征向量确定与各替换后字符对应的概率矩阵。
[0298]
处理器还可以用于通过交叉熵损失函数(cross entropy loss)确定该标签矩阵和该概率矩阵之间的损失值,将该损失值作为该目标损失值。
[0299]
处理器还可以用于确定与当前的任务类型匹配的任务模板。
[0300]
处理器还可以用于按照该任务模板对各初始文本进行格式转换,以得到各初始语料。
[0301]
处理器还可以用于将各初始语料输入该通用文本处理模型对该通用文本处理模型进行训练,以调整该通用文本处理模型的参数,将调整后的该通用文本处理模型作为该目标文本处理模型。
[0302]
处理器还可以用于将各待处理文本输入该目标文本处理模型,识别各待处理文本中的各习语并确定各待处理文本中的各习语的位置。
[0303]
处理器还可以用于利用预先训练的语言模型根据各待处理文本中的各习语的位置对各待处理文本中的各习语进行替换,得到替换后文本。
[0304]
处理器还可以用于将该替换后文本输入该目标文本处理模型进行迭代替换,直至达到第二预设条件结束习语替换任务。
[0305]
处理器还可以用于将各待处理文本和识别出的各待处理文本中的各习语存储到习语数据库中。
[0306]
处理器还可以用于从习语数据库中获取各样本文本。
[0307]
处理器还可以用于对各样本文本进行预处理操作,该预处理操作包括如下至少一项:数据过滤、文本划分。
[0308]
可选地,本技术还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述任一文本处理模型训练方法实施例。
[0309]
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0310]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0311]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0312]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文: read-only memory,简称:rom)、随机存取存储器(英文:random accessmemory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0313]
上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
[0314]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种文本处理模型训练方法,其特征在于,所述方法包括:基于多个样本文本训练得到通用文本处理模型,所述通用文本处理模型用于确定输入文本中各词语的属性信息,所述属性信息包括:词性、含义以及用法;对初始文本进行格式转换,得到初始语料,所述初始语料用于按照预设格式指示所述初始文本和所述初始文本中的习语;根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,所述目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。2.如权利要求1所述的文本处理模型训练方法,其特征在于,所述基于多个样本文本训练得到通用文本处理模型,包括:将各所述样本文本输入初始文本处理模型,由所述初始文本处理模型对各所述样本文本中的至少一个字符进行标记;由所述初始文本处理模型根据各所述字符的属性信息将各所述字符进行替换,得到与标记的各所述字符对应的替换后字符;根据标记的各所述字符和各所述替换后字符确定所述初始文本处理模型的损失信息;根据所述初始文本处理模型的损失信息,对所述初始文本处理模型进行迭代修正,直至所述初始文本处理模型达到第一预设条件结束训练,将达到所述第一预设条件的初始文本处理模型作为所述通用文本处理模型。3.如权利要求2所述的文本处理模型训练方法,其特征在于,所述将各所述样本文本输入初始文本处理模型,由所述初始文本处理模型对各所述样本文本中的至少一个字符进行标记,包括:将各所述样本文本输入初始文本处理模型,并分别确定各所述样本文本中的字符总数;基于各所述样本文本中的字符总数和预设比例,对各所述样本文本中字符进行标记,所述预设比例用于指示各所述样本文本中需要标记的字符数量占各所述样本文本中的字符总数的比例。4.如权利要求3所述的文本处理模型训练方法,其特征在于,所述基于各所述样本文本中的字符总数和预设比例,对各所述样本文本中字符进行标记,包括:基于各所述样本文本中的字符总数和所述预设比例,确定各所述样本文本中需要标记的字符数量;由所述初始文本处理模型根据所述需要标记的字符数量随机对各所述样本文本中字符进行标记。5.如权利要求2所述的文本处理模型训练方法,其特征在于,所述由所述初始文本处理模型根据各所述字符的属性信息将各所述字符进行替换,得到与标记的各所述字符对应的替换后字符,包括:由所述初始文本处理模型确定与各所述样本文本中的目标字符相邻的任一字符是否为标记的各所述字符,所述目标字符为各所述样本文本中标记的各所述字符中的任意一个字符;若是,则由所述初始文本处理模型将与所述目标字符相邻的字符和所述目标字符作为
一个待替换词组;若否,则由所述初始文本处理模型各所述目标字符分别作为一个所述待替换词组;由所述初始文本处理模型基于所述预设词组库中各词语的属性信息将各所述待替换词组进行替换,得到与标记的各所述字符对应的替换后字符,所述预设词组库中包括多个词语和各所述词语的特征向量,各所述词语的特征向量用于指示各所述词语的词性、含义、用法。6.如权利要求5所述的文本处理模型训练方法,其特征在于,所述由所述初始文本处理模型基于所述预设词组库中各词语的属性信息将各所述待替换词组进行替换,得到与标记的各所述字符对应的替换后字符,包括:由所述初始文本处理模型根据各所述样本文本的语义从所述预设词组库中提取与各所述待替换词组匹配的词语;将所述预设词组库中提取的各词语作为各所述替换后字符。7.如权利要求2所述的文本处理模型训练方法,其特征在于,所述根据标记的各所述字符和各所述替换后字符确定所述初始文本处理模型的损失信息,包括:确定标记的各所述字符的特征向量和各所述替换后字符的特征向量之间的一致性,得到目标损失值,并将所述目标损失值作为所述损失信息。8.如权利要求7所述的文本处理模型训练方法,其特征在于,所述确定标记的各所述字符的特征向量和各所述替换后字符的特征向量之间的一致性,得到目标损失值,包括:根据标记的各所述字符的特征向量确定与标记的各所述字符对应的标签矩阵;根据各所述替换后字符的特征向量确定与各所述替换后字符对应的概率矩阵;通过交叉熵损失函数确定所述标签矩阵和所述概率矩阵之间的损失值,将所述损失值作为所述目标损失值。9.如权利要求1所述的文本处理模型训练方法,其特征在于,所述对初始文本进行格式转换,得到初始语料,包括:确定与当前的任务类型匹配的任务模板,所述任务模板用于指示所述通用文本处理模型和所述目标文本处理模型需要对各所述初始文本和各所述待处理文本执行的操作,以及指示所述通用文本处理模型和所述目标文本处理模型需要输出的内容;按照所述任务模板对各所述初始文本进行格式转换,以得到各所述初始语料;所述根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,包括:将各所述初始语料输入所述通用文本处理模型对所述通用文本处理模型进行训练,以调整所述通用文本处理模型的参数,将调整后的所述通用文本处理模型作为所述目标文本处理模型。10.如权利要求1所述的文本处理模型训练方法,其特征在于,所述根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型之后,还包括:将各所述待处理文本输入所述目标文本处理模型,识别各所述待处理文本中的各习语并确定各所述待处理文本中的各习语的位置;利用预先训练的语言模型根据各所述待处理文本中的各习语的位置对各所述待处理文本中的各习语进行替换,得到替换后文本;
将所述替换后文本输入所述目标文本处理模型进行迭代替换,直至达到第二预设条件结束习语替换任务。11.如权利要求10所述的文本处理模型训练方法,其特征在于,所述方法还包括:将各所述待处理文本和识别出的各所述待处理文本中的各习语存储到习语数据库中。12.如权利要求1-11任一项所述的文本处理模型训练方法,其特征在于,在所述基于多个样本文本训练得到通用文本处理模型之前,所述方法还包括:从习语数据库中获取各所述样本文本。13.如权利要求1-11任一项所述的文本处理模型训练方法,其特征在于,在所述基于多个样本文本训练得到通用文本处理模型之前,所述方法还包括:对各所述样本文本进行预处理操作,所述预处理操作包括如下至少一项:数据过滤、文本划分。14.一种文本处理模型训练装置,其特征在于,所述装置包括:训练模块,用于基于多个样本文本训练得到通用文本处理模型,所述通用文本处理模型用于确定输入文本中各词语属性信息,所述属性信息包括:词性、含义以及用法;转换模块,用于对初始文本进行格式转换,得到初始语料,所述初始语料用于指示所述初始文本和所述初始文本中的习语;调整模块,用于根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,所述目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。15.一种计算机设备,其特征在于,包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述权利要求1至13任一项所述的方法的步骤。16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至13中任一项所述方法的步骤。

技术总结


本申请提供一种文本处理模型训练方法、装置和计算机设备,属于计算机技术领域。所述方法包括:基于多个样本文本训练得到通用文本处理模型,所述通用文本处理模型用于确定输入文本中各词语的属性信息,所述属性信息包括:词性、含义以及用法;对初始文本进行格式转换,得到初始语料,所述初始语料用于按照预设格式指示所述初始文本和所述初始文本中的习语;根据所述初始语料对所述通用文本处理模型进行参数调整,得到目标文本处理模型,所述目标文本处理模型用于基于待处理文本中各词语的属性信息识别待处理文本中的习语。本申请可以达到提高识别新出现的习语的准确率以及对文本进行准确地处理的效果。行准确地处理的效果。行准确地处理的效果。


技术研发人员:

常永炷 张荣升 吕唐杰 范长杰

受保护的技术使用者:

网易(杭州)网络有限公司

技术研发日:

2022.08.18

技术公布日:

2023/3/24

本文发布于:2024-09-23 02:27:04,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/78339.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   所述   模型   字符
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议