一种文本纠错方法、系统以及设备与流程



1.本发明涉及自然语言处理技术领域,尤其涉及一种文本纠错方法、系统以及设备。


背景技术:



2.随着信息技术的发展,我们已经进入一个数字化时代,越来越多的文稿以电子化的形式呈现,并且文稿的数量也呈爆炸式增长。对这些文稿进行校对与纠错将耗费大量的人力与时间。另一方面,得益文稿的电子化,人们可以利用文本自动纠错技术加快文本的校对与纠错速度,极大地提高工作效率。
3.文本纠错技术,或者说文本纠错系统的工作方式是,接收一段可能包含语法、词汇等各种错误文本,对它进行处理,定位其中可能存在的错误并进行纠正,将定位结果以及纠正结果返回并告知用户。
4.目前市面上的文本纠错方案主要聚焦于字词级别纠错(不限于:错别字纠错、语音转文字后文本纠错、ocr识别后文本纠错),以及语法级别的纠错(不限于:字词缺失、字词冗余、字词乱序、句式错误)、标点错误等。这些错误大多数情况下会导致句子不通顺,偶尔会引起句子歧义等情况。然而除了这些常见的错误类型,还有一类是由于错误使用成语、惯用语、俗语等短语导致其包含的情感与上下文不一致的错误,该类错误并不会导致语法上的不通顺,但却会对人们理解文字的意图造成一定困难,并且也不符合人们的表达习惯。
5.例如“小明快乐地搬到了新家,他和朋友们弹冠相庆”中,成语“弹冠相庆”通常用于贬义,与该句话的整体正面情感不一致,因此属于情感一致性错误,该类错误难以被划入语法错误、别字别词或标点错误。
6.因此,现有技术方案对于文本纠错仅仅停留在字词、语法级别等较浅的层次,不能在语义层面对句中的褒贬失当、前后文情感不一致的内容进行纠错。
7.另外,现有技术中也未针对如成语、惯用语等短语的使用不当进行纠错,导致文本纠错的整体质量有待提高。


技术实现要素:



8.鉴于上述,本发明旨在提供一种文本纠错方法、系统以及设备,通过粗粒度情感分类与细粒度情感分类之间的一致性检测确定文本是否存在语义层面的错误,并在此基础上进行纠错,实现文本的深层次的纠错机制,填补了技术空白。
9.本发明采用的技术方案如下:
10.第一方面,本发明提供了一种文本纠错方法,包括:
11.接收待纠错文本;
12.对待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;对待纠错文本中表示情感的短语进行细粒度情感分析,获得短语的第一细粒度情感分类结果,第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;
13.判断第一粗粒度情感分类结果与第一细粒度情感分类结果是否一致,获得一致性
检测结果;
14.若一致性检测结果为不一致,则将短语作为待纠错短语。
15.在其中一种可能的实现方式中,对待纠错文本分别进行粗粒度情感分析包括:
16.对待纠错文本进行第一编码,获得第一编码序列,第一编码序列的第一个位置的向量表示代表待纠错文本的整体语义信息;
17.对第一编码序列的第一个位置的向量表示进行情感分类,获得第一粗粒度情感分类结果。
18.在其中一种可能的实现方式中,对待纠错文本分别进行细粒度情感分析包括:
19.对待纠错文本进行第二编码,获得第二编码序列,待纠错文本中每个位置的短语对应第二编码序列中对应位置的向量表示;
20.对表示情感的短语对应的向量表示进行情感分类,获得短语的第一细粒度情感分类结果。
21.在其中一种可能的实现方式中,获得一致性检测结果,具体包括:
22.计算第一粗粒度情感分类结果与第一细粒度情感分类结果之间的第一相似度;
23.若第一相似度大于第一阈值,则一致性检测结果为一致;否则,一致性检测结果为不一致。
24.在其中一种可能的实现方式中,文本纠错方法还包括:
25.对待纠错短语进行纠错,获得纠错后文本,并输出一致性检测结果和纠错后文本。
26.在其中一种可能的实现方式中,对待纠错短语进行纠错,获得纠错后文本,具体包括:
27.对待纠错短语和知识库中的所有库内短语进行第三编码,获得待纠错短语的第一语义表示和库内短语的第二语义表示,并计算第一语义表示与所有库内短语的第二语义表示之间的第二相似度;
28.对待纠错短语和知识库中的所有库内短语进行第四编码,获得待纠错短语的第一情感表示和库内短语的第二情感表示,并计算第一情感表示与所有库内短语的第二情感表示之间的第三相似度;
29.获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得高于第三阈值的所有第三相似度,作为第五相似度,并将第四相似度中的最高值和/或损失第五相似度中的最高值对应的库内短语作为纠正短语;
30.将纠正短语和待纠错文本的组合作为纠错后文本。
31.在其中一种可能的实现方式中,在粗粒度和细粒度情感分析之前,还包括:
32.对待纠错文本进行分句,获得至少一个子句;
33.并且,
34.针对每个子句进行粗粒度情感分析、细粒度情感分析、一致性情感检测以及纠错。
35.在其中一种可能的实现方式中,以转折词和并列词为最小划分单位对待纠错文本进行分句。
36.在其中一种可能的实现方式中,利用一致性检测模型获得一致性检测结果;对一致性检测模型进行训练包括:
37.对训练文本分别进行粗粒度情感分析和细粒度情感分析,获得第二粗粒度情感分
类结果和训练文本中表示情感的短语的第二细粒度情感分类结果;
38.将所有与第二粗粒度情感分类结果同向的第二细粒度情感分类结果对应的向量表示分为同向向量组,将所有与第二粗粒度情感分类结果反向的第二细粒度情感分类结果对应的向量表示分为反向向量组;
39.将同向向量组中的每个第一向量表示与反向向量组中所有第二向量表示组合,形成计算组合;
40.对于每个计算组合,计算第一向量表示与第二粗粒度情感分类结果对应的第三向量表示之间的相似度,作为第六相似度;并计算第二向量表示与第三向量表示之间的相似度,作为第七相似度;计算第七相似度与第六相似度之间的差与第一预设值的和,作为第一和,并将第一和与第二预设值中较大者作为计算组合的损失值;
41.将所有计算组合的损失值的和作为训练文本的损失值;
42.利用训练文本的损失值对模型进行迭代训练。
43.第二方面,本发明提供了一种文本纠错系统,包括接收模块、粗粒度情感分析模块、细粒度情感分析模块、一致性检测模块以及纠错模块;
44.接收模块用于接收待纠错文本;
45.粗粒度情感分析模块用于对待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;
46.细粒度情感分析模块用于对待纠错文本中每个位置的短语进行细粒度情感分析,获得短语的第一细粒度情感分类结果;第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;
47.一致性检测模块用于判断第一粗粒度情感分类结果与第一细粒度情感分类结果是否一致,获得一致性检测结果;
48.纠错模块用于在一致性检测结果为不一致时将短语作为待纠错短语,对待纠错短语进行纠错,获得纠错后文本,并输出一致性检测结果和纠错后文本。
49.在其中一种可能的实现方式中,粗粒度情感分析模块包括第一编码模块和第一分类模块;
50.第一编码模块用于对待纠错文本进行第一编码,获得第一编码序列,第一编码序列的第一个位置的向量表示代表待纠错文本的整体语义信息;
51.第一分类模块用于对第一编码序列的第一个位置的向量表示进行情感分类,获得第一粗粒度情感分类结果。
52.在其中一种可能的实现方式中,纠错模块包括语义相似度计算模块、情感相似度计算模块、筛选模块以及组合模块;
53.语义相似度计算模块用于对待纠错短语和知识库中的所有短语进行第三编码,获得待纠错短语的第一语义表示和短语的第二语义表示,并计算第一语义表示与所有短语的第二语义表示之间的第二相似度;
54.情感相似度计算模块用于对待纠错短语和知识库中的所有短语进行第四编码,获得待纠错短语的第一情感表示和短语的第二情感表示,并计算第一情感表示与所有短语的第二情感表示之间的第三相似度;
55.筛选模块用于获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得
高于第三阈值的所有第三相似度,作为第五相似度,并将第四相似度中的最高值和/或损失第五相似度中的最高值对应的短语作为纠正短语;
56.组合模块用于将纠正短语和待纠错文本的组合作为纠错后文本。
57.在其中一种可能的实现方式中,文本纠错系统还包括分句模块,分句模块用于对待纠错文本进行分句,获得至少一个子句。
58.第三方面,本发明提供了一种文本纠错设备,包括:
59.一个或多个处理器、存储器以及一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令,当指令被文本纠错设备执行时,使得文本纠错设备执行上述的文本纠错方法。
60.本发明的构思在于,通过粗粒度情感分类与细粒度情感分类之间的一致性检测确定文本是否存在语义层面的错误,并在此基础上进行纠错,做到语义、情感高层次上的文本纠错,使得文本流畅并且语义正确,做到语义上的前后呼应,填补了技术空白。其次,本发明将文本分为多个子句,对每个子句进行语义纠错,对文本进行更细粒度的纠错,大大提高了纠错的准确度。另外,本发明利用文本编码结果中第一个位置的向量表示来确定文本的整体情感,并以此为基础确定文本中每个位置的情感分类是否与整个文本一致,充分利用了文本编码中不同层面的信息,使得语义纠错更加准确。进一步地,在纠错过程中,从语义和情感两方面进行替换词的筛选,确保了替换词的双重一致性。最后,在一致性检测模型中,将训练文本所有位置的训练结果组合起来计算损失值,在训练一致性检测模型的同时也优化了粗粒度情感分析模型和细粒度情感分析模型。
附图说明
61.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步描述,其中:
62.图1为本发明提供的文本纠错方法的流程图;
63.图2为本发明提供的获得纠错后文本的流程图;
64.图3为本发明提供的文本纠错系统的结构图;
65.图4为本发明提供的文本纠错设备的结构示意图。
具体实施方式
66.下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
67.针对前述核心构思,本发明提供了至少一种文本纠错方法的实施例,如图1所示,可以包括如下步骤:
68.s110:接收待纠错文本t。
69.s120:对待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;对待纠错文本中表示情感的短语进行细粒度情感分析,获得短语的第一细粒度情感分类结果,第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感。
70.在一种可能的实现方式中,对待纠错文本分别进行粗粒度情感分析包括:
71.p1:对待纠错文本进行第一编码,获得第一编码序列,第一编码序列的第一个位置的向量表示代表待纠错文本的整体语义信息。
72.p2:对第一编码序列的第一个位置的向量表示进行情感分类,获得第一粗粒度情感分类结果。
73.在一种可能的实现方式中,采用基于transformer编码器的分类模型(粗粒度情感分析模型)对整个句子进行粗粒度情感分析。在p1中,使用transformer编码器对应的分词器(如bert分词器)将待纠错文本转换成模型可以理解的令牌(token)的序列,然后使用transformer编码器(如bert编码器)对token序列进行编码,获得第一编码序列,其中,第一编码序列的第一个位置的向量表示y1代表待纠错文本的整体语义信息,第二个位置后的向量表示为对应位置的token的向量表示。在p2中,将向量表示y1送入分类器。该分类器为单层的连接网络,用于对向量表示y1进行二分类,分类结果为正向情感或负向情感,将该分类结果作为第一粗粒度情感分类结果。
74.在一种可能的实现方式中,将向量表示y1作为待纠错文本的整体情感表示。
75.例如,对句子“小明快乐地搬到了新家,他和朋友们弹冠相庆”进行粗粒度情感分析,获得向量表示y1,表示该句的整体情感。
76.需要说明的是,在训练阶段,使用带有标签的情感分类数据对transformer编码器的分类模型(transformer编码器+分类器)进行训练。每一个训练样本为一个句子,该句子的标签为句子的情感极性(正向情感或负向情感)。将句子输入模型,训练模型输出的是二分类结果,即该句子的情感极性。训练完成后,因transformer编码器输出的编码序列中,向量表示y1包含了足够的信息供分类器判断情感极性,因此用向量表示y1作为句子的整体情感表示。
77.在另一种可能的实现方式中,可以利用其他编码器和分类器的组合来获得第一粗粒度情感分类结果。
78.在一种可能的实现方式中,对待纠错文本分别进行细粒度情感分析包括:
79.q1:对待纠错文本进行第二编码,获得第二编码序列,待纠错文本中每个位置的短语对应第二编码序列中对应位置的向量表示。
80.q2:对表示情感的短语对应的向量表示进行情感分类,获得短语的第一细粒度情感分类结果。
81.在一种可能的实现方式中,采用基于transformer编码器的序列标注模型(细粒度情感分析模型)识别出待纠错文本中主要的包含情感的短语,并得到它们的情感表示,实现细粒度情感分析。
82.步骤q1与p1可以是相同的过程,其中,利用transformer编码器对应的分词器对待纠错文本进行分词,获得多个短语,每个短语对应一个token,每个token对应第二编码序列中的一个位置,由此第二编码序列中包含每个短语对应的向量表示ti(i=1,

l),其中,l为句子长度。需要说明的是,这里的短语可以是单个文字,也可以是一个短语、成语或俗语等。
83.在q2中,对第二编码序列中第二个位置后的表示情感的短语对应的向量表示进行情感分类,获得与每个表示情感的短语对应的第一细粒度情感分类结果。
84.在一种可能的实现方式中,将表示情感的短语对应的向量表示ti作为该短语的细
粒度情感表示。
85.例如,对于句子“小明快乐地搬到了新家,他和朋友们弹冠相庆”,模型同时检测出其中的情感词“快乐”和“弹冠相庆”,并分别给出情感词“快乐”和“弹冠相庆”的向量表示ti和tj。
86.需要说明的是,在对基于transformer编码器的序列标注模型进行训练的过程中,以序列标注的形式训练模型并对其中富含情感的短语的情感进行分类。
87.在另一种可能的实现方式中,可以利用其他编码器和分类器的组合来获得第一细粒度情感分类结果。
88.s130:判断第一粗粒度情感分类结果与第一细粒度情感分类结果是否一致,获得一致性检测结果。若一致性检测结果为一致,则执行s150;若一致性检测结果为不一致,则执行s140。
89.在一种可能的实现方式中,获得一致性检测结果时,首先计算第一粗粒度情感分类结果与第一细粒度情感分类结果之间的第一相似度。若第一相似度大于第一阈值,则一致性检测结果为一致;否则,一致性检测结果为不一致。
90.在一种可能的实现方式中,利用余弦相似度计算第一相似度similarity:
91.similarity=cosine(y1,ti)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
92.可以理解地,也可以利用其他方法(例如欧式距离)计算第一相似度。
93.在一种可能的实现方式中,利用一致性检测模型获得一致性检测结果。对一致性检测模型进行训练包括:
94.r1:对训练文本分别进行粗粒度情感分析和细粒度情感分析,获得第二粗粒度情感分类结果和训练文本中表示情感的短语的第二细粒度情感分类结果。
95.r2:将所有与第二粗粒度情感分类结果同向的第二细粒度情感分类结果对应的向量表示分为同向向量组,将所有与第二粗粒度情感分类结果反向的第二细粒度情感分类结果对应的向量表示分为反向向量组。
96.其中,表示训练文本的整体情感的向量表示记为第三向量表示y2(与第二粗粒度情感分类结果对应)。与y2同向和反向的细粒度情感表示分别记为和其中,t
+
表示同向向量组,t-表示反向向量组。
97.r3:将同向向量组中的每个第一向量表示与反向向量组中所有第二向量表示组合,形成计算组合。例如,若同向向量组包括t1、t2,反向向量组包括t3、t4,则计算组合有四个,即(t1,t3)、(t1,t4)、(t2,t3)、(t2,t4)。
98.r4:对于每个计算组合,计算第一向量表示与第三向量表示之间的相似度,作为第六相似度;并计算第二向量表示与第三向量表示之间的相似度,作为第七相似度;计算第七相似度与第六相似度之间的差与第一预设值的和,作为第一和,并将第一和与第二预设值中较大者作为计算组合的损失值l
con
,即
[0099][0100]
其中,表示第七相似度(以余弦相似度为例),表示第六相似度(以余弦相似度为例),τ表示第一预设值,0表示第二预设值。
[0101]
若t
+
为空集,则令若t-为空集,则令
[0102]
r5:将所有计算组合的损失值的和作为训练文本的损失值。
[0103]
r6:利用训练文本的损失值对模型进行迭代训练。
[0104]
由此,在对一致性检测模型进行训练的过程中,拉近了同向向量与整体情感表示y2的相似度,拉远了反向向量与整体情感表示y2的相似度。另外,因整体情感表示和细粒度情感表示分别由粗粒度情感分析模型和细粒度情感分析模型给出,因此,优化上述损失也即对上述两个模型做进一步训练,旨在在一致性检测任务中提高情感表示的准确性。
[0105]
在另一种可能的实现方式中,可以将所有同向向量与整体情感表示之间的相似度之和与所有反向向量与整体情感表示之间的相似度之和的差作为训练样本的损失值,以实现迭代训练。
[0106]
s140:将一致性检测结果为不一致的短语作为待纠错短语,完成文本纠错。
[0107]
在一种优选的实现方式中,步骤s140中,获得待纠错短语后,还对待纠错短语进行纠错,获得纠错后文本,并输出一致性检测结果和纠错后文本。
[0108]
在一种可能的实现方式中,如图2所示,对待纠错短语进行纠错,获得纠错后文本,具体包括:
[0109]
s1401:对待纠错短语和知识库中的所有库内短语进行第三编码,获得待纠错短语的第一语义表示和库内短语的第二语义表示,并计算第一语义表示与所有库内短语的第二语义表示之间的第二相似度。
[0110]
将待纠错短语记为p,外部知识库中的库内短语为ei,(i=1,

n),其中,n为知识库中的短语数。
[0111]
在一种可能的实现方式中,用诸如bert等模型对待纠错短语和库内短语进行编码,得到对应的语义表示,第一语义表示记为w
p
,第二语义表示记为w
ei
。将第一语义表示与第二语义表示之间的余弦相似度作为第二相似度simwi:
[0112]
simwi=cosine(w
p
,w
ei
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0113]
可以理解地,可以使用其他的编码器获得第一语义表示与第二语义表示,也可以选择其他的相似度计算方式获得第二相似度。
[0114]
s1402:对待纠错短语和知识库中的所有库内短语进行第四编码,获得待纠错短语的第一情感表示和库内短语的第二情感表示,并计算第一情感表示与所有库内短语的第二情感表示之间的第三相似度。
[0115]
在一种可能的实现方式中,利用上述的细粒度情感分析模型对待纠错短语p和库内短语ei进行编码,获得第一情感表示记为y3和第二情感表示t
ei
。将第一情感表示与第二情感表示之间的余弦相似度作为第三相似度simti:
[0116]
simti=cosine(y3,t
ei
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0117]
s1403:获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得高于第三阈值的所有第三相似度,作为第五相似度,并将第四相似度中的最高值和/或损失第五相似度中的最高值对应的库内短语作为纠正短语。
[0118]
s1404:将纠正短语和待纠错文本的组合作为纠错后文本。
[0119]
由此,在获取纠正短语时,既保证了纠正短语与待纠错短语的语义一致,也保证了纠正短语与待纠错文本的情感一致,从而纠正了情感错误。
[0120]
例如,对于句子“小明快乐地搬到了新家,他和朋友们弹冠相庆”,在纠错过程中识别到库内短语“兴高采烈”的情感与原句相近,同时非情感部分的语义与“弹冠相庆”相近,因此将“兴高采烈”作为纠正短语。
[0121]
在另一种可能的实现方式中,也可以通过关系数据库的查询等方式确定纠正短语。
[0122]
若待纠错文本需要纠错,则需要输出一致性检测结果和纠错后文本,其中,一致性检测结果为不一致检测结果。
[0123]
在一种可能的实现方式中,纠错后文本包括待纠错文本和纠正短语。在输出纠错后文本时,同时输出待纠错文本和纠正短语,对待纠错文本中的错误短语进行高亮等提示性标记,表明该短语需要纠正或提醒用户注意,输出的纠正短语作为建议纠错结果。
[0124]
例如,对于句子“小明快乐地搬到了新家,他和朋友们弹冠相庆”,输出纠错后文本时,对句子中的“弹冠相庆”进行特殊标记,表明需要纠正或提醒用户注意,并返回“兴高采烈”作为建议纠错结果。
[0125]
可以理解地,在另一种可能的实现方式中,利用纠正短语替换待纠错文本中的待纠错短语,然后将替换后的文本作为纠错后文本输出。
[0126]
s150:输出无需纠错的一致性检测结果。
[0127]
在一种优选的实现方式中,在s110与s120之间,还包括对待纠错文本t进行分句,获得至少一个子句{s1,s2,

,sn}。并且,针对每个子句si(i=1,2,...n)进行粗粒度情感分析、细粒度情感分析、一致性情感检测以及纠错,请参见s120-s150。
[0128]
在一种可能的实现方式中,以现有的语法规则,按照标点符号本身的语义对待纠错文本进行分句。例如,以句号、问号等标点符号为最小单位将待纠错文本划分为至少一个句子。
[0129]
在一种优选的实现方式中,以转折词和并列词为最小划分单位对待纠错文本进行分句。例如,在上述实现方式的基础上,若一个句子中存在转折词或并列词,则将转折词或并列词前面的部分和转折词或并列词后面的部分分别作为一个子句。例如,“虽然
……
但是
……”
、“尽管
……
然而
……”
、“有时
……
有时
……”
等句式中均包含转折词或并列词,则可将它们拆分成两个子句。
[0130]
作为实例,句子“我虽然喜欢足球,但是讨厌踢球”中包含转折词,则它被拆分成“我虽然喜欢足球”和“但是讨厌踢球”两个子句;句子“小明快乐地搬到了新家,他和朋友们弹冠相庆”中未包含转折词,它不会进行拆分,该句子整体作为一个子句。
[0131]
相应于上述各实施例及优选方案,本发明还提供了一种文本纠正系统的实施例,如图3所示,具体可以包括接收模块310、粗粒度情感分析模块320、细粒度情感分析模块330、一致性检测模块340以及纠错模块350。
[0132]
接收模块310用于接收待纠错文本。
[0133]
粗粒度情感分析模块320用于对待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果。
[0134]
细粒度情感分析模块330用于对待纠错文本中每个位置的短语进行细粒度情感分析,获得短语的第一细粒度情感分类结果;第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感。
[0135]
一致性检测模块340用于判断第一粗粒度情感分类结果与第一细粒度情感分类结果是否一致,获得一致性检测结果。
[0136]
纠错模块350用于在一致性检测结果为不一致时将短语作为待纠错短语,对待纠错短语进行纠错,获得纠错后文本,并输出一致性检测结果和纠错后文本。
[0137]
在其中一种可能的实现方式中,粗粒度情感分析模块320包括第一编码模块3201和第一分类模块3202。
[0138]
第一编码模块3201用于对待纠错文本进行第一编码,获得第一编码序列,第一编码序列的第一个位置的向量表示代表待纠错文本的整体语义信息。
[0139]
第一分类模块3202用于对第一编码序列的第一个位置的向量表示进行情感分类,获得第一粗粒度情感分类结果。
[0140]
在其中一种可能的实现方式中,细粒度情感分析模块330包括第二编码模块3301和第二分类模块3302。
[0141]
第二编码模块3301用于对待纠错文本进行第二编码,获得第二编码序列,待纠错文本中每个位置的短语对应第二编码序列中对应位置的向量表示。
[0142]
第二分类模块3302用于对表示情感的短语对应的向量表示进行情感分类,获得短语的第一细粒度情感分类结果。
[0143]
在其中一种可能的实现方式中,纠错模块350包括语义相似度计算模块3501、情感相似度计算模块3502、筛选模块3503以及组合模块3504。
[0144]
语义相似度计算模块3501用于对待纠错短语和知识库中的所有短语进行第三编码,获得待纠错短语的第一语义表示和短语的第二语义表示,并计算第一语义表示与所有短语的第二语义表示之间的第二相似度。
[0145]
情感相似度计算模块3502用于对待纠错短语和知识库中的所有短语进行第四编码,获得待纠错短语的第一情感表示和短语的第二情感表示,并计算第一情感表示与所有短语的第二情感表示之间的第三相似度。
[0146]
筛选模块3503用于获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得高于第三阈值的所有第三相似度,作为第五相似度,并将第四相似度中的最高值和/或损失第五相似度中的最高值对应的短语作为纠正短语。
[0147]
组合模块3504用于将纠正短语和待纠错文本的组合作为纠错后文本。
[0148]
在其中一种可能的实现方式中,文本纠错系统还包括分句模块360,分句模块360用于对待纠错文本进行分句,获得至少一个子句。
[0149]
应理解以上图3所示的文本纠错系统的各个部件的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分部件以软件通过处理元件调用的形式实现,部分部件通过硬件的形式实现。例如,某个上述模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起,也可以独立实现。在实现过程
中,上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0150]
例如,以上这些部件可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit;以下简称:asic),或,一个或多个微处理器(digital singnal processor;以下简称:dsp),或,一个或者多个现场可编程门阵列(field programmable gate array;以下简称:fpga)等。再如,这些部件可以集成在一起,以片上系统(system-on-a-chip;以下简称:soc)的形式实现。
[0151]
综合上述各实施例及其优选方案,本领域技术人员可以理解的是,在实际操作中,本发明适用于多种实施方式,本发明以下述载体作为示意性说明:
[0152]
(1)一种文本纠错设备,其可以包括:
[0153]
一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行前述实施例或等效实施方式的步骤/功能。
[0154]
图4为本发明文本纠错设备的实施例的结构示意图,其中,该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为pc、服务器、智能终端(手机、平板、手表、眼镜等)、智能电视、音响、音箱、机顶盒、遥控器、智慧屏、柜员机、机器人、无人机、icv、智能(汽)车及车载设备等。本实施例对文本纠错设备的具体形式不作限定。
[0155]
具体如图4所示,文本纠错设备900包括输入单元960、显示单元970、处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。其中,显示单元970可以包括显示屏。
[0156]
除此之外,为了使得文本纠错设备900的功能更加完善,该设备900还可以包括音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。
[0157]
进一步地,上述文本纠错设备900还可以包括电源950,用于给该设备900中的各种器件或电路提供电能。
[0158]
应理解,图4所示的文本纠错设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能,可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述,为避免重复,此处适当省略详细描述。
[0159]
应理解,图4所示的文本纠错设备900中的处理器910可以是片上系统soc,该处理器910中可以包括中央处理器(central processing unit;以下简称:cpu),还可以进一步包括其他类型的处理器,例如:图像处理器(graphics processing unit;以下简称:gpu)等,具体在下文中再作介绍。
[0160]
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
[0161]
(2)一种可读存储介质,在可读存储介质上存储有计算机程序或上述装置,当计算机程序或上述装置被执行时,使得计算机执行前述实施例或等效实施方式的步骤/功能。
[0162]
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。
[0163]
(3)一种计算机程序产品(该产品可以包括上述装置),该计算机程序产品在终端设备上运行时,使终端设备执行前述实施例或等效实施方式的文本纠错方法。
[0164]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述计算机程序产品可以包括但不限于是指app;接续前文,上述设备/终端可以是一台计算机设备(例如手机、pc终端、云平台、服务器、服务器集或者诸如媒体网关等网络通信设备等)。并且,该计算机设备的硬件结构还可以具体包括:至少一个处理器,至少一个通信接口,至少一个存储器和至少一个通信总线;处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中,处理器可能是一个中央处理器cpu、dsp、微控制器或数字信号处理器,还可包括gpu、嵌入式神经网络处理器(neural-network process units;以下简称:npu)和图像信号处理器(image signal processing;以下简称:isp),该处理器还可包括特定集成电路asic,或者是被配置成实施本发明实施例的一个或多个集成电路等,此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储器等存储介质中;而前述的存储器/存储介质可以包括:非易失性存储器(non-volatile memory),例如非可移动磁盘、u盘、移动硬盘、光盘等,以及只读存储器(read-only memory;以下简称:rom)、随机存取存储器(random access memory;以下简称:ram)等。
[0165]
本发明实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
[0166]
本领域技术人员可以意识到,本说明书中公开的实施例中描述的各模块、单元及方法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0167]
以及,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可。尤其,对于装置、设备等实施例而言,由于其基本相似于方法实施例,所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的,其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个地方,例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域
技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0168]
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

技术特征:


1.一种文本纠错方法,其特征在于,包括:接收待纠错文本;对所述待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;对所述待纠错文本中表示情感的短语进行细粒度情感分析,获得所述短语的第一细粒度情感分类结果,所述第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;判断所述第一粗粒度情感分类结果与所述第一细粒度情感分类结果是否一致,获得一致性检测结果;若所述一致性检测结果为不一致,则将所述短语作为待纠错短语。2.根据权利要求1所述的文本纠错方法,其特征在于,对所述待纠错文本分别进行粗粒度情感分析包括:对所述待纠错文本进行第一编码,获得第一编码序列,所述第一编码序列的第一个位置的向量表示代表所述待纠错文本的整体语义信息;对所述第一编码序列的第一个位置的向量表示进行情感分类,获得所述第一粗粒度情感分类结果。3.根据权利要求1所述的文本纠错方法,其特征在于,对所述待纠错文本分别进行细粒度情感分析包括:对所述待纠错文本进行第二编码,获得第二编码序列,所述待纠错文本中每个位置的短语对应所述第二编码序列中对应位置的向量表示;对表示情感的短语对应的向量表示进行情感分类,获得所述短语的第一细粒度情感分类结果。4.根据权利要求1所述的文本纠错方法,其特征在于,获得所述一致性检测结果,具体包括:计算所述第一粗粒度情感分类结果与所述第一细粒度情感分类结果之间的第一相似度;若所述第一相似度大于第一阈值,则所述一致性检测结果为一致;否则,所述一致性检测结果为不一致。5.根据权利要求1所述的文本纠错方法,其特征在于,还包括:对所述待纠错短语进行纠错,获得纠错后文本,并输出所述一致性检测结果和所述纠错后文本。6.根据权利要求5所述的文本纠错方法,其特征在于,对所述待纠错短语进行纠错,获得纠错后文本,具体包括:对所述待纠错短语和知识库中的所有库内短语进行第三编码,获得所述待纠错短语的第一语义表示和所述库内短语的第二语义表示,并计算所述第一语义表示与所有库内短语的第二语义表示之间的第二相似度;对所述待纠错短语和知识库中的所有库内短语进行第四编码,获得所述待纠错短语的第一情感表示和所述库内短语的第二情感表示,并计算所述第一情感表示与所有库内短语的第二情感表示之间的第三相似度;获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得高于第三阈值的所
有第三相似度,作为第五相似度,并将所述第四相似度中的最高值和/或损失第五相似度中的最高值对应的库内短语作为纠正短语;将所述纠正短语和所述待纠错文本的组合作为所述纠错后文本。7.根据权利要求1-6中任一项所述的文本纠错方法,其特征在于,在粗粒度和细粒度情感分析之前,还包括:对所述待纠错文本进行分句,获得至少一个子句;并且,针对每个子句进行粗粒度情感分析、细粒度情感分析、一致性情感检测以及纠错。8.根据权利要求7所述的文本纠错方法,其特征在于,以转折词和并列词为最小划分单位对所述待纠错文本进行分句。9.根据权利要求4所述的文本纠错方法,其特征在于,利用一致性检测模型获得所述一致性检测结果;对所述一致性检测模型进行训练包括:对训练文本分别进行粗粒度情感分析和细粒度情感分析,获得第二粗粒度情感分类结果和所述训练文本中表示情感的短语的第二细粒度情感分类结果;将所有与所述第二粗粒度情感分类结果同向的第二细粒度情感分类结果对应的向量表示分为同向向量组,将所有与所述第二粗粒度情感分类结果反向的第二细粒度情感分类结果对应的向量表示分为反向向量组;将所述同向向量组中的每个第一向量表示与所述反向向量组中所有第二向量表示组合,形成计算组合;对于每个计算组合,计算所述第一向量表示与所述第二粗粒度情感分类结果对应的第三向量表示之间的相似度,作为第六相似度;并计算所述第二向量表示与所述第三向量表示之间的相似度,作为第七相似度;计算所述第七相似度与所述第六相似度之间的差与第一预设值的和,作为第一和,并将所述第一和与第二预设值中较大者作为所述计算组合的损失值;将所有计算组合的损失值的和作为所述训练文本的损失值;利用所述训练文本的损失值对模型进行迭代训练。10.一种文本纠错系统,其特征在于,包括接收模块、粗粒度情感分析模块、细粒度情感分析模块、一致性检测模块以及纠错模块;所述接收模块用于接收待纠错文本;所述粗粒度情感分析模块用于对所述待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;所述细粒度情感分析模块用于对所述待纠错文本中每个位置的短语进行细粒度情感分析,获得所述短语的第一细粒度情感分类结果;所述第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;所述一致性检测模块用于判断所述第一粗粒度情感分类结果与所述第一细粒度情感分类结果是否一致,获得一致性检测结果;所述纠错模块用于在所述一致性检测结果为不一致时将所述短语作为待纠错短语,对所述待纠错短语进行纠错,获得纠错后文本,并输出所述一致性检测结果和所述纠错后文本。
11.根据权利要求10所述的文本纠错系统,其特征在于,所述粗粒度情感分析模块包括第一编码模块和第一分类模块;所述第一编码模块用于对所述待纠错文本进行第一编码,获得第一编码序列,所述第一编码序列的第一个位置的向量表示代表所述待纠错文本的整体语义信息;所述第一分类模块用于对所述第一编码序列的第一个位置的向量表示进行情感分类,获得所述第一粗粒度情感分类结果。12.根据权利要求11所述的文本纠错系统,其特征在于,所述纠错模块包括语义相似度计算模块、情感相似度计算模块、筛选模块以及组合模块;所述语义相似度计算模块用于对所述待纠错短语和知识库中的所有短语进行第三编码,获得所述待纠错短语的第一语义表示和所述短语的第二语义表示,并计算所述第一语义表示与所有短语的第二语义表示之间的第二相似度;所述情感相似度计算模块用于对所述待纠错短语和知识库中的所有短语进行第四编码,获得所述待纠错短语的第一情感表示和所述短语的第二情感表示,并计算所述第一情感表示与所有短语的第二情感表示之间的第三相似度;所述筛选模块用于获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得高于第三阈值的所有第三相似度,作为第五相似度,并将所述第四相似度中的最高值和/或损失第五相似度中的最高值对应的短语作为纠正短语;所述组合模块用于将所述纠正短语和所述待纠错文本的组合作为所述纠错后文本。13.根据权利要求10-12中任一项所述的文本纠错系统,其特征在于,还包括分句模块,所述分句模块用于对所述待纠错文本进行分句,获得至少一个子句。14.一种文本纠错设备,其特征在于,包括:一个或多个处理器、存储器以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述文本纠错设备执行时,使得所述文本纠错设备执行如权利要求1~9中任一项所述的文本纠错方法。

技术总结


本发明公开了一种文本纠错方法、系统以及设备,文本纠错方法,包括:接收待纠错文本;对待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;对待纠错文本中表示情感的短语进行细粒度情感分析,获得短语的第一细粒度情感分类结果,第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;判断第一粗粒度情感分类结果与第一细粒度情感分类结果是否一致,获得一致性检测结果;若一致性检测结果为不一致,则将短语作为待纠错短语,对待纠错短语进行纠错,获得纠错后文本,并输出一致性检测结果和纠错后文本。本发明实现了文本的深层次的纠错机制,填补了技术空白。空白。空白。


技术研发人员:

杨子清 崔一鸣 王士进 初征

受保护的技术使用者:

科大讯飞(北京)有限公司 河北省讯飞人工智能研究院

技术研发日:

2022.11.28

技术公布日:

2023/2/23

本文发布于:2024-09-21 04:36:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/57683.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:情感   短语   文本   所述
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议