语音断句方法、计算机设备和存储介质与流程

1.本发明涉及自然语言处理领域，尤其涉及一种语音断句方法、计算机设备和存储介质。

背景技术：

2.自动语音识别技术是一种将语音数据转化为可读的文字信息的技术。在很多长语音识别场景中，由于识别得到的文本信息较长，为方便用户阅读和理解，因此需要对识别得到的文本信息进行断句。
3.现有的语音断句方法一般是将语音数据进行语音识别得到的文本信息输入训练好的断句预测模型进行断句预测，其中，断句预测模型可以是神经网络模型、条件随机场模型等等。现有技术一般是根据带有断句标记的海量文本数据对断句预测模型进行训练，若文本数据不够全面，则训练好的断句预测模型的文本断句的准确性较低；并且在实际应用中，由于不同说话人的说话特征不同，断句预测模型未考虑到不同说话人的说话特征对文本断句的影响，因此现有的断句预测模型容易出现漏断与误断的情况，降低了语音断句的准确性。
4.因此，如何提高语音断句的准确性成为亟需解决的问题。

技术实现要素：

5.本发明提供了一种语音断句方法、计算机设备和存储介质，通过将语音数据的静音信息与语音数据对应的目标文本的语义断句信息输入断句预测模型进行断句预测，实现根据文本语义和说话人的语气停顿等特征综合进行断句，可以避免出现漏断与误断的情况，提高了语音断句的准确性。
6.第一方面，本发明提供了一种语音断句方法，所述方法包括：对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息；对所述目标文本进行语义断句处理，获得语义断句信息；将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果；根据所述断句预测结果，对所述目标文本进行断句。
7.第二方面，本发明还提供了一种计算机设备，所述计算机包括处理器和存储器；所述存储器用于存储程序；所述处理器，用于调用所述存储器中的所述程序，以实现如上述的语音断句方法。
8.第三方面，本发明还提供了一种存储介质，用于可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述的语音断句方法。
9.本发明公开了一种语音断句方法、计算机设备和存储介质，通过对语音数据进行语音识别与静音检测，可以获得语音数据对应的目标文本与静音信息；通过对目标文本进行语义断句处理，可以获得目标文本的语义断句信息；通过将静音信息与语义断句信息输
入断句预测模型进行断句预测，可以获得目标文本对应的断句预测结果，由于静音信息表示说话人的语气停顿特征，语义断句信息为对目标文本中的语义特征进行语义断句得到，因此可以实现根据文本语义和说话人的语气停顿等特征综合进行断句预测，可以避免出现漏断与误断的情况，提高了语音断句的准确性。
10.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
11.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
12.图1是本发明实施例提供的一种计算机设备的结构示意图；
13.图2是本发明实施例提供的一种语音断句方法的示意性流程图；
14.图3是本发明实施例提供的一种对目标文本进行断句的示意图；
15.图4是本发明实施例提供的一种对语音数据进行静音检测的子步骤的示意性流程图。
具体实施方式
16.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
17.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。
18.应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
19.还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
20.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
21.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。
22.本发明的实施例提供了一种语音断句方法、计算机设备和存储介质。其中，该语音断句方法可以应用于计算机设备，通过将语音数据的静音信息与语音数据对应的目标文本的语义断句信息输入断句预测模型进行断句预测，实现根据文本语义和说话人的语气停顿等特征综合进行断句，可以避免出现漏断与误断的情况，提高了语音断句的准确性。
23.示例性的，计算机设备可以包括服务器与终端。其中，服务器可以为独立的服务
器，也可以为服务器集；终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。
24.请参阅图1，图1是本发明实施例提供的一种计算机设备的结构示意图。计算机设备100可以包括处理器101和存储器102，其中处理器101以及存储器102可以通过总线连接，该总线比如为i2c(inter-integrated circuit)总线等任意适用的总线。
25.其中，存储器102可以包括非易失性存储介质和内存储器。非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器101执行任意一种语音断句方法。
26.其中，处理器101用于提供计算和控制能力，支撑整个计算机设备100的运行。
27.其中，处理器101可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
28.在一实施例中，处理器101用于运行存储在存储器102中的计算机程序，并在执行计算机程序时实现如下步骤：
29.对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息；对所述目标文本进行语义断句处理，获得语义断句信息；将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果；根据所述断句预测结果，对所述目标文本进行断句。
30.在一个实施例中，所述语音数据包括至少两个流式语音包，所述静音信息包括所述目标文本中每个词组对应的累计静音分值；处理器101在实现对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息时，用于实现：
31.对每个所述流式语音包进行语音识别，获得每个所述流式语音包对应的识别文本，并将最大长度的识别文本，确定为所述目标文本；依次对相邻两个流式语音包对应的识别文本进行文本对比；若相邻两个流式语音包对应的识别文本不相同，则对两识别文本中最后一个相同的词组赋值第一静音分值；若相邻两个流式语音包对应的识别文本相同，则对两识别文本中的最后一个词组赋值第二静音分值；将所述目标文本中每个词组对应的第一静音分值和第二静音分值进行累计，获得所述目标文本中每个词组对应的所述累计静音分值。
32.在一个实施例中，所述语义断句信息包括所述目标文本中每个词组对应的语义断句分值；处理器101在实现对所述目标文本进行语义断句处理，获得语义断句信息之前，还用于实现：
33.对所述目标文本中的每个词组进行向量化，获得每个所述词组对应的词向量。
34.在一个实施例中，处理器101在实现对所述目标文本进行语义断句处理，获得语义断句信息时，用于实现：
35.将每个所述词组对应的词向量输入语义断句模型进行语义断句处理，获得每个所述词组对应的语义断句分值。
36.在一个实施例中，处理器101在实现将每个所述词组对应的词向量输入语义断句模型进行语义断句处理，获得每个所述词组对应的语义断句分值时，用于实现：
37.确定每个所述词组对应的至少一个相邻词组的相邻词向量；基于预设的计算公式，根据每个所述词组对应的词向量的位置权重值、以及至少一个所述相邻词组的相邻词向量的位置权重值，对每个所述词组对应的词向量与至少一个所述相邻词组的相邻词向量进行点积计算，获得每个所述词组对应的所述语义断句分值。
38.在一个实施例中，所述静音信息包括每个词组的累计静音分值，所述语义断句信息包括每个词组对应的语义断句分值，所述断句预测结果包括每个词组对应的断句预测概率；处理器101在实现将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果时，用于实现：
39.分别将所述目标文本中的每个词组对应的累计静音分值与语义断句分值输入所述断句预测模型进行断句预测，获得每个所述词组对应的断句预测概率。
40.在一个实施例中，所述断句预测结果包括每个词组对应的断句预测概率；处理器101在实现根据所述断句预测结果，对所述目标文本进行断句时，用于实现：
41.基于所述每个所述词组对应的断句预测概率，确定所述目标文本中的待断句词组，所述待断句词组对应的断句预测概率大于预设的概率阈值；在所述待断句词组后面添加断句符号，获得断句后的所述目标文本。
42.在一个实施例中，处理器101在实现根据所述断句预测结果，对所述目标文本进行断句之后，还用于实现：
43.对断句后的所述目标文本进行纠错处理，获得纠错处理后的所述目标文本。
44.在一个实施例中，处理器101在实现对断句后的所述目标文本进行纠错处理，获得纠错处理后的所述目标文本时，用于实现：
45.确定断句后的所述目标文本中每个断句符号相邻的两个词组对应的关联值，所述关联值为在预设的语料库中，所述相邻的两个词组为关联词组的频率；在所述第一词组和所述第二词组对应的关联值大于预设的关联阈值的情况下，将相邻的第一词组和第二词组之间的断句符号删除。
46.下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。
47.如图2所示，图2是本发明实施例提供的一种语音断句方法的示意性流程图。该语音断句方法应用于服务器或终端中，通过将语音数据的静音信息与语音数据对应的目标文本的语义断句信息输入断句预测模型进行断句预测，实现根据文本语义和说话人的语气停顿等特征综合进行断句，可以避免出现漏断与误断的情况，提高了语音断句的准确性。该语音断句方法包括步骤s10至步骤s40。
48.步骤s10、对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息。
49.需要说明的是，目标文本是对说话人的语音数据进行语音识别得到的。请参阅图3，图3是本发明实施例提供的一种对语音数据进行断句的示意图。如图3所示，可以先对语音数据进行语音识别与静音检测，获得语音数据对应的目标文本与静音信息；然后对目标文本进行语义断句处理，获得目标文本对应的语义断句信息；最后，将静音信息与语义断句
信息输入断句预测模型进行断句预测，获得目标文本对应的断句预测结果。
50.示例性的，语音数据包括至少两个流式语音包。流式语音包是指按照接收时间依次接收的语音数据。例如，将第0毫秒至第20毫秒接收的语音数据作为一个流式语音包，将第0毫秒至第40毫秒接收的语音数据作为另一个流式语音包，依次类推。
51.请参阅图4，图4是本发明实施例提供的一种对目标文本进行静音检测的子步骤的示意性流程图，具体可以包括以下步骤s101至步骤s105。
52.步骤s101、对每个所述流式语音包进行语音识别，获得每个所述流式语音包对应的识别文本，并将最大长度的识别文本，确定为所述目标文本。
53.在本发明实施例中，可以按照接收时间对所接收到的每个流式语音包进行语音识别，得到每个流式语音包对应的识别文本。然后，可以将最后一个流式语音包对应的识别文本作为目标文本。可以理解的是，最后一个流式语音包对应的识别文本的长度最大，且包含完整的语音数据信息。
54.示例性的，可以通过自动语音识别(automatic speech recognition，asr)技术对每个流式语音包进行语音识别。其中，具体的语音识别过程，在此不作限定。asr技术可以应用于会议语音记录识别、语音小秘书以及消息会话录音转文本等场景中。在本发明实施例中，可以对经asr技术语音识别得到的目标文本进行断句处理。
55.通过对每个流式语音包进行语音识别，可以实现说话人边说话边进行语音识别得到识别文本的效果，提高了语音识别效率。
56.步骤s102、依次对相邻两个流式语音包对应的识别文本进行文本对比。
57.示例性的，可以在语音识别过程中，根据相邻两个流式语音包对应的识别文本进行静音检测，获得静音信息。其中，静音信息可以包括目标文本中每个词组对应的累计静音分值。
58.示例性的，当语音数据为“我想要听音乐，请把手机上的所有音乐列出”时，为了便于说明，将“我想要听音乐”为例，说明如何对语音数据进行静音检测。其中，流式语音包对应的识别文本，如下所示：
59.第一个流式语音包对应的识别文本为：我。
60.第二个流式语音包对应的识别文本为：我想要。
61.第三个流式语音包对应的识别文本为：我想要。
62.第四个流式语音包对应的识别文本为：我想要听。
63.第五个流式语音包对应的识别文本为：我想要听音乐。
64.第六个流式语音包对应的识别文本为：我想要听音乐。
65.第七个流式语音包对应的识别文本为：我想要听音乐。
66.示例性的，可以依次对相邻两个流式语音包对应的识别文本进行文本对比；例如，将第一个流式语音包对应的识别文本与第二个流式语音包对应的识别文本进行文本对比，将第二个流式语音包对应的识别文本与第三个流式语音包对应的识别文本进行文本对比，将第三个流式语音包对应的识别文本与第四个流式语音包对应的识别文本进行文本对比，依次类推。
67.步骤s103、若相邻两个流式语音包对应的识别文本不相同，则对两识别文本中最后一个相同的词组赋值第一静音分值。
68.示例性的，第一静音分值可以是0，第二静音分值可以是1，当然也可以用其它数值表示。需要说明的是，当相邻两个流式语音包对应的识别文本不相同时，说明相邻两个流式语音包之间没有停顿，即不存在静音，因此赋值第一静音分值；当相邻两个流式语音包对应的识别文本相同时，说明相邻两个流式语音包之间有停顿，即存在静音，因此赋值第二静音分值。
69.例如，由于第一个流式语音包对应的识别文本与第二个流式语音包对应的识别文本不相同，两识别文本中最后一个相同的词组为“我”，因此可以对词组“我”赋值0。
70.又例如，由于第三个流式语音包对应的识别文本与第四个流式语音包对应的识别文本不相同，两识别文本中最后一个相同的词组为“想要”，因此可以对词组“想要”赋值0。
71.步骤s104、若相邻两个流式语音包对应的识别文本相同，则对两识别文本中的最后一个词组赋值第二静音分值。
72.例如，由于第二个流式语音包对应的识别文本与第三个流式语音包对应的识别文本相同，两识别文本中的最后一个词组为“想要”，因此可以对词组“想要”赋值1。
73.又例如，由于第五个流式语音包对应的识别文本与第六个流式语音包对应的识别文本相同，两识别文本中的最后一个词组为“音乐”，因此可以对词组“音乐”赋值1。
74.步骤s105、将所述目标文本中每个词组对应的第一静音分值和第二静音分值进行累计，获得所述目标文本中每个词组对应的所述累计静音分值。
75.示例性的，在依次对相邻两个流式语音包对应的识别文本进行文本对比，并对目标文本中的每个词组赋值后，可以将目标文本中每个词组对应的第一静音分值和第二静音分值进行累计，获得目标文本中每个词组对应的累计静音分值。需要说明的是，词组对应的累计静音分值越大，表示词组后面需要断句的可能性越大。
76.例如，每个词组对应的累计静音分值，如表1所示。
77.表1
78.词组累计静音分值我0想要1听0音乐2
79.通过依次对相邻两个流式语音包对应的识别文本进行文本对比，根据文本对比结果对每个词组赋值第一静音分值和第二静音分值，可以实现根据相邻两个识别文本的长短确定每个词组前后的静音状态，从而提高了目标文本中每个词组对应的累计静音分值的准确性。
80.步骤s20、对所述目标文本进行语义断句处理，获得语义断句信息。
81.在本发明实施例中，在得到目标文本之后，可以对目标文本进行语义断句处理，获得语义断句信息。其中，语义断句信息可以包括目标文本中每个词组对应的语义断句分值。需要说明的是，语义断句处理是指根据每个词组与上下文之间的语义特征，判断每个词组后面是否需要断句。词组对应的语义断句分值越大，表示该词组后面需要断句的可能性越大。其中，语义特征可以通过词向量进行表示。
82.在一些实施例中，对目标文本进行语义断句处理，获得语义断句信息之前，还可以
包括：对目标文本中的每个词组进行向量化，获得每个词组对应的词向量。
83.示例性的，可以将目标文本中的每个词组输入词向量化模型进行向量化，获得每个词组对应的词向量。其中词向量化模型可以包括预训练模型(bidirectional encoder representations from transformer，bert)，也可以是其它模型，在此不作限定。
84.在一些实施例中，对目标文本进行语义断句处理，获得语义断句信息，可以包括：将每个词组对应的词向量输入语义断句模型进行语义断句处理，获得每个词组对应的语义断句分值。
85.示例性的，语义断句模型可以包括但不限于卷积神经网络模型、条件随机场模型以及循环神经网络模型等等。在本发明实施例中，语义断句模型可以是预先训练好的模型。其中，具体的训练过程，在此不作限定。
86.在一些实施方式中，将每个词组对应的词向量输入语义断句模型进行语义断句处理，获得每个词组对应的语义断句分值，可以包括：确定每个词组对应的至少一个相邻词组的相邻词向量；基于预设的计算公式，根据每个词组对应的词向量的位置权重值、以及至少一个相邻词组的相邻词向量的位置权重值，对每个词组对应的词向量与至少一个相邻词组的相邻词向量进行点积计算，获得每个词组对应的语义断句分值。
87.需要说明的是，在本发明实施例中，语义断句模型可以包括用于计算语义断句分值的计算公式，如下所示：
88.d＝x1·
t1+x2·
t2+x3·
t389.式中，x2表示当前词向量，t2表示当前词向量x2对应的位置权重值；x1表示当前词向量x2对应的前一相邻词向量，t1表示前一相邻词向量x1对应的位置权重值；x3表示当前词向量x2对应的后一相邻词向量，t3表示后一相邻词向量x3对应的位置权重值；d表示当前词向量x2对应的语义断句分值。其中，位置权重值t1、位置权重值t3和位置权重值t3是语义断句模型在训练过程中确定的。
90.需要说明的是，当目标文本中的第一个词组对应的词向量为当前词向量时，当前词向量对应的前一相邻词向量可以是零向量；当目标文本中的最后一个词组对应的词向量为当前词向量时，当前词向量对应的后一相邻词向量可以是零向量。
91.示例性的，可以将每个词组对应的词向量依次输入语义断句模型中，根据计算公式对每个词组对应的词向量与至少一个相邻词组对应的相邻词向量分别赋值位置权重值，获得每个词向量对应的位置权重值以及每个相邻词向量对应的位置权重值。然后，将每个词向量对应的位置权重值与每个词向量进行点积计算，获得第一点积值；将前一相邻词向量对应的位置权重值与前一相邻词向量进行点积计算，获得第二点积值；将后一相邻词向量对应的位置权重值与后一相邻词向量进行点积计算，获得第三点积值；将第一点积值、第二点积值与第三点积值进行相加，获得每个词组对应的语义断句分值。
92.通过将每个词组对应的词向量输入语义断句模型进行语义断句处理，可以获得每个词组对应的语义断句分值，实现从说话人的语义特征的角度判断每个词组后面是否需要断句。
93.步骤s30、将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果。
94.需要说明的是，由于语义断句处理是从说话人的语义特征的角度判断每个词组后
面是否需要断句，而静音检测是从说话人的语气停顿特征的角度判断每个词组后面是否需要断句，因此可以根据静音信息与语义断句信息综合起来判断每个词组后面是否需要断句。从而可以提高了文本断句的准确性。
95.示例性的，静音信息包括目标文本中每个词组的累计静音分值，语义断句信息包括目标文本中每个词组对应的语义断句分值，断句预测结果包括目标文本中每个词组对应的断句预测概率。
96.在一些实施例中，将静音信息与语义断句信息输入断句预测模型进行断句预测，获得目标文本对应的断句预测结果，可以包括：分别将目标文本中的每个词组对应的累计静音分值与语义断句分值输入断句预测模型进行断句预测，获得每个词组对应的断句预测概率。
97.示例性的，断句预测模型可以包括决策树模型、卷积神经网络模型以及循环神经网络模型等等。其中，断句预测模型是预先训练好的模型，可以实现根据每个词组对应的累计静音分值与语义断句分值判断每个词组是否需要断句，并输出每个词组对应的断句预测概率。
98.在本发明实施例中，将以断句预测模型为卷积神经网络模型为例，详细说明如何训练断句预测模型。其中，卷积神经网络模型包括输入层、隐含层以及输出层。隐含层可以包括至少一个神经元，神经元用于对输入的累计静音分值与语义断句分值进行权重赋值，并将权重赋值后的累计静音分值与语义断句分值传递至下一神经元；输出层用于对隐含层的输出进行全连接与归一化，获得断句预测概率。
99.示例性的，断句预测模型的训练过程，可以包括：获取样本文本，分别对样本文本进行静音检测与语义断句处理，获得样本文本中每个词组对应的累计静音分值与语义断句分值；根据每个词组对应的累计静音分值与语义断句分值，以及每个词组对应的断句标签信息，确定每一轮的训练样本数据以及训练样本数据对应的断句标签信息；将当前轮训练样本数据输入初始的断句预测模型进行断句预测训练，获得当前轮训练样本数据对应的断句预测训练结果；基于预设的损失函数，根据断句预测训练结果与断句标签信息，确定当前轮训练样本数据对应的损失函数值；若损失函数值大于预设的损失值阈值，则调整断句预测模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于损失值阈值，结束训练，得到训练好的断句预测模型。
100.示例性的，预设的损失函数可以包括但不限于0-1损失函数、绝对值损失函数、对数损失函数、平方损失函数以及指数损失函数等等。损失函数值可以根据实际情况设定，具体数值在此不作限定。
101.示例性的，可以通过梯度下降算法或反向传播算法，调整断句预测模型的参数。其中，调整参数的具体过程，在此不作限定。
102.通过基于预设的损失函数计算损失函数值，以及通过梯度下降算法或反向传播算法调整断句预测模型的参数，可以使得断句预测模型快速收敛，提高了训练效率。通过对断句预测模型进行训练，可以提高训练好的断句预测模型的文本断句的准确性。
103.示例性的，可以分别将目标文本中的每个词组对应的累计静音分值与语义断句分值输入训练好的断句预测模型进行断句预测，获得每个词组对应的断句预测概率。例如，当目标文本为“我想要听音乐请把手机上的所有音乐列出”时，将目标文本对应的每个词组的
累计静音分值与语义断句分值输入训练好的断句预测模型进行断句预测，获得每个词组对应的断句预测概率，如表2所示。
104.表2
[0105][0106][0107]
通过将静音信息与语义断句信息输入断句预测模型进行断句预测，可以获得目标文本对应的断句预测结果，由于静音信息表示说话人的语气停顿特征，语义断句信息为对目标文本中的语义特征进行语义断句得到，因此可以实现根据文本语义和说话人的语气停顿等特征进行断句预测，可以避免出现漏断与误断的情况，提高了语音断句的准确性。
[0108]
步骤s40、根据所述断句预测结果，对所述目标文本进行断句。
[0109]
在本发明实施例中，在将静音信息与语义断句信息输入断句预测模型进行断句预测，获得目标文本对应的断句预测结果之后，还可以根据断句预测结果对目标文本进行断句，以及对断句后的目标文本进行纠错处理。
[0110]
在一些实施例中，根据断句预测结果，对目标文本进行断句，可以包括：基于每个词组对应的断句预测概率，确定目标文本中的待断句词组，待断句词组对应的断句预测概率大于预设的概率阈值；在待断句词组后面添加断句符号。
[0111]
其中，大于预设的概率阈值可以根据实际情况设定，具体数值在此不作限定。断句符号可以是逗号，也可以是句号，当然也可以是其它符号。
[0112]
示例性的，当预设的概率阈值为0.5时，若目标文本中的某个词组对应的断句预测概率大于预设的概率阈值0.5，则可以确定该词组为待断句词组。
[0113]
例如，对于目标文本“我想要听音乐请把手机上的所有音乐列出”，可以根据每个词组对应的断句预测概率，确定待断句词组；然后在待断句词组后面添加断句符号，得到断句后的目标文本，如“我想要听音乐，请把手机上的所有音乐列出，”。
[0114]
在一些实施例中，在根据断句预测结果，对目标文本进行断句之前，还可以包括：将每个词组对应的断句预测概率与预设的概率阈值进行对比；若断句预测概率大于或等于概率阈值，则确定每个词组对应的断句预测概率为第一断句预测概率；若断句预测概率小于概率阈值，则确定每个词组对应的断句预测概率为第二断句预测概率。
[0115]
其中，预设的概率阈值可以根据实际情况设定，具体数值在此不作限定。例如，预设的概率阈值可以是0.5。
[0116]
示例性的，第一断句预测概率可以是1，第二断句预测概率可以是0。其中，1表示需要断句；0表示不需要断句。
[0117]
例如，对于词组a，若词组a对应的断句预测概率为0.4，则可以确定词组a对应的第一断句预测概率为0。
[0118]
例如，对于词组b，若词组b对应的断句预测概率为0.9，则可以确定词组b对应的第一断句预测概率为1。
[0119]
示例性的，当目标文本为“我想要听音乐请把手机上的所有音乐列出”时，目标文本对应的每个词组的断句预测概率，如表3所示。
[0120]
表3
[0121][0122][0123]
在另一些实施例中，在根据断句预测结果，对目标文本进行断句时，可以包括：基于每个词组对应的断句预测概率，确定目标文本中的待断句词组，待断句词组对应的断句预测概率等于第一断句预测概率；在待断句词组后面添加断句符号，获得断句后的目标文本。
[0124]
示例性的，当目标文本中的某个词组对应的断句预测概率为1时，可以确定该词组为待断句词组。例如，对于目标文本“我想要听音乐请把手机上的所有音乐列出”，可以确定词组“音乐”与词组“列出”为待断句词组。
[0125]
在一些实施例中，根据断句预测结果，对目标文本进行断句之后，还可以包括：对断句后的目标文本进行纠错处理，获得纠错处理后的目标文本。
[0126]
需要说明的是，断句后的目标文本可能会存在一些误断句情况，例如，两个断句符号之间只有一个字的词或断句符号相邻的两个词组的关联性较高，此时是不应该进行断句。出现误断句情况的原因，可能是说话人在正常说话中被打断造成的。为了进一步提高文本断句的准确性，需要对断句后的目标文本进行纠错处理。
[0127]
示例性的，纠错处理可以包括词组的字数纠错和/或词组的关联性纠错，当然也可
以是其它类型的纠错处理，在此不作限定。
[0128]
在一些实施例中，断句后的目标文本进行纠错处理，获得纠错处理后的目标文本，可以包括：确定断句后的目标文本中每个断句符号相邻的两个词组对应的关联值，关联值为在预设的语料库中，相邻的两个词组为关联词组的频率；在第一词组和第二词组对应的关联值大于预设的关联阈值的情况下，将相邻的第一词组和第二词组之间的断句符号删除。
[0129]
示例性的，预设的语料库包括大量的文本，关联词组是指语料库的文本中相连的词组。在本发明实例中，可以统计每个断句符号相邻的两个词组为关联词组的频率，得到每个断句符号相邻的两个词组对应的关联值。
[0130]
示例性的，若确定相邻的第一词组和第二词组对应的关联值大于预设的关联阈值，则可以删除相邻的第一词组和第二词组之间的断句符号。其中，预设的关联阈值可以根据实际情况设定，具体数值在此不作限定。
[0131]
通过对断句后的目标文本进行词组关联性的纠错处理，可以进一步提高文本断句的准确性。
[0132]
在另一些实施例中，对断句后的目标文本进行纠错处理，获得纠错处理后的目标文本，可以包括：确定断句后的目标文本中相邻的第一断句符号与第二断句符号之间的词组的字数；若字数小于预设的字数阈值，则删除第一断句符号和/或第二断句符号。
[0133]
示例性的，预设的字数阈值可以根据实际情况设定，具体数值在此不作限定。
[0134]
例如，当预设的字数阈值为1时，可以判断相邻的第一断句符号与第二断句符号之间的词组的字数是否为1。若确定相邻的第一断句符号与第二断句符号之间的词组的字数为1，则可以删除第一断句符号或第二断句符号，也可以同时删除第一断句符号和第二断句符号。
[0135]
通过对断句后的目标文本进行词组字数的纠错处理，可以进一步提高文本断句的准确性。
[0136]
上述实施例提供的语音断句方法、计算机设备和存储介质，通过对每个流式语音包进行语音识别，可以实现说话人边说话边进行语音识别得到识别文本的效果，提高了语音识别效率；通过依次对相邻两个流式语音包对应的识别文本进行文本对比，根据文本对比结果对每个词组赋值第一静音分值和第二静音分值，可以实现根据相邻两个识别文本的长短确定每个词组前后的静音状态，从而提高了目标文本中每个词组对应的累计静音分值的准确性；通过将每个词组对应的词向量输入语义断句模型进行语义断句处理，可以获得每个词组对应的语义断句分值，实现从说话人的语义特征的角度判断每个词组后面是否需要断句；通过对断句预测模型进行训练，可以提高训练好的断句预测模型的文本断句的准确性；通过将静音信息与语义断句信息输入断句预测模型进行断句预测，可以获得目标文本对应的断句预测结果，由于静音信息表示说话人的语气停顿特征，语义断句信息为对目标文本中的语义特征进行语义断句得到，因此可以实现根据文本中的语义和说话人的语气停顿等特征综合进行断句预测，可以避免出现漏断与误断的情况，提高了文本断句的准确性；通过对断句后的目标文本进行词组关联性的纠错处理，可以进一步提高文本断句的准确性；通过对断句后的目标文本进行词组字数的纠错处理，可以进一步提高文本断句的准确性。
[0137]
本发明的实施例中还提供一种存储介质，用于可读存储，所述存储介质存储有程序，所述程序中包括程序指令，所述处理器执行所述程序指令，实现本发明实施例提供的任一项语音断句方法。
[0138]
例如，该程序被处理器加载，可以执行如下步骤：
[0139]
对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息；对所述目标文本进行语义断句处理，获得语义断句信息；将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果；根据所述断句预测结果，对所述目标文本进行断句。
[0140]
其中，所述存储介质可以是前述实施例所述计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字卡(secure digital card，sd card)，闪存卡(flash card)等。
[0141]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0142]
在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在可存储介质上，存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
[0143]
以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

技术特征：

1.一种语音断句方法，所述方法包括：对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息；对所述目标文本进行语义断句处理，获得语义断句信息；将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果；根据所述断句预测结果，对所述目标文本进行断句。2.根据权利要求1所述的语音断句方法，其特征在于，所述语音数据包括至少两个流式语音包，所述静音信息包括所述目标文本中每个词组对应的累计静音分值；所述对语音数据进行语音识别与静音检测，获得所述语音数据对应的目标文本与静音信息，包括：对每个所述流式语音包进行语音识别，获得每个所述流式语音包对应的识别文本，并将最大长度的识别文本，确定为所述目标文本；依次对相邻两个流式语音包对应的识别文本进行文本对比；若相邻两个流式语音包对应的识别文本不相同，则对两识别文本中最后一个相同的词组赋值第一静音分值；若相邻两个流式语音包对应的识别文本相同，则对两识别文本中的最后一个词组赋值第二静音分值；将所述目标文本中每个词组对应的第一静音分值和第二静音分值进行累计，获得所述目标文本中每个词组对应的所述累计静音分值。3.根据权利要求1所述的语音断句方法，其特征在于，所述语义断句信息包括所述目标文本中每个词组对应的语义断句分值；所述对所述目标文本进行语义断句处理，获得语义断句信息之前，还包括：对所述目标文本中的每个词组进行向量化，获得每个所述词组对应的词向量；所述对所述目标文本进行语义断句处理，获得语义断句信息，包括：将每个所述词组对应的词向量输入语义断句模型进行语义断句处理，获得每个所述词组对应的语义断句分值。4.根据权利要求3所述的语音断句方法，其特征在于，所述将每个所述词组对应的词向量输入语义断句模型进行语义断句处理，获得每个所述词组对应的语义断句分值，包括：确定每个所述词组对应的至少一个相邻词组的相邻词向量；基于预设的计算公式，根据每个所述词组对应的词向量的位置权重值、以及至少一个所述相邻词组的相邻词向量的位置权重值，对每个所述词组对应的词向量与至少一个所述相邻词组的相邻词向量进行点积计算，获得每个所述词组对应的所述语义断句分值。5.根据权利要求1所述的语音断句方法，其特征在于，所述静音信息包括所述目标文本中每个词组的累计静音分值，所述语义断句信息包括所述目标文本中每个词组对应的语义断句分值，所述断句预测结果包括所述目标文本中每个词组对应的断句预测概率；所述将所述静音信息与所述语义断句信息输入断句预测模型进行断句预测，获得所述目标文本对应的断句预测结果，包括：分别将所述目标文本中的每个词组对应的累计静音分值与语义断句分值输入所述断句预测模型进行断句预测，获得每个所述词组对应的断句预测概率。
6.根据权利要求1-4任一项所述的语音断句方法，其特征在于，所述断句预测结果包括每个词组对应的断句预测概率；所述根据所述断句预测结果，对所述目标文本进行断句，包括：基于所述每个所述词组对应的断句预测概率，确定所述目标文本中的待断句词组，所述待断句词组对应的断句预测概率大于预设的概率阈值；在所述待断句词组后面添加断句符号，获得断句后的所述目标文本。7.根据权利要求6所述的语音断句方法，其特征在于，所述根据所述断句预测结果，对所述目标文本进行断句之后，所述方法还包括：对断句后的所述目标文本进行纠错处理，获得纠错处理后的所述目标文本。8.根据权利要求7所述的语音断句方法，其特征在于，所述对断句后的所述目标文本进行纠错处理，获得纠错处理后的所述目标文本，包括：确定断句后的所述目标文本中每个断句符号相邻的两个词组对应的关联值，所述关联值为在预设的语料库中，所述相邻的两个词组为关联词组的频率；在所述第一词组和所述第二词组对应的关联值大于预设的关联阈值的情况下，将相邻的第一词组和第二词组之间的断句符号删除。9.一种计算机设备，其特征在于，包括处理器和存储器；所述存储器用于存储程序；所述处理器，用于执行所述程序并在执行所述程序时实现如权利要求1至8中任一项所述的语音断句方法。10.一种存储介质，用于可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至8中任一项所述的语音断句方法。

技术总结

本发明涉及自然语言处理领域，尤其涉及一种语音断句方法、计算机设备和存储介质，该语音断句方法包括：对语音数据进行语音识别与静音检测，获得语音数据对应的目标文本与静音信息；对目标文本进行语义断句处理，获得语义断句信息；将静音信息与语义断句信息输入断句预测模型进行断句预测，获得目标文本对应的断句预测结果；根据断句预测结果，对目标文本进行断句。通过将语音数据的静音信息与语音数据对应的目标文本的语义断句信息输入断句预测模型进行断句预测，实现根据文本语义和说话人的语气停顿等特征综合进行断句，可以避免出现漏断与误断的情况，提高了语音断句的准确性。提高了语音断句的准确性。提高了语音断句的准确性。