关键词检测方法、装置、设备及存储介质与流程

1.本公开的实施方式涉及人工智能技术领域，更具体地，本公开的实施方式涉及一种关键词检测方法、装置、设备及存储介质。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.关键词检测是指在获取语音文件后，检测语音文件中是否有关键词的过程。随着人工智能技术的发展，语音识别被广泛应用于语音搜索、语音审核等场景中。
4.目前的关键词检测主要是通过补白模型来实现的，补白的含义是填补空白，在关键词检测领域，补白模型将关键词检测问题考虑为一个逐帧的序列标注问题，关键词定为不同的标注，而一个额外的“补白”标注用来匹配所有非关键词。针对某个关键词，可以构建相应的补白模型，并对补白模型进行训练，使得补白模型具备检测该关键词的能力。然后将待检测语音输入补白模型，即可得到相应的关键词检测结果。
5.上述方案由于补白模型是基于固定的关键词进行训练的，因此训练好的补白模型只能检测该关键词，当关键词发生变化时，需要训练新的补白模型才能完成关键词检测，不够灵活。

技术实现要素：

6.本公开提供一种关键词检测方法、装置、设备及存储介质，以解决目前的关键词检测方案不够灵活的问题。
7.第一方面，本公开提供了一种关键词检测方法，包括：
8.依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；
9.根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，所述概率分布矩阵中包括各时间步下的概率向量，所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率；
10.根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，其中，所述类别包括第一类别和第二类别，所述第一类别指示对应的语音识别序列包括至少一个所述关联字符，所述第二类别指示对应的语音识别序列不包括所述关联字符；
11.根据各所述语音识别序列的类别和/或所述概率分布矩阵，获取所述第一语音的检测结果，所述检测结果指示所述第一语音中包括所述关键词，或者，所述检测结果指示所述第一语音中不包括所述关键词。
12.在一种可能的实施方式中，根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，包括：
13.对所述多个语音片段进行特征提取处理，得到特征向量；
14.根据编码器对所述特征向量进行编码处理，得到所述多个语音片段的编码特征；
15.根据所述编码特征获取所述概率分布矩阵，并根据所述概率分布矩阵确定所述至少一个语音识别序列。
16.在一种可能的实施方式中，根据所述编码特征获取所述概率分布矩阵，并根据所述概率分布矩阵确定所述至少一个语音识别序列，包括：
17.根据音节分类器对所述编码特征进行音节序列映射处理，得到音节概率分布矩阵，其中，所述音节概率分布矩阵中包括各时间步下的音节概率向量，任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节，为预设音节集中的第b个预设音节的概率；
18.根据所述音节概率分布矩阵对k个预设音节进行束搜索处理，得到至少一个音节序列，各所述音节序列中包括的音节的数量均为l，所述l为正整数；
19.根据所述音节概率分布矩阵和所述至少一个音节序列，获取字概率分布矩阵和至少一个字序列，其中，所述字概率分布矩阵中包括l个字概率向量，任意第c个字概率向量中的第d个元素指示第c个音节对应的字，为预设字集中的第d个预设字的概率；
20.其中，所述概率分布矩阵包括所述音节概率分布矩阵和所述字概率分布矩阵，所述语音识别序列包括所述音节序列和所述字序列；
21.其中，所述a为正整数，所述b为大于或等于1且小于或等于k的正整数，所述k为所述预设音节集中包括的预设音节的数量，所述k为正整数，所述c为大于或等于1且小于或等于所述l的正整数，所述d为大于或等于1且小于或等于n的正整数，所述n为所述预设字集中包括的预设字的数量。
22.在一种可能的实施方式中，针对束搜索处理中的任意一个时间步，若当前音节路径中不包括所述关键词对应的关键音节，且所述当前音节路径与第i个预设音节连接后包括所述关键音节，所述方法还包括：
23.对所述当前音节路径和所述第i个预设音节连接后的音节路径进行权重激励。
24.在一种可能的实施方式中，根据所述音节概率分布矩阵和所述至少一个音节序列，获取字概率分布矩阵和至少一个字序列，包括：
25.根据解码器和字分类器对所述至少一个音节序列和所述编码特征进行解码处理，得到所述字概率分布矩阵；
26.根据所述字概率分布矩阵对n个预设字进行束搜索处理，得到所述至少一个字序列，各所述字序列中包括的字的数量均为l。
27.在一种可能的实施方式中，针对束搜索处理中的任意一个时间步，若当前字路径中不包括所述关键词对应的关键字，且所述当前字路径与第i个预设字连接后包括所述关键字，所述方法还包括：
28.对所述当前字路径和所述第i个预设字连接后的字路径进行权重激励。
29.在一种可能的实施方式中，所述多个关联字符包括所述关键词对应的至少一个匹配音节和至少一个匹配字；根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，包括：
30.根据所述至少一个匹配音节对所述至少一个音节序列进行模糊匹配处理，得到各所述音节序列的类别；
31.根据所述至少一个匹配字对所述至少一个字序列进行模糊匹配处理，得到各所述字序列的类别；
32.其中，包含所述匹配音节的目标音节序列和包含所述匹配字的目标字序列的类别，为所述第一类别；除所述目标音节序列外的音节序列，以及除所述目标字序列外的字序列的类别，为所述第二类别。
33.在一种可能的实施方式中，依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段，包括：
34.根据预设时间间隔和预设降采样率对所述第一语音进行分帧处理，得到所述多个语音片段。
35.在一种可能的实施方式中，根据各所述语音识别序列的类别和/或所述概率分布矩阵，获取所述第一语音的检测结果，包括：
36.响应于各所述语音识别序列的类别均为所述第二类别，确定所述第一语音的检测结果为所述第一语音中不包括所述关键词；
37.响应于各所述语音识别序列中包括类别为所述第一类别的所述目标音节序列和所述目标字序列，根据所述音节概率分布矩阵和所述目标音节序列，获取所述目标音节序列的第一得分；
38.根据所述字概率分布矩阵和所述目标字序列，获取所述目标字序列的第二得分；
39.根据所述第一得分和所述第二得分，获取所述检测结果。
40.在一种可能的实施方式中，根据所述音节概率分布矩阵和所述目标音节序列，获取所述目标音节序列的第一得分，包括：
41.在所述音节概率分布矩阵中确定所述目标音节序列的概率尖峰，针对所述目标音节序列中的任意音节，所述概率尖峰为所述音节在所述音节概率分布矩阵中的最大概率值对应的时段；
42.根据所述目标音节序列的概率尖峰，在所述音节概率分布矩阵中确定第一目标矩阵；
43.根据所述第一目标矩阵和所述目标音节序列，获取所述第一得分。
44.在一种可能的实施方式中，根据所述字概率分布矩阵和所述目标字序列，获取所述目标字序列的第二得分，包括：
45.根据所述目标音节序列的概率尖峰，在所述字概率分布矩阵中确定所述目标字序列的概率尖峰，针对所述目标字序列中的任意字，所述概率尖峰为所述字在所述字概率分布矩阵中的最大概率值对应的时段；
46.根据所述目标字序列的概率尖峰，在所述字概率分布矩阵中确定第二目标矩阵；
47.根据所述第二目标矩阵和所述目标字序列，获取所述第二得分。
48.在一种可能的实施方式中，根据所述第一得分和所述第二得分，获取所述检测结果，包括：
49.在所述第一得分和所述第二得分中确定目标得分；
50.在所述目标得分大于或等于预设阈值时，确定所述检测结果为所述第一语音中包括所述关键词；
51.在所述目标得分小于所述预设阈值时，确定所述检测结果为所述第一语音中不包
括所述关键词。
52.在一种可能的实施方式中，所述检测结果为所述第一语音中包括所述关键词，所述方法还包括：
53.根据所述概率尖峰对应的时间步、所述预设时间间隔和所述降采样率，确定所述关键词在所述第一语音中的时间段。
54.在一种可能的实施方式中，所述时间段为：
55.t＝(x*e*f，y*e*f)，
56.所述t为所述时间段，所述x表示所述关键词中的首字符对应的时间步为第x个时间步，所述y表示所述关键词中的尾字符对应的时间步为第y个时间步，所述e为所述预设时间间隔，所述f为所述预设降采样率。
57.第二方面，本公开提供一种关键词检测装置，包括：
58.获取模块，用于依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；
59.处理模块，用于根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，所述概率分布矩阵中包括各时间步下的概率向量，所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率；
60.确定模块，用于根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，其中，所述类别包括第一类别和第二类别，所述第一类别指示对应的语音识别序列包括至少一个所述关联字符，所述第二类别指示对应的语音识别序列不包括所述关联字符；
61.检测模块，用于根据各所述语音识别序列的类别和/或所述概率分布矩阵，获取所述第一语音的检测结果，所述检测结果指示所述第一语音中包括所述关键词，或者，所述检测结果指示所述第一语音中不包括所述关键词。
62.在一种可能的实施方式中，所述处理模块具体用于：
63.对所述多个语音片段进行特征提取处理，得到特征向量；
64.根据编码器对所述特征向量进行编码处理，得到所述多个语音片段的编码特征；
65.根据所述编码特征获取所述概率分布矩阵，并根据所述概率分布矩阵确定所述至少一个语音识别序列。
66.在一种可能的实施方式中，所述处理模块具体用于：
67.根据音节分类器对所述编码特征进行音节序列映射处理，得到音节概率分布矩阵，其中，所述音节概率分布矩阵中包括各时间步下的音节概率向量，任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节，为预设音节集中的第b个预设音节的概率；
68.根据所述音节概率分布矩阵对k个预设音节进行束搜索处理，得到至少一个音节序列，各所述音节序列中包括的音节的数量均为l，所述l为正整数；
69.根据所述音节概率分布矩阵和所述至少一个音节序列，获取字概率分布矩阵和至少一个字序列，其中，所述字概率分布矩阵中包括l个字概率向量，任意第c个字概率向量中的第d个元素指示第c个音节对应的字，为预设字集中的第d个预设字的概率；
70.其中，所述概率分布矩阵包括所述音节概率分布矩阵和所述字概率分布矩阵，所述语音识别序列包括所述音节序列和所述字序列；
71.其中，所述a为正整数，所述b为大于或等于1且小于或等于k的正整数，所述k为所述预设音节集中包括的预设音节的数量，所述k为正整数，所述c为大于或等于1且小于或等于所述l的正整数，所述d为大于或等于1且小于或等于n的正整数，所述n为所述预设字集中包括的预设字的数量。
72.在一种可能的实施方式中，针对束搜索处理中的任意一个时间步，若当前音节路径中不包括所述关键词对应的关键音节，且所述当前音节路径与第i个预设音节连接后包括所述关键音节，所述处理模块还用于：
73.对所述当前音节路径和所述第i个预设音节连接后的音节路径进行权重激励。
74.在一种可能的实施方式中，所述处理模块具体用于：
75.根据解码器和字分类器对所述至少一个音节序列和所述编码特征进行解码处理，得到所述字概率分布矩阵；
76.根据所述字概率分布矩阵对n个预设字进行束搜索处理，得到所述至少一个字序列，各所述字序列中包括的字的数量均为l。
77.在一种可能的实施方式中，针对束搜索处理中的任意一个时间步，若当前字路径中不包括所述关键词对应的关键字，且所述当前字路径与第i个预设字连接后包括所述关键字，所述处理模块还用于：
78.对所述当前字路径和所述第i个预设字连接后的字路径进行权重激励。
79.在一种可能的实施方式中，所述多个关联字符包括所述关键词对应的至少一个匹配音节和至少一个匹配字；所述确定模块具体用于：
80.根据所述至少一个匹配音节对所述至少一个音节序列进行模糊匹配处理，得到各所述音节序列的类别；
81.根据所述至少一个匹配字对所述至少一个字序列进行模糊匹配处理，得到各所述字序列的类别；
82.其中，包含所述匹配音节的目标音节序列和包含所述匹配字的目标字序列的类别，为所述第一类别；除所述目标音节序列外的音节序列，以及除所述目标字序列外的字序列的类别，为所述第二类别。
83.在一种可能的实施方式中，所述确定模块具体用于：
84.根据预设时间间隔和预设降采样率对所述第一语音进行分帧处理，得到所述多个语音片段。
85.在一种可能的实施方式中，所述检测模块具体用于：
86.响应于各所述语音识别序列的类别均为所述第二类别，确定所述第一语音的检测结果为所述第一语音中不包括所述关键词；
87.响应于各所述语音识别序列中包括类别为所述第一类别的所述目标音节序列和所述目标字序列，根据所述音节概率分布矩阵和所述目标音节序列，获取所述目标音节序列的第一得分；
88.根据所述字概率分布矩阵和所述目标字序列，获取所述目标字序列的第二得分；
89.根据所述第一得分和所述第二得分，获取所述检测结果。
90.在一种可能的实施方式中，所述检测模块具体用于：
91.在所述音节概率分布矩阵中确定所述目标音节序列的概率尖峰，针对所述目标音节序列中的任意音节，所述概率尖峰为所述音节在所述音节概率分布矩阵中的最大概率值对应的时段；
92.根据所述目标音节序列的概率尖峰，在所述音节概率分布矩阵中确定第一目标矩阵；
93.根据所述第一目标矩阵和所述目标音节序列，获取所述第一得分。
94.在一种可能的实施方式中，所述检测模块具体用于：
95.根据所述目标音节序列的概率尖峰，在所述字概率分布矩阵中确定所述目标字序列的概率尖峰，针对所述目标字序列中的任意字，所述概率尖峰为所述字在所述字概率分布矩阵中的最大概率值对应的时段；
96.根据所述目标字序列的概率尖峰，在所述字概率分布矩阵中确定第二目标矩阵；
97.根据所述第二目标矩阵和所述目标字序列，获取所述第二得分。
98.在一种可能的实施方式中，所述检测模块具体用于：
99.在所述第一得分和所述第二得分中确定目标得分；
100.在所述目标得分大于或等于预设阈值时，确定所述检测结果为所述第一语音中包括所述关键词；
101.在所述目标得分小于所述预设阈值时，确定所述检测结果为所述第一语音中不包括所述关键词。
102.在一种可能的实施方式中，所述检测结果为所述第一语音中包括所述关键词，所述检测模块还用于：
103.根据所述概率尖峰对应的时间步、所述预设时间间隔和所述降采样率，确定所述关键词在所述第一语音中的时间段。
104.在一种可能的实施方式中，所述时间段为：
105.t＝(x*e*f，y*e*f)，
106.所述t为所述时间段，所述x表示所述关键词中的首字符对应的时间步为第x个时间步，所述y表示所述关键词中的尾字符对应的时间步为第y个时间步，所述e为所述预设时间间隔，所述f为所述预设降采样率。
107.第三方面，本公开提供一种计算设备，包括：至少一个处理器和存储器；
108.所述存储器存储计算机执行指令；
109.所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的关键词检测方法。
110.第四方面，本公开提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的关键词检测方法。
111.本公开实施例提供的关键词检测方法、装置、设备及存储介质，首先依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；然后根据多个语音片段获取概率分布矩阵，并根据与多个语音片段相对应的概率分布矩阵确定至少一个语音识别序列，概率分布矩阵中包括各时间步下的概率向量，概率向量指示时间步下的字符为预设字符集中
的各预设字符的概率；根据关键词对应的多个关联字符对至少一个语音识别序列进行模糊匹配处理，得到各语音识别序列的类别，其中，第一类别指示对应的语音识别序列包括至少一个关联字符，第二类别指示对应的语音识别序列不包括关联字符；根据各语音识别序列的类别和/或概率分布矩阵，获取第一语音的检测结果，该检测结果指示第一语音中包括关键词，或者该检测结果指示第一语音中不包括关键词。本公开实施例的方案，针对待检测的第一语音，根据第一语音对应的多个语音片段得到的概率分布矩阵和至少一个语音识别序列是确定的，后续针对关键词对语音识别序列的类别进行划分，并根据语音识别序列的类别和/或概率分布矩阵获取第一语音的检测结果即可。相比于补白模型需要针对不同的关键词训练不同的模型(例如检测第一语音中是否包括关键词a时需要训练一个针对关键词a的模型，检测第一语音中是否包括关键词b时需要训练一个针对关键词b的模型)而言，本公开实施例的方案无需针对不同的关键词重新执行所有的步骤，即对第一语音划分得到多个语音片段以及获取概率分布矩阵和语音识别序列的步骤针对任意的关键词检测均是相同的，无需重复执行，方案操作比较简单灵活。
附图说明
112.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
113.图1为本公开实施例提供的应用场景示意图；
114.图2为本公开实施例提供的关键词检测方法的流程示意图；
115.图3为本公开实施例提供的获取概率分布矩阵和语音识别序列的示意图；
116.图4为本公开实施例提供的音节概率分布矩阵示意图；
117.图5为本公开实施例提供的束搜索示意图；
118.图6为本公开实施例提供的字概率分布矩阵示意图；
119.图7为本公开实施例提供的概率尖峰示意图；
120.图8为本公开实施例提供的程序产品示意图；
121.图9为本公开实施例提供的关键词检测装置的结构示意图；
122.图10为本公开实施例提供的计算设备的结构示意图。
123.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
124.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
125.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
126.根据本公开的实施方式，提出了一种关键词检测方法、装置、设备及存储介质。
127.在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
128.下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。
129.发明概述
130.关键词检测(keyword spotting，kws)也称为唤醒词检测、语音唤醒等，是一种在连续的音频流中检测出预定义的关键词的技术。关键词检测通常是基于自动语音识别(automatic speech recognition，asr)实现的，自动语音识别是一种将语音转换成文本的算法技术。针对连续的音频流，可以将音频流转换成文本，然后检测文本中是否存在关键词，从而实现关键词检测。
131.目前的关键词检测主要是通过补白模型来实现的，补白模型也称为垃圾模型。基于补白模型进行关键词检测的主要过程包括：构建模型，构建完成后采用相应的训练样本对构建的模型进行训练，训练样本中标注了关键词和非关键词。在训练完成后，模型具备关键词检测的能力。然后，针对待检测的音频，可以将音频输入至模型，得到网络模型输出的结果，该结果为音频中存在关键词的得分。当得分超过一定阈值时，模型认为检测出关键词，反之，模型认为未检测出关键词。
132.本发明人发现，基于补白模型的关键词检测方法在训练模型之前就需要定义好关键词，如果关键词更换，就需要根据更换后的关键词重新搜集语料进行标注，并重新训练模型，方案操作比较复杂，不够灵活。
133.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
134.应用场景总览
135.首先参考图1来描述本公开实施例的一种适用的应用场景。
136.图1为本公开实施例提供的应用场景示意图，如图1所示，包括客户端11和服务器12，客户端11和服务器12之间通过有线或无线连接。客户端11可以向服务器12发送第一语音，服务器12接收到第一语音后，对第一语音进行关键词检测，输出检测结果。
137.图1示例的场景中，第一语音由服务器12进行关键词检测，得到第一语音的检测结果。服务器12为关键词检测方法的执行主体，可选的，执行关键词检测方法的执行主体除了可以为服务器以外，还可以为集成了服务器的功能的设备，例如客户端、终端设备等等。
138.需要说明的是，图1仅仅为对本公开实施例的一种适用的应用场景的一种举例，并不构成对应用场景的限定。
139.示例性方法
140.下面结合图1的应用场景，参考图2来描述根据本公开示例性实施方式的关键词检测方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
141.图2为本公开实施例提供的关键词检测方法的流程示意图，如图2所示，该方法可以包括：
142.s21，依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段。
143.第一语音为待检测的语音，第一语音例如可以包括录音、人或设备发出的语音、音
频流等等。关键词检测任务即为检测第一语音中是否包括关键词。
144.在获取第一语音后，可以依据相应的时间步对第一语音进行划分，得到对应的多个语音片段，其中，任意一个语音片段均为第一语音的一个部分，多个语音片段可以根据相应的时间步排列，时间步和语音片段一一对应。针对任意相邻的两个时间步对应的两个语音片段，这两个语音片段可以包括重叠部分，也可以不包括重叠部分，本实施例对此不作限定。
145.s22，根据多个语音片段获取概率分布矩阵，并根据与多个语音片段相对应的概率分布矩阵确定至少一个语音识别序列，概率分布矩阵中包括各时间步下的概率向量，概率向量指示时间步下的字符为预设字符集中的各预设字符的概率。
146.预设字符集为根据字符类别确定的集合，预设字符集中包括了对应的字符类别下的多个预设字符，字符类别例如可以为字、音节等等。字对应的预设字符集中可以包括汉语中常见的3000多个字，音节对应的预设字符集中可以包括不同读音对应的400多个音节，等等。本公开实施例中，音节可以是汉语中由声母和韵母相拼组成的语音单位，在一些情况下，音节还可以包括音调。以“你好”为例，其对应的音节例如为“ni3 hao3”。
147.在得到多个语音片段后，可以对多个语音片段进行序列映射处理，得到概率分布矩阵，概率分布矩阵中包括各时间步下的概率向量，且概率向量中包括多个元素，各元素分别指示该时间步下的字符为预设字符集中的各预设字符的概率，任意概率向量中的各元素之和为1。
148.概率分布矩阵指示了各时间步下的字符为预设字符集中的各预设字符的概率，概率越大，则表示该时间步对应的语音片段的字符为对应的预设字符的可能性越大，然后，根据概率分布矩阵，可以获取对应的至少一个语音识别序列。
149.语音识别序列中包括多个字符，得到语音识别序列，即实现了将第一语音转换为文本的过程。本公开实施例中，针对一个字符类别，可以获取一个或多个语音识别序列。以字符类别为音节为例，可以根据概率分布矩阵获取一个或多个音节识别序列。
150.s23，根据关键词对应的多个关联字符对至少一个语音识别序列进行模糊匹配处理，得到各语音识别序列的类别，其中，类别包括第一类别和第二类别，第一类别指示对应的语音识别序列包括至少一个关联字符，第二类别指示对应的语音识别序列不包括关联字符。
151.针对关键词的检测，关键词是已知的，关键词的数量可以是一个或多个，在下述实施例中均以一个为例进行介绍。对于关键词，可以确定该关键词对应的关联字符集合，关联字符集合中包括该关键词对应的多个关联字符。关联字符可以是与该关联字符具有一定关联关系的词，例如关联字符可以是关键词本身，可以是与关键词读音相同的字符组成的词，例如可以是与关键词读音相近的字符组成的词，等等。以关键词“万达广场”为例，该关键词对应的关联字符例如可以包括“万大广场”，“往达广场”，“wan da guan chang”，“wang da guang chang”等等。
152.在得到至少一个语音识别序列后，由于语音识别序列是文本形式存在的，可以判断各语音识别序列中是否包括该关键词对应的关联字符，若包括，则将该语音识别序列的类别确定为第一类别，反之，则将该语音识别序列的类别确定为第二类别。即，第一类别的语音识别序列中包括至少一个关联字符，第二类别的语音识别序列中不包括任何关联字
符。
153.s24，根据各语音识别序列的类别和/或概率分布矩阵，获取第一语音的检测结果，检测结果指示第一语音中包括关键词，或者，检测结果指示第一语音中不包括关键词。
154.在确定了各语音识别序列的类别后，可以得到不同类别的语音识别序列的数量。例如，语音识别序列的类别全部为第二类别，即任意一个语音识别序列中均不包括关键词对应的关联字符，针对该情形，可以确定第一语音中不包括关键词。
155.例如，语音识别序列中可以包括一个或多个类别为第一类别的语音识别序列，即存在一个或多个语音识别序列中包括至少一个关键词对应的关联字符，针对该情形，第一语音中可能包括关键词，也可能不包括关键词，需要结合概率分布矩阵进一步进行判定。
156.具体的，针对类别为第一类别的语音识别序列，由于该类别的语音识别序列中包括关键词对应的关联字符，而概率分布矩阵中包括各时间步下的概率向量，因此根据关联字符在语音识别序列中的位置，可以确定该关联字符在概率分布矩阵中对应的各概率向量。而概率向量指示了对应的时间步下的字符为预设字符集中的各预设字符的概率，以预设字符集中包括汉语中常见的3000个字(这3000个字为z1、z2、z3、...、z
3000
)为例，概率向量指示了对应的时间步下，该字符为这3000个字中的每个字的概率，即概率向量中的各个元素分别指示了对应的时间步下的字符为z1的概率，为z2的概率，为z3的概率、...、为z
3000
的概率。而这预设字符集中包括关键词对应的字符，因此，根据概率向量可以获取对应的时间步下的字符为关键词对应的字符的概率，进而得到第一语音中包含关键词的概率，该概率指示第一语音的检测结果。当包含关键词的概率大于或等于一定阈值时，确定第一语音中包括关键词，反之，确定第一语音中不包括关键词。
157.本公开实施例提供的关键词检测方法，首先依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；然后根据多个语音片段获取概率分布矩阵，并根据与多个语音片段相对应的概率分布矩阵确定至少一个语音识别序列，概率分布矩阵中包括各时间步下的概率向量，概率向量指示时间步下的字符为预设字符集中的各预设字符的概率；根据关键词对应的多个关联字符对至少一个语音识别序列进行模糊匹配处理，得到各语音识别序列的类别，其中，第一类别指示对应的语音识别序列包括至少一个关联字符，第二类别指示对应的语音识别序列不包括关联字符；根据各语音识别序列的类别和/或概率分布矩阵，获取第一语音的检测结果，该检测结果指示第一语音中包括关键词，或者该检测结果指示第一语音中不包括关键词。本公开实施例的方案，针对待检测的第一语音，根据第一语音对应的多个语音片段得到的概率分布矩阵和至少一个语音识别序列是确定的，后续针对关键词对语音识别序列的类别进行划分，并根据语音识别序列的类别和/或概率分布矩阵获取第一语音的检测结果即可。相比于补白模型需要针对不同的关键词训练不同的模型(例如检测第一语音中是否包括关键词a时需要训练一个针对关键词a的模型，检测第一语音中是否包括关键词b时需要训练一个针对关键词b的模型)而言，本公开实施例的方案无需针对不同的关键词重新执行所有的步骤，即对第一语音划分得到多个语音片段以及获取概率分布矩阵和语音识别序列的步骤针对任意的关键词检测均是相同的，无需重复执行，方案操作比较简单灵活。
158.在上述任意实施例的基础上，下面将结合附图对本公开实施例的方案进行进一步细化。
159.针对待检测的第一语音，首先需要对第一语音进行划分，得到多个语音片段。一种可能的实现方式是，根据预设时间间隔和预设降采样率对第一语音进行分帧处理，得到多个语音片段，预设时间间隔e和预设降采样率可以根据需要设定。例如，设预设时间间隔为10ms，每隔10ms在第一语音上进行分帧处理，每个语音片段的时长设置为25ms，则可以得到语音片段对应的时段依次为0-25ms、10-35ms、20-45ms、30-55ms等等。在得到这些语音片段后，可以进行降采样，降采样率设为f，则表示每隔f个样本取一个样本，f大于或等于1。以f＝1为例，则最终得到的多个语音片段的时段依次为0-25ms、10-35ms、20-45ms、30-55ms等等，以f＝2为例，则最终得到的多个语音片段的时段依次为0-25ms、20-45ms、40-65ms、60-85ms等等。
160.语音片段和时间步一一对应，针对任意第x个时间步，其对应的语音片段的时段为(x-1)*e*f至(x-1)*e*f+g，其中e为预设时间间隔，f为预设降采样率，g为语音片段的时长。
161.在得到多个语音片段后，可以根据语音片段获取概率分布矩阵，以及获取与概率分布矩阵对应的至少一个语音识别序列，下面将结合图3对该过程进行说明。
162.图3为本公开实施例提供的获取概率分布矩阵和语音识别序列的示意图，如图3所示，首先对多个语音片段进行特征提取处理，得到特征向量x，x＝{x1,x2,x3,...,xn}，其中，xn为对第n个时间步对应的语音片段进行特征提取处理后得到的特征子向量，n为多个语音片段的数量，也为时间步的数量。
163.在得到特征向量x后，将特征向量x输入编码器，根据编码器对特征向量x进行编码处理，得到多个语音片段的编码特征enc_out。
164.根据编码特征enc_out可以获取概率分布矩阵以及至少一个语音识别序列，其中，本公开实施例中的概率分布矩阵包括字概率分布矩阵和音节概率分布矩阵，语音识别序列也包括音节序列和字序列。
165.在得到编码特征enc_out后，将编码特征enc_out输入至连接时序分类(connectionist temporal classification，ctc)音节分类器，根据音节分类器对编码特征enc_out进行音节序列映射处理，得到音节概率分布矩阵。其中，音节概率分布矩阵中包括各时间步下的音节概率向量，即音节概率分布矩阵中包括的音节概率向量的数量为n，n既是多个语音片段的数量，也是时间步的数量。例如可以结合图4对音节概率分布矩阵进行理解。
166.图4为本公开实施例提供的音节概率分布矩阵示意图，如图4所示，括号内即为根据第一语音得到的音节概率分布矩阵，图4中的每个方框代表音节概率分布矩阵中的一个元素。
167.音节概率分布矩阵在横向包括n个元素，在纵向包括k个元素(图4中以k＝6为例进行介绍，k也可以取其他的数值)，音节概率分布矩阵中的每一列为一个音节概率向量，从左至右依次为第1个音节概率向量p1、第2个音节概率向量p2、第3个音节概率向量p3、...、第n个音节概率向量pn。
168.在该音节概率分布矩阵中，任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节，为预设音节集中的第b个预设音节的概率。其中，a为正整数，b为大于等于1且小于等于k的正整数，k为预设音节集中包括的预设音节的数量，k为正整数。其中，任意一个音节概率向量中包括的k个元素的取值之和均为1。
169.预设音节集中包括k个预设音节，这k个预设音节囊括了常见的各种字符的读音。在预设音节集中的k个预设音节按照一定的顺序排列。以图4为例，k个预设音节依次为音节1、音节2、音节3、音节4、音节5、音节6，则根据任意一个元素在音节概率分布矩阵中的位置可以确定该元素指示的含义。例如，第3行第5列的元素，其属于第5个音节概率向量中的第3个元素，该元素表示第5个语音片段对应的音节为音节3的概率。
170.在得到音节概率分布矩阵后，可以根据音节概率分布矩阵对k个预设音节进行束搜索处理，得到至少一个音节序列，各音节序列中包括的音节的数量均为l，l为正整数。针对束搜索中的任意一个时间步，若当前音节路径中不包括关键词对应的关键音节，且当前音节路径与第i个预设音节连接后包括关键音节，则可以对当前音节路径和第i个预设音节连接后的音节路径进行权重激励，以提高关键词在解码阶段的召回概率。其中，关键音节是根据关键词中的每个字符对应的音节得到的，例如关键词为“万达广场”时，对应的关键音节为“wan da guang chang”。
171.下面将结合图5对束搜索的过程进行简单介绍。图5为本公开实施例提供的束搜索示意图，如图5所示，示例的是4个时间步对应的矩阵，涉及到预设音节集中包括的4个音节，分别是wan、da、guang和chang。其中第1个时间步对应的语音片段中，这4个音节的概率依次为0.4、0.3、0.2、0.1；第2个时间步对应的语音片段中，这4个音节的概率依次为0.1、0.6、0.1、0.2；第3个时间步对应的语音片段中，这4个音节的概率依次为0.05、0.15、0.5、0.3；第4个时间步对应的语音片段中，这4个音节的概率依次为0.2、0.3、0.2、0.3，在束搜索中的参数-束尺寸(beamsize)m＝2。
172.则在第1个时间步，根据m确定路径为wan和da，对应的得分分别是0.4和0.3。
173.在第2个时间步，根据第1个时间步对应的2条路径，以及第2个时间步的4个音节，可以得到8条路径以及这8条路径的得分。这8条路径以及路径的得分如下：
174.wan wan(0.4*0.1＝0.04)；
175.wan da(0.4*0.6＝0.24)；
176.wan guang(0.4*0.1＝0.04)；
177.wan chang(0.4*0.2＝0.08)；
178.da wan(0.3*0.1＝0.03)；
179.da da(0.3*0.6＝0.18)；
180.da guang(0.3*0.1＝0.03)；
181.da chang(0.3*0.2＝0.06)。
182.由于第2个时间步对应的音节路径均不包括关键词对应的关键音节，因此不对其进行权重激励。则在第2个时间步，根据m确定路径包括wan da(得分为0.24)以及da da(得分为0.18)。
183.在第3个时间步，根据第2个时间步对应的2条路径，以及第3个时间步的4个音节，可以得到8条路径以及这8条路径的得分。这8条路径以及路径的得分如下：
184.wan da wan(0.24*0.05＝0.012)；
185.wan da da(0.24*0.15＝0.036)；
186.wan da guang(0.24*0.5＝0.12)；
187.wan da chang(0.24*0.3＝0.072)；
188.da da wan(0.18*0.05＝0.009)；
189.da da da(0.18*0.15＝0.027)；
190.da da guang(0.18*0.5＝0.09)；
191.da da chang(0.18*0.3＝0.054)；
192.由于第3个时间步对应的音节路径均不包括关键词对应的关键音节，因此不对其进行权重激励。则在第3个时间步，根据m确定路径包括wan da guang(得分为0.12)以及wan da chang(得分为0.072)。
193.在第4个时间步，根据第3个时间步对应的2条路径，以及第4个时间步的4个音节，可以得到8条路径以及这8条路径的得分。这8条路径以及路径的得分如下：
194.wan da guang wan(0.12*0.2＝0.024)；
195.wan da guang da(0.12*0.3＝0.036)；
196.wan da guang guang(0.12*0.2＝0.024)；
197.wan da guang chang(0.12*0.3＝0.036)；
198.wan da chang wan(0.072*0.2＝0.0144)；
199.wan da chang da(0.072*0.3＝0.0216)；
200.wan da chang guang(0.072*0.2＝0.0144)；
201.wan da chang chang(0.072*0.3＝0.0216)。
202.第3个时间步对应的2条路径(即wan da guang和wan da chang)均不包括关键音节“wan da guang chang”，而第3个时间步对应的2条路径与第4个时间步中的预设音节“chang”连接后得到的第4个时间步对应的音节路径包括关键音节“wan da guang chang”，因此可以对上述8条路径中的第4条音节路径“wan da guang chang”进行权重激励。第3个时间步对应的2条路径与第4个时间步中的其他预设音节连接后得到的第4个时间步对应的音节路径均不包括关键音节“wan da guang chang”，因此无需进行权重激励。
203.权重激励的方式有多种，例如，可以给包括关键音节的音节路径的得分加上一个预设权重值，得到该音节路径的新的得分，然后根据该音节路径的新的得分以及其他音节路径的得分，选择第4个时间步对应的音节路径。
204.本公开实施例中，还可以采用关键词偏移的方式进行权重激励。针对任意时间步，基于关键词偏移的解码公式如下：
205.wi＝argmax(f(w))，
206.其中，f(w)＝log(p(w|x))+α1(logp
lm1
(w)))+α2(logp
lm2
(w)))+...+sv；
207.wi为该时间步对应的音节，w为预设音节，x为第一语音；p(w|x)为预设音节w的声学模型得分，p
lm
(w)为w在语言模型下的语言模型得分，α1和α2为对应的语言模型的权重；sv为w的权重激励值，在当前音节路径中不包括关键音节且当前音节路径与某个音节连接后包括关键音节，则sv为第一预设值，否则sv为第二预设值，且第一预设值大于或等于第二预设值；argmax为最大自变量点集函数，argmax(f(w))表示的是使得f(w)取得最大值所对应的w。
208.通过权重激励，能够提高包含关键音节的音节序列在多个音节序列中的排名，从而提升关键词在解码阶段的召回概率。
209.在图5中，介绍了束搜索的处理过程。可以理解的是，尽管本公开实施例中预设音
节集中包括的预设音节的数量和图5中每个时间步下的音节的数量不同，音节序列中包括的音节数量与图5中不同，但确定m个音节序列的过程与图5类似。
210.在得到音节概率分布矩阵后，可以根据音节概率分布矩阵和至少一个音节序列，获取字概率分布矩阵和至少一个字序列。具体的，根据解码器和字分类器对至少一个音节序列和编码特征enc_out进行解码处理，得到字概率分布矩阵。其中，字概率分布矩阵中包括l个字概率向量，l为音节序列中包括的音节的数量。
211.图6为本公开实施例提供的字概率分布矩阵示意图，如图6所示，括号内即为根据音节概率分布矩阵和至少一个音节序列得到的字概率分布矩阵，图6中的每个方框代表字概率分布矩阵中的一个元素。
212.字概率分布矩阵在横向包括l个元素，在纵向包括n个元素(图6中以n＝6为例进行介绍，n也可以取其他的数值)，字概率分布矩阵中的每一列为一个字概率向量，从左至右依次为第1个字概率向量q1、第2个字概率向量q2、第3个字概率向量q3、...、第l个字概率向量q
l
。
213.在该字概率分布矩阵中，任意第c个字概率向量中的第d个元素指示第c个音节对应的字，为预设字集中的第d个预设字的概率。c为大于等于1且小于等于l的正整数，d为大于等于1且小于等于n的正整数，n为预设字集中包括的预设字的数量。其中，任意一个字概率向量中包括的n个元素的取值之和均为1。
214.预设字集中包括n个预设字，这n个预设字囊括了常见的各种字符对应的字。在预设字集中的n个预设字按照一定的顺序排列。以图6为例，n个预设字依次为字1、字2、字3、字4、字5、字6，则根据任意一个元素在字概率分布矩阵中的位置可以确定该元素指示的含义。例如，第1行第2列的元素(如图6中的阴影部分示意)，其属于第2个字概率向量中的第1个元素，该元素表示第2个音节对应的字为字1的概率。
215.在得到字概率分布矩阵后，可以根据音节概率分布矩阵对n个预设字进行束搜索处理，得到至少一个字序列，各字序列中包括的字的数量均为l，l为正整数。本公开实施例中，音节序列中包括的音节，与字序列中包括的字一一对应，因此音节序列中包括的音节的数量和字序列中包括的字的数量相等，均为l。
216.在基于字概率分布矩阵进行束搜索时，若当前字路径中不包括关键词对应的关键字，且当前字路径与第i个预设字连接后包括关键字，则可以对当前字路径和第i个预设字连接后的字路径进行权重激励，以提高关键词在解码阶段的召回概率。基于字概率分布矩阵进行束搜索得到至少一个字序列的过程，与基于音节概率分布矩阵进行束搜索得到至少一个音节序列的过程类似，具体可参见图5实施例的相关介绍，此处不再赘述。
217.在获取至少一个音节序列和至少一个字序列后，可以在至少一个音节序列和至少一个字序列中确定目标语音识别序列。本公开实施例中，采用多级匹配和模糊匹配的方法，确定目标语音识别序列，其中，多级匹配指的是同时对音节序列和字序列进行关键词匹配。例如当关键词为“万达广场”时，如果音节序列包含完整的“wan4 da2 guang3 chang3”，或字序列包含完整的“万达广场”，则表示匹配成功。模糊匹配指的是当与关键词相似的词出现在音节序列或字序列中时，也认为匹配成功，例如关键词“万达广场”相似的词可以包括“望大广场”、“往大广场”、“万大广场”等等，对应的音节包括“wang4 da4 guang3 chang3”、“wang3 da4 guang3 chang3”、“wan4 da4 guang3 chang3”。
218.因此，在进行匹配的过程中，首先确定关键词对应的至少一个匹配音节和至少一个匹配字，匹配音节和匹配字用于进行模糊匹配。根据至少一个匹配音节对至少一个音节序列进行模糊匹配处理，可以得到各音节序列的类别。具体的，可以将包含有匹配音节的目标音节序列的类别确定为第一类别，将除目标音节序列外的音节序列的类别确定为第二类别。根据至少一个匹配字对至少一个字序列对至少一个字序列进行模糊匹配处理，可以得到各字序列的类别。具体的，可以将包含有匹配字的目标字序列的类别确定为第一类别，将除目标字序列外的字序列的类别确定为第二类别。其中，匹配音节和匹配字均为关键词对应的关联字符。
219.以包括如下两个音节序列和两个字序列为例：
220.音节序列1：quan2 guo2 kai1 chu1 le si4 shi2 wu3 zuo4 wan4 da2 guang3 chang3；
221.音节序列2：quan2 guo2 kai1 chu1 le si4 shi2 wu3 zuo4 wang4 da4 guang3 chang3；
222.字序列1：全国开出了四十五座万达广场；
223.字序列2：全国开出了四十五座望大广场。
224.若直接根据关键词对应的关键音节和关键字进行匹配，得到的匹配结果如下：
225.音节序列1：quan2 guo2 kai1 chu1 le si4 shi2 wu3 zuo4 wan4 da2 guang3 chang3(匹配成功)；
226.音节序列2：quan2 guo2 kai1 chu1 le si4 shi2 wu3 zuo4 wang4 da4 guang3 chang3(匹配失败)；
227.字序列1：全国开出了四十五座万达广场(匹配成功)；
228.字序列2：全国开出了四十五座望大广场(匹配失败)。
229.若根据匹配音节对音节序列进行模糊匹配处理，以及根据匹配字对字序列进行模糊匹配处理，得到的匹配结果如下：
230.音节序列1：quan2 guo2 kai1 chu1 le si4 shi2 wu3 zuo4 wan4 da2 guang3 chang3(匹配成功)；
231.音节序列2：quan2 guo2 kai1 chu1 le si4 shi2 wu3 zuo4 wang4 da4 guang3 chang3(匹配成功)；
232.字序列1：全国开出了四十五座万达广场(匹配成功)；
233.字序列2：全国开出了四十五座望大广场(匹配成功)。
234.在不进行模糊匹配时，目标语音识别序列仅包括音节序列1和字序列1，在进行模糊匹配时，目标语音识别序列包括音节序列1、音节序列2、字序列1和字序列2，如上所述，通过模糊匹配，能够提高匹配的成功率。
235.在确定各语音识别序列的类别后，可以根据各语音识别序列的类别和/后概率分布矩阵，获取第一语音的检测结果。
236.在各语音识别序列的类别均为第二类别时，即通过匹配音节进行模糊匹配后获知各音节序列中均不包括匹配音节，通过匹配字进行模糊匹配后获知各字序列中均不包括匹配字，此时确定第一语音中不包括关键词。
237.在各语音识别序列中包括类别为第一类别的目标音节序列和目标字序列时，针对
目标音节序列，根据音节概率分布矩阵和目标音节序列，获取目标音节序列的第一得分。音节概率分布矩阵是由ctc音节分类器对编码特征进行音节序列映射处理得到的，ctc音节分类器输出的音节概率分布矩阵与多个语音片段的数量对应，例如在图4中，音节概率分布矩阵总共有n列，表示第一语音被划分为n个语音片段。音节概率分布矩阵在时间维度上和输入时长对应，即在预设时间间隔和预设降采样率相同的情况下，第一语音越长，得到的语音片段的数量越多，从而音节概率分布矩阵的列数越多。
238.而由于第一语音中的每个字符对应的时长通常大于语音片段的时长，例如第一语音为对人说话的录音，其中人说每个字的时长大概为500ms，而每个语音片段的时长为25ms，则存在多个语音片段对应一个字符的情形，而音节序列中的每个音节对应一个字符，因此音节概率分布矩阵的列数远大于音节序列的长度，且单音节的概率尖峰呈现稀疏分布。其中，音节的概率尖峰为该音节在音节概率分布矩阵中的最大概率值对应的时段。
239.例如可以结合图7对概率尖峰进行理解。图7为本公开实施例提供的概率尖峰示意图，如图7所示，横轴为时间，纵轴为概率，图7中不同类型的线条代表不同的音节在不同的时间点上的概率，音节的概率尖峰是指音节在音节概率分布矩阵上概率达到峰值时对应的时段。
240.例如在图4中，示例了一个音节序列中的“wan4”、“da2”、“guang3”、“chang3”这几个音节的概率尖峰，其中音节“wan4”的概率尖峰对应第m个音节概率向量，即音节“wan4”的概率尖峰为第m个音节概率向量对应的时段，而第m个音节概率向量是根据第m个语音片段得到的，第m个语音片段的时段为(m-1)*e*f至(m-1)*e*f+g，其中e为预设时间间隔，f为预设降采样率，g为语音片段的时长。以预设时间间隔e为10ms、预设降采样率f为1、语音片段的时长g为25ms为例，则音节“wan4”的概率尖峰为时段第(10m-10)ms至(10m+15)ms，其中m表示第m个语音片段，ms为毫秒。
241.类似的，音节“da2”的概率尖峰对应第m+2个音节概率向量，第m+2个语音片段的时段为(m+1)*e*f至(m+1)*e*f+g，则音节“da2”的概率尖峰为时段第(10m+10)ms至(10m+35)ms；音节“guang3”的概率尖峰对应第m+4个音节概率向量，第m+4个语音片段的时段为(m+3)*e*f至(m+3)*e*f+g，则音节“guang3”的概率尖峰为时段第(10m+30)ms至(10m+55)ms；音节“chang3”的概率尖峰对应第m+7个音节概率向量，第m+7个语音片段的时段为(m+6)*e*f至(m+6)*e*f+g，则音节“chang3”的概率尖峰为时段第(10m+60)ms至(10m+85)ms。
242.如图7所示，示例了这4个音节的概率尖峰，即这4个音节在音节概率分布矩阵中的最大概率值对应的时段，如横轴所示，其中音节“wan4”对应时段(10m-10)ms至(10m+15)ms，音节“da2”对应时段(10m+10)ms至(10m+35)ms，音节“guang3”对应时段(10m+30)ms至(10m+55)ms，音节“chang3”对应时段(10m+60)ms至(10m+85)ms。纵轴反映了各个音节在对应的时间上的概率。
243.根据各音节的概率尖峰，可以得到音节序列的概率尖峰。例如图4所示，假设关键词“万达广场”对应的音节序列“wan4 da2 guang3 chang3”的概率尖峰分布于(pm，pm+7)区间，可以在音节概率分布矩阵中截取该区间内的矩阵o，矩阵o即为第一目标矩阵，然后根据第一目标矩阵和目标音节序列，获取第一得分。
244.例如，一种计算第一得分的方式是，获取目标音节序列中的单个关键音节在第一目标矩阵中对应的概率，然后对各单个关键音节在第一目标矩阵中对应的概率取log值后
相加，得到第一得分。以图4为例，单个关键音节在第一目标矩阵中对应的概率，即为第m个语音片段对应的音节为“wan4”的概率，第m+2个语音片段对应的音节为“da2”的概率，第m+4个语音片段对应的音节为“guang3”的概率，以及第m+7个语音片段对应的音节为“chang3”的概率。
245.例如，另一种计算第一得分的方式是，在得到第一目标矩阵后，针对目标音节序列，可以采用前缀束搜索解码算法前向计算关键词“万达广场”在第一目标矩阵上所有可能的ctc字符串的概率，然后将各ctc字符串的概率取log值后相加，作为目标音节序列的第一得分。
246.其中，关键词为规整字符串，与规整字符串对应的是ctc字符串，一条规整字符串会对应多条ctc字符串，ctc字符串比规整字符串多了空白占位符和连续重复。规整是指消除空白和连续重复的过程，规整字符串即为消除了空白和连续重复后得到的字符串。例如以规整字符串“cat”为例，其对应的ctc字符串可以是“cccaaat”、“caaat”、“ccc a t”等等。引入ctc字符串的原因是，音频中存在静音或者一个音拖很长的情况，那规整字符串(也就是最终的输出)包括的字符数量，一定是小于等于输入长度(即多个字符串的数量)的，所以需要ctc字符串实现输入和输出的对齐。
247.仍以图4为例，已经确定了音节序列“wan4 da2 guang3 chang3”的概率尖峰对应的音节概率向量依次是pm、pm+2、pm+4和pm+7，而从pm至pm+7，之间还包括pm+1、pm+3、pm+5和pm+6，这几个音节概率向量用于进行空白占位符和连续重复。根据第一目标矩阵得到对应的ctc字符串例如可以为“wan4 wan4 da2 da2 guang3 guang3 guang3 chang3”，例如可以为“wan4 wan4 da2 da2 guang3 guang3 chang3 chang3”，例如可以为“wan4 da2 da2 da2 guang3 guang3 chang3 chang3”，等等。在得到音节序列“wan4 da2 guang3 chang3”对应的多条ctc字符串后，可以根据第一目标矩阵获取每条ctc字符串的概率。其中，任意一条ctc字符串的概率的计算方式均可以参考束搜索方法中计算概率的方式。
248.以ctc字符串为“wan4 wan4 da2 da2 guang3 guang3 guang3 chang3”为例，则可以根据第一目标矩阵可以获取第m个语音片段对应的音节为wan4的概率、第m+1个语音片段对应的音节为wan4的概率、第m+2个语音片段对应的音节为da2的概率、第m+3个语音片段对应的音节为da2的概率、第m+4个语音片段对应的音节为guang3的概率、第m+5个语音片段对应的音节为guang3的概率、第m+6个语音片段对应的音节为guang3的概率以及第m+7个语音片段对应的音节为chang3的概率，然后将这些概率相乘，即可得到ctc字符串“wan4 wan4 da2 da2 guang3 guang3 guang3 chang3”的概率。
249.针对任意一条ctc字符串，均可以采用上述方式，得到ctc字符串的概率，然后将各条ctc字符串的概率取log值之后相加，即可得到第一得分。
250.在获取了第一得分后，可以根据字概率分布矩阵和目标字序列，获取目标字序列的第二得分。由于解码器的输出序列和输入序列一一对应，因此解码器输出的字概率分布矩阵中包括的字概率向量的数量等于音节序列中包括的音节的数量。根据目标音节序列的概率尖峰，可以在字概率分布矩阵中确定目标字序列的概率尖峰，针对目标字序列中的任意字，该字的概率尖峰为该字在字概率分布矩阵中的最大概率值对应的时段。由于音节序列中包括的音节和字序列中包括的字是一一对应的，因此音节序列和字序列可以共享概率尖峰位置。
251.然后，根据目标字序列的概率尖峰，在字概率分布矩阵中确定第二目标矩阵。根据第二目标矩阵和目标字序列，获取第二得分。例如，可以获取目标字序列中的单个关键字在第二目标矩阵中对应的概率，然后对各单个关键字在第二目标矩阵中对应的概率取log值后相加，得到第二得分。
252.在得到第一得分和第二得分后，可以在第一得分和第二得分中确定目标得分，例如，目标得分可以为第一得分和第二得分中的较大值，则有：
253.score＝max(score1,score2)，
254.其中，score为目标得分，score1为第一得分，score2为第二得分，max表示取最大值。
255.在确定目标得分后，可以将目标得分与预设阈值进行比较，从而得到检测结果。其中，在目标得分大于或等于预设阈值时，确定检测结果为第一语音中包括关键词，在目标得分小于预设阈值时，确定检测结果为第一语音中不包括关键词。
256.本公开实施例中，在检测出第一语音中存在关键词时，还可以输出关键词在第一语音中的时间段。具体的，可以根据概率尖峰对应的时间步、预设时间间隔和降采样率，确定关键词在第一语音中的时间段。其中，计算关键词在第一语音中的时间段的公式如下：
257.t＝(x*e*f，y*e*f)，
258.t为关键词在第一语音中的时间段，x表示关键词中的首字符对应的时间步为第x个时间步，y表示关键词中的尾字符对应的时间步为第y个时间步，以图4为例，关键词中的首字符对应的时间步为第m个时间步，此时x＝m，关键词中的尾字符对应的时间步为第m+7个时间步，此时y＝m+7，e为预设时间间隔，f为预设降采样率。在确定第一语音中检测出关键词时，通过计算关键词在第一语音中的时间段，能够输出关键词在第一语音中的位置，便于快速定位关键词。
259.综上所述，本公开实施例的方案首先依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；然后根据多个语音片段获取概率分布矩阵，并根据与多个语音片段相对应的概率分布矩阵确定至少一个语音识别序列，概率分布矩阵中包括各时间步下的概率向量，概率向量指示时间步下的字符为预设字符集中的各预设字符的概率；根据关键词对应的多个关联字符对至少一个语音识别序列进行模糊匹配处理，得到各语音识别序列的类别；根据各语音识别序列的类别和/或概率分布矩阵，获取第一语音的检测结果，该检测结果指示第一语音中包括关键词，或者该检测结果指示第一语音中不包括关键词。相比于补白模型需要针对不同的关键词训练不同的模型而言，本公开实施例的方案无需针对不同的关键词重新执行所有的步骤，即对第一语音划分得到多个语音片段以及获取概率分布矩阵和语音识别序列的步骤针对任意的关键词检测均是相同的，无需重复执行，方案操作比较简单灵活。
260.示例性介质
261.在介绍了本公开示例性实施方式的方法之后，接下来，参考图8对本公开示例性实施方式的存储介质进行说明。
262.参考图8所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品80，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此。
263.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
264.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
265.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备。
266.示例性装置
267.在介绍了本公开示例性实施方式的介质之后，接下来，参考图9对本公开示例性实施方式的关键词检测装置进行说明，用于实现上述任一方法实施例中的方法，其实现原理和技术效果类似，在此不再赘述。
268.图9为本公开实施例提供的关键词检测装置的结构示意图，如图9所示，包括：
269.获取模块91，用于依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；
270.处理模块92，用于根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，所述概率分布矩阵中包括各时间步下的概率向量，所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率；
271.确定模块93，用于根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，其中，所述类别包括第一类别和第二类别，所述第一类别指示对应的语音识别序列包括至少一个所述关联字符，所述第二类别指示对应的语音识别序列不包括所述关联字符；
272.检测模块94，用于根据各所述语音识别序列的类别和/或所述概率分布矩阵，获取所述第一语音的检测结果，所述检测结果指示所述第一语音中包括所述关键词，或者，所述检测结果指示所述第一语音中不包括所述关键词。
273.在一种可能的实施方式中，所述处理模块92具体用于：
274.对所述多个语音片段进行特征提取处理，得到特征向量；
275.根据编码器对所述特征向量进行编码处理，得到所述多个语音片段的编码特征；
276.根据所述编码特征获取所述概率分布矩阵，并根据所述概率分布矩阵确定所述至少一个语音识别序列。
277.在一种可能的实施方式中，所述处理模块92具体用于：
278.根据音节分类器对所述编码特征进行音节序列映射处理，得到音节概率分布矩阵，其中，所述音节概率分布矩阵中包括各时间步下的音节概率向量，任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节，为预设音节集中的第b个预设音节的概率；
279.根据所述音节概率分布矩阵对k个预设音节进行束搜索处理，得到至少一个音节序列，各所述音节序列中包括的音节的数量均为l，所述l为正整数；
280.根据所述音节概率分布矩阵和所述至少一个音节序列，获取字概率分布矩阵和至少一个字序列，其中，所述字概率分布矩阵中包括l个字概率向量，任意第c个字概率向量中的第d个元素指示第c个音节对应的字，为预设字集中的第d个预设字的概率；
281.其中，所述概率分布矩阵包括所述音节概率分布矩阵和所述字概率分布矩阵，所述语音识别序列包括所述音节序列和所述字序列；
282.其中，所述a为正整数，所述b为大于或等于1且小于或等于k的正整数，所述k为所述预设音节集中包括的预设音节的数量，所述k为正整数，所述c为大于或等于1且小于或等于所述l的正整数，所述d为大于或等于1且小于或等于n的正整数，所述n为所述预设字集中包括的预设字的数量。
283.在一种可能的实施方式中，针对束搜索处理中的任意一个时间步，若当前音节路径中不包括所述关键词对应的关键音节，且所述当前音节路径与第i个预设音节连接后包括所述关键音节，所述处理模块92还用于：
284.对所述当前音节路径和所述第i个预设音节连接后的音节路径进行权重激励。
285.在一种可能的实施方式中，所述处理模块92具体用于：
286.根据解码器和字分类器对所述至少一个音节序列和所述编码特征进行解码处理，得到所述字概率分布矩阵；
287.根据所述字概率分布矩阵对n个预设字进行束搜索处理，得到所述至少一个字序列，各所述字序列中包括的字的数量均为l。
288.在一种可能的实施方式中，针对束搜索处理中的任意一个时间步，若当前字路径中不包括所述关键词对应的关键字，且所述当前字路径与第i个预设字连接后包括所述关键字，所述处理模块92还用于：
289.对所述当前字路径和所述第i个预设字连接后的字路径进行权重激励。
290.在一种可能的实施方式中，所述多个关联字符包括所述关键词对应的至少一个匹配音节和至少一个匹配字；所述确定模块93具体用于：
291.根据所述至少一个匹配音节对所述至少一个音节序列进行模糊匹配处理，得到各所述音节序列的类别；
292.根据所述至少一个匹配字对所述至少一个字序列进行模糊匹配处理，得到各所述字序列的类别；
293.其中，包含所述匹配音节的目标音节序列和包含所述匹配字的目标字序列的类别，为所述第一类别，除所述目标音节序列外的音节序列，以及除所述目标字序列外的字序列的类别，为所述第二类别。
294.在一种可能的实施方式中，所述确定模块93具体用于：
295.根据预设时间间隔和预设降采样率对所述第一语音进行分帧处理，得到所述多个
语音片段。
296.在一种可能的实施方式中，所述检测模块94具体用于：
297.响应于各所述语音识别序列的类别均为所述第二类别，确定所述第一语音的检测结果为所述第一语音中不包括所述关键词；
298.响应于各所述语音识别序列中包括类别为所述第一类别的所述目标音节序列和所述目标字序列，根据所述音节概率分布矩阵和所述目标音节序列，获取所述目标音节序列的第一得分；
299.根据所述字概率分布矩阵和所述目标字序列，获取所述目标字序列的第二得分；
300.根据所述第一得分和所述第二得分，获取所述检测结果。
301.在一种可能的实施方式中，所述检测模块94具体用于：
302.在所述音节概率分布矩阵中确定所述目标音节序列的概率尖峰，针对所述目标音节序列中的任意音节，所述概率尖峰为所述音节在所述音节概率分布矩阵中的最大概率值对应的时段；
303.根据所述目标音节序列的概率尖峰，在所述音节概率分布矩阵中确定第一目标矩阵；
304.根据所述第一目标矩阵和所述目标音节序列，获取所述第一得分。
305.在一种可能的实施方式中，所述检测模块94具体用于：
306.根据所述目标音节序列的概率尖峰，在所述字概率分布矩阵中确定所述目标字序列的概率尖峰，针对所述目标字序列中的任意字，所述概率尖峰为所述字在所述字概率分布矩阵中的最大概率值对应的时段；
307.根据所述目标字序列的概率尖峰，在所述字概率分布矩阵中确定第二目标矩阵；
308.根据所述第二目标矩阵和所述目标字序列，获取所述第二得分。
309.在一种可能的实施方式中，所述检测模块94具体用于：
310.在所述第一得分和所述第二得分中确定目标得分；
311.在所述目标得分大于或等于预设阈值时，确定所述检测结果为所述第一语音中包括所述关键词；
312.在所述目标得分小于所述预设阈值时，确定所述检测结果为所述第一语音中不包括所述关键词。
313.在一种可能的实施方式中，所述检测结果为所述第一语音中包括所述关键词，所述检测模块94还用于：
314.根据所述概率尖峰对应的时间步、所述预设时间间隔和所述降采样率，确定所述关键词在所述第一语音中的时间段。
315.在一种可能的实施方式中，所述时间段为：
316.t＝(x*e*f，y*e*f)，
317.所述t为所述时间段，所述x表示所述关键词中的首字符对应的时间步为第x个时间步，所述y表示所述关键词中的尾字符对应的时间步为第y个时间步，所述e为所述预设时间间隔，所述f为所述预设降采样率。
318.本公开实施例提供的关键词检测装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。
319.示例性计算设备
320.在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图10对本公开示例性实施方式的计算设备进行说明。
321.图10显示的计算设备100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
322.如图10所示，计算设备100以通用计算设备的形式表现。计算设备100的组件可以包括但不限于：上述至少一个处理单元101、上述至少一个存储单元102，连接不同系统组件(包括处理单元101和存储单元102)的总线103。
323.总线103包括数据总线、控制总线和地址总线。
324.存储单元102可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)1021和/或高速缓存存储器1022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(rom)1023。
325.存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025，这样的程序模块1024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
326.计算设备100也可以与一个或多个外部设备104(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口105进行。并且，计算设备100还可以通过网络适配器106与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图10所示，网络适配器106通过总线103与计算设备100的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
327.应当注意，尽管在上文详细描述中提及了关键词检测装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
328.此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
329.虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

技术特征：

1.一种关键词检测方法，包括：依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，所述概率分布矩阵中包括各时间步下的概率向量，所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率；根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，其中，所述类别包括第一类别和第二类别，所述第一类别指示对应的语音识别序列包括至少一个所述关联字符，所述第二类别指示对应的语音识别序列不包括所述关联字符；根据各所述语音识别序列的类别和/或所述概率分布矩阵，获取所述第一语音的检测结果，所述检测结果指示所述第一语音中包括所述关键词，或者，所述检测结果指示所述第一语音中不包括所述关键词。2.根据权利要求1所述的方法，其中，根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，包括：对所述多个语音片段进行特征提取处理，得到特征向量；根据编码器对所述特征向量进行编码处理，得到所述多个语音片段的编码特征；根据所述编码特征获取所述概率分布矩阵，并根据所述概率分布矩阵确定所述至少一个语音识别序列。3.根据权利要求2所述的方法，其中，根据所述编码特征获取所述概率分布矩阵，并根据所述概率分布矩阵确定所述至少一个语音识别序列，包括：根据音节分类器对所述编码特征进行音节序列映射处理，得到音节概率分布矩阵，其中，所述音节概率分布矩阵中包括各时间步下的音节概率向量，任意第a个音节概率向量中的第b个元素指示第a个语音片段对应的音节，为预设音节集中的第b个预设音节的概率；根据所述音节概率分布矩阵对k个预设音节进行束搜索处理，得到至少一个音节序列，各所述音节序列中包括的音节的数量均为l，所述l为正整数；根据所述音节概率分布矩阵和所述至少一个音节序列，获取字概率分布矩阵和至少一个字序列，其中，所述字概率分布矩阵中包括l个字概率向量，任意第c个字概率向量中的第d个元素指示第c个音节对应的字，为预设字集中的第d个预设字的概率；其中，所述概率分布矩阵包括所述音节概率分布矩阵和所述字概率分布矩阵，所述语音识别序列包括所述音节序列和所述字序列；其中，所述a为正整数，所述b为大于或等于1且小于或等于k的正整数，所述k为所述预设音节集中包括的预设音节的数量，所述k为正整数，所述c为大于或等于1且小于或等于所述l的正整数，所述d为大于或等于1且小于或等于n的正整数，所述n为所述预设字集中包括的预设字的数量。4.根据权利要求3所述的方法，其中，针对束搜索处理中的任意一个时间步，若当前音节路径中不包括所述关键词对应的关键音节，且所述当前音节路径与第i个预设音节连接后包括所述关键音节，所述方法还包括：对所述当前音节路径和所述第i个预设音节连接后的音节路径进行权重激励。5.根据权利要求3所述的方法，其中，根据所述音节概率分布矩阵和所述至少一个音节
序列，获取字概率分布矩阵和至少一个字序列，包括：根据解码器和字分类器对所述至少一个音节序列和所述编码特征进行解码处理，得到所述字概率分布矩阵；根据所述字概率分布矩阵对n个预设字进行束搜索处理，得到所述至少一个字序列，各所述字序列中包括的字的数量均为l。6.根据权利要求5所述的方法，其中，针对束搜索处理中的任意一个时间步，若当前字路径中不包括所述关键词对应的关键字，且所述当前字路径与第i个预设字连接后包括所述关键字，所述方法还包括：对所述当前字路径和所述第i个预设字连接后的字路径进行权重激励。7.根据权利要求3-6任一项所述的方法，其中，所述多个关联字符包括所述关键词对应的至少一个匹配音节和至少一个匹配字；根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，包括：根据所述至少一个匹配音节对所述至少一个音节序列进行模糊匹配处理，得到各所述音节序列的类别；根据所述至少一个匹配字对所述至少一个字序列进行模糊匹配处理，得到各所述字序列的类别；其中，包含所述匹配音节的目标音节序列和包含所述匹配字的目标字序列的类别，为所述第一类别；除所述目标音节序列外的音节序列，以及除所述目标字序列外的字序列的类别，为所述第二类别。8.一种关键词检测装置，包括：获取模块，用于依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；处理模块，用于根据所述多个语音片段获取概率分布矩阵，并根据与所述多个语音片段相对应的所述概率分布矩阵确定至少一个语音识别序列，所述概率分布矩阵中包括各时间步下的概率向量，所述概率向量指示所述时间步下的字符为预设字符集中的各预设字符的概率；确定模块，用于根据关键词对应的多个关联字符对所述至少一个语音识别序列进行模糊匹配处理，得到各所述语音识别序列的类别，其中，所述类别包括第一类别和第二类别，所述第一类别指示对应的语音识别序列包括至少一个所述关联字符，所述第二类别指示对应的语音识别序列不包括所述关联字符；检测模块，用于根据各所述语音识别序列的类别和/或所述概率分布矩阵，获取所述第一语音的检测结果，所述检测结果指示所述第一语音中包括所述关键词，或者，所述检测结果指示所述第一语音中不包括所述关键词。9.一种计算设备，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-7任一项所述的关键词检测方法。10.一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-7任一项所述的关键词检测方法。

技术总结

本公开的实施方式提供了一种关键词检测方法、装置、设备及存储介质。该方法包括：依据相应的时间步对第一语音进行划分，以获取对应的多个语音片段；根据所述多个语音片段获取概率分布矩阵，并根据概率分布矩阵确定至少一个语音识别序列；根据关键词对应的多个关联字符对至少一个语音识别序列进行模糊匹配处理，得到各语音识别序列的类别；根据各语音识别序列的类别和/或概率分布矩阵，获取第一语音的检测结果，检测结果指示第一语音中包括关键词，或者，检测结果指示第一语音中不包括关键词。无需针对不同的关键词训练不同的检测模型，方案操作比较简单灵活。案操作比较简单灵活。案操作比较简单灵活。