唤醒词辨识训练系统及其训练方法与流程

1.本发明涉及语音辨识技术领域，尤其涉及一种唤醒词辨识训练系统及其训练方法。

背景技术：

2.近年来自动语音识别技术(automatic speech recognition,asr)的发展已逐渐成熟(例如：google的语音识别或siri)，用户在操作行动装置或个人计算机等电子产品时，也越来越多使用语音输入或语音控制的功能。以往的语音识别技术大多是利用标记数据或关键信息进行类神经网络的训练，但准备训练数据时通常会遇到耗费时间过大以及准确率较低的问题。因此，如何在不花费过多处理时间的情况下，增加唤醒词辨识模型的准确率，为本领域待改进的问题之一。
3.传统方法若要提升「唤醒词」的命中率，必须大量人员录制该「唤醒词」的语音数据，来微调深度学习模型。又因为每个「唤醒词」的语音数据都是独立的，所以若要变更「唤醒词」，则必须重复上述的动作，往往费时又费力。藉此，提供一种流程自动化并同时能够减少人为错误的发生概率的唤醒词辨识系统是一项重要课题。

技术实现要素：

4.针对现有技术中的问题，本发明实施例公开了一种唤醒词辨识训练系统及其训练方法，可以省去录制语音数据的麻烦，更可以将流程自动化，减少人为错误的发生概率。
5.一方面，本发明实施例提出一种唤醒词辨识训练系统，包括一语句数据库，储存有多笔语句及其中每一笔语句对应的音素序列及语音讯号；一音素拆解模块，用于拆解外部输入的一唤醒词以取得一唤醒词音素序列；一音素分析模块，用于将该唤醒词音素序列匹配该等语句和/或其音素序列，获取唤醒词类语句和非唤醒词类语句；以及一唤醒词辨识模块，用于依据该唤醒词类语句和该非唤醒词类语句的音素组合建构一深层神经网络模型，并依据该唤醒词类语句及该非唤醒词类语句的音素序列及语音讯号训练该深层神经网络模型，以建立一唤醒词辨识模型。
6.在本发明的一个实施例中，该音素分析模块包括一音素比对模块与一语句分类模块；该音素比对模块用于依据该唤醒词音素序列比对该语句数据库内的该些语句及该些音素序列；该语句分类模块用于依据该音素比对模块的比对结果，将该语句数据库中的该些语句分为该唤醒词类语句及该非唤醒词类语句。
7.在本发明的一个实施例中，该音素序列的构成单位包括连续三个音素序列、连续两个音素序列及/或单个音素。
8.在本发明的一个实施例中，该唤醒词辨识模块用于利用一通用语音识别模块及一动态规化算法，在该语句数据库中的该唤醒词类语句中，出对应该唤醒词的该些语句的音素序列及语音讯号片段，以作为该深层神经网络模型关于该唤醒词的训练数据。
9.在本发明的一个实施例中，该唤醒词辨识模块用于利用文本比对方式，在该语句
数据库中的该非唤醒词中，出该非唤醒词对应语句和/或其音素序列及语音讯号片段，以作为该深层神经网络模型关于该非唤醒词的训练数据。
10.另一方面，本发明实施例提供一种唤醒词辨识训练方法，包括：利用一音素拆解模块拆解外部输入的一唤醒词以取得一唤醒词音素序列；通过一音素分析模块将该唤醒词音素序列匹配多笔语句中每一笔语句和/或其对应的音素序列，获取唤醒词类语句和非唤醒词类语句；通过唤醒词辨识模块，利用该唤醒词类语句和该非唤醒词类语句的音素组合建构一深层神经网络模型，并依据该唤醒词类语句及该非唤醒词类语句的音素序列及语音讯号训练该深层神经网络模型，以建立一唤醒词辨识模型。
11.在本发明的一个实施例中，该音素序列的构成单位包括连续三个音素序列、连续两个音素序列及/或单个音素。
12.在本发明的一个实施例中，该唤醒词辨识模块用于利用一通用语音识别模块及一动态规化算法，在该语句数据库中的该唤醒词类语句中，出对应该唤醒词的该些语句的音素序列及语音讯号片段，以作为该深层神经网络模型关于该唤醒词的训练数据。
13.在本发明的一个实施例中，该唤醒词辨识模块用于利用文本比对方式，在该语句数据库中，出该非唤醒词对应语句和/或其音素序列的语音讯号片段，以作为该深层神经网络模型关于该非唤醒词的训练数据。
14.在本发明的一个实施例中，该通过音素分析模块将该唤醒词音素序列匹配多笔语句中每一笔语句和/或其对应的音素序列，获取唤醒词类语句和非唤醒词类语句，包括：通过音素比对模块并依据该唤醒词音素序列比对该语句数据库内的该些语句及该些音素序列；通过语句分类模块并依据该音素比对模块的比对结果，从该等语句中获取该唤醒词类语句及该非唤醒词类语句。
15.由上可知，本发明上述技术特征可以具有如下一个或多个有益效果：1、不需要额外大量人员来录制语音数据；2、可定制化专属唤醒词；3、缩减「唤醒词」辨识系统的制作成本与时间；4、提升「唤醒词」辨识系统的命中率。
附图说明
16.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是本发明一实施例提供的一种唤醒词辨识训练系统的结构示意图；
18.图2是本发明一实施例提供的一种唤醒词辨识训练方法的流程图；
19.图3是本发明一实施例提供的处理单元对语句资料库的分类示意图；
20.图4a、4b是本发明一实施例提供的唤醒词语音素序列关系的示意图。
21.主要组件符号说明：
22.110为输入单元；120为语句资料库；121为语句；1211为唤醒词类语句；1212为非唤醒词类语句；122为音素序列；1221为唤醒词类语句音素序列；1222为非唤醒词类语句音素序列；130为处理单元；140为音素拆解模块；150为音素比对模块；160为语句分类模块；170为唤醒词辨识模块；180为通用语音辨识模块；s210～s250为步骤流程；410为唤醒词；420为
唤醒词音素序列；430、430a、430b为音素组合；440a、440b语句组合。
具体实施方式
23.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互结合。
25.图1是本发明的一个实施例公开的一种唤醒词辨识训练系统的结构示意图。在图1中，唤醒词辨识训练系统例如包括：一输入单元110、一语句数据库120及一处理单元130。其中，处理单元130例如包括：一音素拆解模块140、一音素比对模块150、一语句分类模块160、一唤醒词辨识模块170及一通用语音辨识模块180。
26.其中，输入单元110用于取得唤醒词；语句数据库120用于储存多笔语句121及对应的音素序列122；音素拆解模块140用于拆解唤醒词以取得唤醒词音素序列；音素比对模块150用于依据唤醒词音素序列比对语句121及其音素序列122；语句分类模块160用于依据音素比对模块150的比对结果，将语句数据库中的语句121分为唤醒词类语句及非唤醒词类语句。以及唤醒词辨识模块170用于依据语句分类模块160的分类结果，通过通用语音辨识模块180及动态规划算法由唤醒词类语句中撷取唤醒词音素序列的语音信号片段，并通过文本比对由非唤醒词类语句中取得非唤醒词音素序列的信号片段；再导入一深层神经网络模型，并依据唤醒词辨识模块170的结果，使用该两种语音信号片段训练深层神经网络模型，并建立唤醒词辨识模型。
27.在本实施例中，唤醒词辨识模型还包括一通用语音辨识模块180，借此，配合动态规划算法，由唤醒词类语句中撷取唤醒词音素序列的语音信号片段，作为唤醒词训练数据。
28.参见图2～图4b，图2是本发明一个实施例公开的一种唤醒词辨识训练方法的流程图，图3是本发明一个实施例公开的处理单元对语句资料库的分类示意图；图4a、4b是本发明一个实施例公开的唤醒词语音素序列关系的示意图。
29.在图2中，唤醒词辨识训练方法主要步骤如下：
30.步骤s210：取得唤醒词；
31.在本实施例中，取得唤醒词的主要方式可以通过文字的输入，或者是利用语音输入装置，例如：麦克风，用来输入一个人化唤醒词。在本发明的实施例中，是用“你好”作为示例说明。
32.在本发明中，唤醒词并不以问候语为限，唤醒词亦可以相似概念代替，包含：特定用途的关键词、语音指令、触发字、人名或名称。
33.步骤s220：取得唤醒词音素序列；
34.在本实施例中，在取得唤醒词410“你好”之后，利用处理单元的音素拆解模块拆解唤醒词410“你好”以取得唤醒词音素序列420。分析唤醒词音素序列420可得sil-n-i-h-au-sil，其中sil是无声音素，音素序列可以是连续三个音素(三连音或triphone)、连续两个音素(right-context dependent或left-context dependent)、或单个音素。在本实施例中，
我们是取三个音素序列，由此可得音素组合430包括有「sil-n-i」、「n-i-h」、「i-h-au」、「h-au-sil」的4组音素(请参阅如图4a所示)。
35.步骤s230：比对唤醒词音素序列与语句音素序列；
36.在本实施例中，利用音素比对模块依据该唤醒词音素序列比对语句数据库内的多笔语句及对应每一笔语句的一音素序列。在此步骤中，主要是利用分析唤醒词音素序列420得到sil-n-i-h-au-sil中的连续三个音素序列，即如前所述「sil-n-i」、「n-i-h」、「i-h-au」、「h-au-sil」的4组音素。
37.步骤s240：分类语句；
38.承续上一步骤，语句分类模块依据音素比对模块的比对结果，若有与唤醒词音素序列相同的语句，将其标注为唤醒词类语句1211，而其所对应的即为唤醒词类语句音素序列1221。反之，经比对后，若不属于唤醒词类，则将其标注为非唤醒词类语句1212，而其所对应的即为非唤醒词类语句音素序列1222。
39.其中，非唤醒词类语句音素序列1222亦可能是其他音素组合、填充模型以及唤醒词的对抗模型。
40.步骤s250：建立一唤醒词辨识模型。
41.唤醒词辨识模块导入一深层神经网络模型，并依据唤醒词类语句的唤醒词类语句音素序列、非唤醒词类语句的非唤醒词类语句音素序列、唤醒词类语句的信号片段以及非唤醒词类语句的信号片段，训练深层神经网络模型，并建立唤醒词辨识模型。
42.在本实施例中，唤醒词辨识模块系利用一动态规化算法，在该语句数据库的唤醒词类语句音素序列1221中，出对应该唤醒词的该些语句的音素序列的语音信号片段，再配合非唤醒词类语句音素序列1222与其语音讯号，作为该深层神经网络模型的训练数据。
43.请参照图4b，使用音素组合430a的「sil-n-i」，可以在语句数据库内获取对应的语句组合440a；倘若再进一步使用音素组合430b的「n-i-h」可进一步获取语句数据库内对应的语句组合440b。
44.在本实施例中，主要是运用维特比算法取得语句数据库内对应的音素序列及信号片段。
45.其中，还利用随机梯度下降算法训练该深层神经网络模型。
46.其中，动态规化算法包含但不限于维特比算法(viterbi algorithm)或动态时间校正(dynamic time warping)，维特比算法是一种动态规划算法，用于寻最有可能产生观测事件序列的维特比路径，维特比算法用于寻观察结果最有可能解释相关的动态规划算法，而动态时间校正则是个针对不同时间长度的两种信号归类的务实方法。动态时间校正所提供的对应点(alignment)能够有效的把两边的信号全部对应起来，重而计算出两者的相似值。
47.综上所述，本发明提供深层神经网络模型结构进行辨识训练，具有以下优点：
48.1.不需要额外大量人员来录制语音数据；
49.2.可定制化专属唤醒词；
50.3.缩减「唤醒词」辨识系统的制作成本与时间，以及
51.4.提升「唤醒词」辨识系统的命中率。
52.可以理解的是，前述各个实施例仅为本发明的示例性说明，在技术特征不冲突、结
构不矛盾、不违背本发明的发明目的前提下，各个实施例的技术方案可以任意组合、搭配使用。
53.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种唤醒词辨识训练系统，其特征在于，包括：一语句数据库，储存有多笔语句及其中每一笔语句对应的音素序列及语音讯号；一音素拆解模块，用于拆解外部输入的一唤醒词以取得一唤醒词音素序列；一音素分析模块，用于将该唤醒词音素序列匹配该等语句和/或其音素序列，获取唤醒词类语句和非唤醒词类语句；以及一唤醒词辨识模块，用于依据该唤醒词类语句和该非唤醒词类语句的音素组合建构一深层神经网络模型，并依据该唤醒词类语句、该非唤醒词类语句的音素序列及语音讯号训练该深层神经网络模型，以建立一唤醒词辨识模型。2.如权利要求1所述的唤醒词辨识训练系统，其特征在于，该音素分析模块包括一音素比对模块与一语句分类模块；该音素比对模块用于依据该唤醒词音素序列比对该语句数据库内的该些语句及该些音素序列；该语句分类模块用于依据该音素比对模块的比对结果，将该语句数据库中的该些语句分为该唤醒词类语句及该非唤醒词类语句。3.如权利要求1所述的唤醒词辨识训练系统，其特征在于，该音素序列的构成单位包括连续三个音素序列、连续两个音素序列及/或单个音素。4.如权利要求1所述的唤醒词辨识训练系统，其特征在于，该唤醒词辨识模块用于利用一通用语音识别模块及一动态规化算法，在该语句数据库中的该唤醒词类语句中，出对应该唤醒词的该些语句的音素序列及语音讯号片段，以作为该深层神经网络模型关于该唤醒词的训练数据。5.如权利要求4所述的唤醒词辨识训练系统，其特征在于，该唤醒词辨识模块用于利用文本比对方式，在该语句数据库中的该非唤醒词中，出该非唤醒词对应语句和/或其音素序列及语音讯号片段，以作为该深层神经网络模型关于该非唤醒词的训练数据。6.一种唤醒词辨识训练方法，其特征在于，包括：利用一音素拆解模块拆解外部输入的一唤醒词以取得一唤醒词音素序列；通过一音素分析模块将该唤醒词音素序列匹配多笔语句中每一笔语句和/或其对应的音素序列，获取唤醒词类语句和非唤醒词类语句；通过唤醒词辨识模块，利用该唤醒词类语句和该非唤醒词类语句的音素组合建构一深层神经网络模型，并依据该唤醒词类语句及该非唤醒词类语句的音素序列及语音讯号训练该深层神经网络模型，以建立一唤醒词辨识模型。7.如权利要求6所述的唤醒词辨识训练方法，其特征在于，该音素序列的构成单位包括连续三个音素序列、连续两个音素序列及/或单个音素。8.如权利要求6所述的唤醒词辨识训练方法，其特征在于，该唤醒词辨识模块用于利用一通用语音识别模块及一动态规化算法，在该语句数据库中的该唤醒词类语句中，出对应该唤醒词的该些语句的音素序列及语音讯号片段，以作为该深层神经网络模型关于该唤醒词的训练数据。9.如权利要求8所述的唤醒词辨识训练方法，其特征在于，该唤醒词辨识模块用于利用文本比对方式，在该语句数据库中，出该非唤醒词对应语句和/或其音素序列的语音讯号片段，以作为该深层神经网络模型关于该非唤醒词的训练数据。10.如权利要求6所述的唤醒词辨识训练方法，其特征在于，该通过音素分析模块将该唤醒词音素序列匹配多笔语句中每一笔语句和/或其对应的音素序列，获取唤醒词类语句
和非唤醒词类语句，包括：通过音素比对模块并依据该唤醒词音素序列比对该语句数据库内的该些语句及该些音素序列；通过语句分类模块并依据该音素比对模块的比对结果，从该等语句中获取该唤醒词类语句及该非唤醒词类语句。

技术总结

本发明实施例公开的一种唤醒词辨识训练系统，包括：语句数据库，储存多笔语句及其中每一笔语句对应的音素序列及语音讯号；音素拆解模块，用于拆解外部输入的唤醒词以取得唤醒词音素序列；音素分析模块，用于将唤醒词音素序列匹配该等语句和/或其音素序列，获取唤醒词类语句和非唤醒词类语句；以及唤醒词辨识模块用于依据该唤醒词类语句和该非唤醒词类语句的音素组合建构一深层神经网络模型，并依据该唤醒词类语句、该非唤醒词类语句的音素序列及语音讯号训练该深层神经网络模型，以建立一唤醒词辨识模型。醒词辨识模型。醒词辨识模型。