语音唤醒方法、装置和电子设备与流程

1.本技术属于音频处理技术领域，具体涉及一种语音唤醒方法、装置和电子设备。

背景技术：

2.用户可以说出一段特定的语音词汇，以唤醒处于低功率待机状态下的语音识别系统。在相关技术中，通常采用网络模型将用户输入的音频与特定的语音词汇进行匹配，从而在两者的匹配程度达到阈值时，确定已经接收到唤醒音频，从而唤醒语音识别系统，以通过语音识别系统对用户接下来输入的语音指令进行响应。
3.但是，在用户说话比较清晰的场景下，很有可能在语音设备还没有接收完整的唤醒词汇时，网络模型便可以得出达到阈值的匹配结果，此时，网络模型确定的唤醒音频的尾端点比实际的尾端点提前了。基于尾端点的提前，会使得唤醒音频的位于该尾端点之后的部分作为控制指令或控制指令的部分来输入语音识别系统，这样会进一步造成语音识别结果出错。

技术实现要素：

4.本技术实施例的目的是提供一种语音唤醒方法、装置和电子设备，能够确定更加准确的唤醒音频的尾端点。
5.第一方面，本技术实施例提供了一种语音唤醒方法，该方法包括：
6.获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测；
7.当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测；
8.当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。
9.第二方面，本技术实施例提供了一种语音唤醒装置，包括：
10.获取模块，用于获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测；
11.检测模块，用于当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测；
12.第一控制模块，用于当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。
13.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
14.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
15.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
16.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
17.在本技术实施例中，采用语音唤醒模型对实时音频数据中的预设唤醒词进行检测，当确定接收到预设唤醒词的实时音频数据时，可以采用尾端点检测模型检测该预设唤醒词对应的唤醒音频数据的尾端点，将在该预设唤醒词的尾端点之后的实时音频数据输入至控制语音交互系统进行唤醒响应，其中，采用尾端点检测模型对所述实时音频数据进行尾端点检测，可以使确定的唤醒音频数据的尾端点为预设唤醒词中的最后一个音素的尾端点，能够克服尾端点提前造成的语音识别结果出错的问题。
附图说明
18.图1是本技术实施例提供的一种语音唤醒方法的流程图；
19.图2是本技术实施例提供的一种语音唤醒装置的结构示意图之一；
20.图3是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
21.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
22.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
23.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的语音唤醒方法、语音唤醒装置和电子设备进行详细地说明。
24.请参阅图1，本技术实施例提供的一种语音唤醒方法，可以包括以下步骤：
25.步骤101、获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测。
26.在实施中，上述实时音频数据可以是实时获取的音频数据，上述预设唤醒词可以是用户预先设置的词汇，例如：“小爱同学”。
27.步骤102、当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测。
28.步骤103、当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。
29.在实施中，语音唤醒模型可以将实时音频数据中的音频与预设唤醒词进行逐帧匹
配，当匹配程度达到预设匹配阈值(如80％或90％等)时，便可以表示语音唤醒模型检测到了预设唤醒词。
30.值得注意的是，在某些场景下，可能存在语音唤醒模型检测到了预设唤醒词的时刻为预设唤醒词中间的某一个音素的时刻，而并非预设唤醒词对应的实时音频数据的实际尾端点。
31.例如：假设预设唤醒词为“小爱同学”，预设匹配阈值为80％，可能存在用户只说完半个“学”字的时候，语音唤醒模型便检测到该音频数据与预设唤醒词的匹配程度达到了80％，在相关技术中，会将音频数据与预设唤醒词的匹配程度达到80％的时刻确定为预设唤醒词对应的实时音频数据的尾端点，并在该尾端点之后，控制语音交互系统进行唤醒响应。这就存在会把半个“学”字的后半部分作为语音指令输入语音交互系统，从而造成语音指令识别错误。
32.本技术实施例中，在检测到所述预设唤醒词时，还通过尾端点检测模型检测所述预设唤醒词对应的实时音频数据的尾端点，可以提升尾端点检测结果的准确度，以使检测出的实时音频数据的尾端点能够将预设唤醒词的最后一个字完整地划分在预设唤醒词对应的实时音频数据内，降低因预设唤醒词的尾端点识别不准确而造成后续的语音指令识别错误的概率。
33.可选地，所述获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行预设唤醒词检测，包括：
34.获取实时音频数据；
35.基于语音唤醒模型，将所述实时音频数据与所述预设唤醒词进行逐帧匹配；
36.当匹配度达到预设匹配阈值时，则确定检测到所述预设唤醒词。
37.在实施中，上述语音唤醒模型可以与相关技术中用于检测唤醒词的网络模型相似，在此不再赘述。
38.上述尾端点检测模型可以是神经网络模型、机器学习模型等任意的网络模型，该尾端点检测模型可以基于大量已标注相邻词汇的转换点的语音训练样本训练得到。
39.可选地，在所述获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行预设唤醒词检测之前，所述语音唤醒方法还包括：
40.将语音样本中相邻两个字间的时间点标注为第一数值，以及将其他时间点标注为第二数值，得到训练样本；
41.将所述训练样本输入到待训练的分字模型中进行模型训练，得到所述尾端点检测模型。
42.在实施中，可以采用人工标注或人工智能检测等方式，根据语音样本的声调、音频振幅等变化，来区分语音样本中相邻两个字间的时间点(即相邻两个字间的转换点)与其他非转换点，并将转换点与非转换点进行不同的标注，例如：将转换点标注为1(即第一数值可以等于1)，其他非转换点则标注为0(即第二数值可以等于1)。
43.通过标注后，可以通过第一数值和第二数字来区分转换点与非转换点，这样，基于该训练样本所训练出来的尾端点检测模型，便可以识别出语音音频数据中的相邻两个字间的转换点。在基于尾端点检测模型检测所述预设唤醒词对应的唤醒音频数据的尾端点的过程中，可以从转换点中确定唤醒音频数据的尾端点，以使尾端点之前的预设唤醒词对应的
唤醒音频数据完整。
44.本实施方式中，将实时音频数据输入至尾端点检测模型后，该尾端点检测模型可以确定实时音频数据中的相邻两个字间的转换点，这样，在用户说出完整的预设唤醒词时，尾端点检测模型对用户说出的语音进行处理，得到预设唤醒词中的最后一个字与后续的其他词汇之间的转换点，从而可以将该转换点确定为所述预设唤醒词对应的唤醒音频数据的尾端点，使得确定的尾端点不会提前。
45.在实施中，若估计的预设唤醒词对应的唤醒音频数据的尾端点提前，会造成语音识别出错。例如：假设预设唤醒词为“小爱同学”，当用户说出“小爱同学，播放音乐”时，若用户发音比较清晰，则基于相关技术中的方式，判断用户的语音与“小爱同学”之间的匹配程度的过程中，可能在用户只是说出了“学”字的一部分时，便确定用户的语音与“小爱同学”之间的匹配程度达到了阈值，并据此确定预设唤醒词的尾端点为匹配程度达到了阈值的时间点，由此可见，相关技术中估计的预设唤醒词的尾端点相对于“学”字的尾端点提前了，这样会造成将“学”字的剩余部分输入至语音识别系统，即语音识别系统接收到的语音指令是“学”字的一部分+“播放音乐”，语音识别系统可能会据此误判接收到的语音指令是“别播放音乐”。
46.需要说明的是，本技术实施例中，上述步骤101可以是一个持续的过程，其可以持续到执行完步骤102甚至步骤103之后，例如：用户说的语音为“小爱同学，播放音乐”，则获取实时音频数据为“小爱同学，播放音乐”的语音数据流，且在获取到“小爱同学”的语音数据时，便可以执行步骤102，且在执行步骤102之后，还可以继续获取“播放音乐”的语音数据，以在步骤3之后，采用语音交互系统对该“播放音乐”的语音指令进行响应。
47.在一种可选的实施方式中，所述方法还包括：
48.获取至少一个预设唤醒词；
49.将所述预设唤醒词中最后一个音素的终止点确定为该预设唤醒词的尾端点；
50.将所述预设唤醒词的尾端点确定为所述尾端点检测模型的检测对象。
51.其中，音素可以是一个字、一个字母、一个音符等，在此不作具体限定。
52.上述根据所述至少一个预设唤醒词更新所述尾端点检测模型，可以是以尾端点检测模型能够将所述预设唤醒词对应的最后一个音素的终止点确定为所述预设唤醒词对应的唤醒音频数据的尾端点为目标，对尾端点检测模型的模型参数进行调整的过程。
53.本实施方式中，可以在模型训练的过程中，根据用户设置的预设唤醒词汇来调节训练得到的尾端点检测模型的模型参数，以使该尾端点检测模型能够通过对包括预设唤醒词的音频数据进行检测，并将所述预设唤醒词中最后一个音素的终止点确定为所述预设唤醒词对应的唤醒音频数据的尾端点。
54.在另一种实施方式中，所述基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测，包括：
55.基于尾端点检测模型检测所述预设唤醒词中的至少一个音素；
56.将所述预设唤醒词中最后一个音素的终止点确定为所述实时音频数据的尾端点。
57.在实施中，尾端点检测模型可以用于检测在检测到所述预设唤醒词之后接收的实时音频数据，以获取所述预设唤醒词中最后一个音素的终止点，在实施中，在检测到所述预设唤醒词时，已经获取了预设唤醒词中至少n-1个音素的音频数据，此时，尾端点检测模型
只需要检测在此之后获取的音频数据中的第一个音素的终止点，便可以将该终止点确定是预设唤醒词中最后一个音素的终止点。
58.当然，尾端点检测模型还可以对缓存的音频数据(即在检测到所述预设唤醒词之前的音频数据)以及在检测到所述预设唤醒词之后接收的实时音频数据进行检测，以根据预设唤醒词中的音素之间的相互关系来确定所述预设唤醒词中最后一个音素的终止点，其中，缓存的音频数据包括在历史时间接收的实时音频数据。
59.例如：假设预设唤醒词是“小爱同学”，用户在第0ms～500ms之间说“小爱同学”，且“学”字对应的音频数据的接收时间为第350ms～500ms，且基于语音唤醒模型在第400ms判断第0ms～400ms接收到的音频数据与预设唤醒词之间的匹配程度达到了预设匹配阈值(如85％)，则尾端点检测模型可以对第400ms之后的音频数据进行检测，或者对第0ms～400ms接收到的缓存音频数据和第400ms之后的音频数据进行检测，以确定“小爱同学”的音频的尾端点为第500ms。
60.本实施方式中，采用语音唤醒模型来判断实时音频数据与所述预设唤醒词之间的匹配程度，在该匹配程度达到预设匹配阈值时，可以表示电子设备确实接收到该预设唤醒词，从而允许启动语音交互系统，但是，预设唤醒词对应的唤醒音频数据的尾端点是基于尾端点检测模型确定的，这样，输入语音交互系统的语音指令的起点可以是唤醒音频数据的尾端点之后的第一个采样点，即输入语音交互系统的语音指令的起点可以是第501ms。
61.在实施中，电子设备在不工作时，语音交互系统处于低功率待机状态，当接收到唤醒词时，才唤醒语音交互系统，以使语音交互系统进入工作状态，并对语音指令进行识别、执行、响应等至少一项处理。
62.在一种实施方式中，可以使语音唤醒模型先启动，并在基于语音唤醒模型确定电子设备接收到的实时语音数据与预设唤醒词之间的匹配程度达到预设匹配阈值时，启动尾端点检测模型，以基于该尾端点检测模型来确定预设唤醒词对应的唤醒音频数据的尾端点。
63.这样，可以基于语音唤醒模型来判断是否唤醒语音交互系统，并在基于语音唤醒模型判断唤醒语音交互系统的情况下，基于尾端点检测模型来确定预设唤醒词对应的唤醒音频数据的尾端点。本实施方式，可以在基于语音唤醒模型判断唤醒语音交互系统之前，暂时不采用尾端点检测模型进行计算，这样，可以降低电子设备的计算量，并降低待机功耗。
64.此外，在基于语音唤醒模型判断唤醒语音交互系统之后，还可以停止基于语音唤醒模型的计算，而仅基于尾端点检测模型确定预设唤醒词对应的唤醒音频数据的尾端点即可。
65.在另一种实施方式中，可以在基于语音唤醒模型确定电子设备接收到的语音与预设唤醒词之间的匹配程度达到预设匹配阈值之前，便启动尾端点检测模型，以使尾端点检测模型判断实时音频数据中的每一个音素的尾端点。
66.这样，在基于语音唤醒模型确定电子设备接收到的语音与预设唤醒词之间的匹配程度达到预设匹配阈值的时候，已经基于尾端点检测模型确定了预设唤醒词中除了最后一个音素之外的每一个音素的尾端点，此时，语音唤醒模型可以根据前几个音素的尾端点来综合判定预设唤醒词中最后一个音素的尾端点，这样可以提升确定的预设唤醒词中最后一个音素的尾端点的准确度。
67.可选的，在所述预设唤醒词包括n个音素，且n为大于1的整数的情况下，所述基于尾端点检测模型检测所述预设唤醒词中的至少一个音素，包括：
68.基于尾端点检测模型，确定所述实时音频数据中的与所述n个音素一一对应的n个终止点。
69.本实施方式中，可以基于尾端点检测模型确定预设唤醒词中的每一个音素的终止点，从而在依次确定n个音素的终止点时，可以确定最后确定的第n个音素的终止点是预设唤醒词对应的唤醒音频数据的尾端点。
70.值得提出的是，在实施中，可能会由于环境噪声干扰、用户发音清晰度较低等情况的影响，造成尾端点检测模型确定的尾端点不准确的情况，此时，可以在基于尾端点检测模型检测所述预设唤醒词对应的唤醒音频数据的尾端点后，若间隔一定时长还是没有基于尾端点检测模型确定预设唤醒词对应的唤醒音频数据的尾端点，则可以直接唤醒语音交互系统，并通过唤醒语音交互系统对后续的语音指令进行处理。
71.可选地，在所述基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测之后，所述方法还包括：
72.当针对所述实时音频数据的尾端点的检测时间超过预设时间阈值时，控制所述语音交互系统进行唤醒响应。
73.在实施中，上述预设时间阈值可以是预设的时间长度，例如：100ms、200ms或300ms等。
74.本实施方式中，在环境噪声干扰、用户发音清晰度较低等情况的影响，造成尾端点检测模型未能检测所述预设唤醒词对应的唤醒音频数据的尾端点的情况下，可以在该检测时间超过预设时间阈值时，直接控制所述语音交互系统进行唤醒响应。
75.例如：在用户发音不清晰，使得尾端点检测模型将预设唤醒词中的两个音素识别成一个音素，则基于尾端点检测模型只识别到预设唤醒词中的(n-1)个音素的终止点；或者，由于环境噪声比较大，使得尾端点检测模型不能够识别到预设唤醒词中的第n个音素的终止点等情况下，可以在针对所述预设唤醒词对应的唤醒音频数据的尾端点的检测时间超过预设时间阈值时，控制所述语音交互系统进行唤醒响应。
76.作为一种可选的实施方式，所述语音唤醒方法还包括：
77.当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，控制所述语音交互系统进入预唤醒状态，其中，在所述预唤醒状态下，所述语音交互系统启动，且不对所述实时音频数据进行唤醒响应。
78.本实施方式中，在检测到所述预设唤醒词时，便开始预唤醒语音交互系统，并在基于尾端点检测模型确定唤醒音频数据的尾端点时，基于该尾端点的时间对接收的音频数据进行划分，从而将在该尾端点之后接收的音频数据输入至已经唤醒的语音交互系统中进行处理，这样，相对于在基于尾端点检测模型确定唤醒音频数据的尾端点之后再唤醒语音交互系统的方式而言，能够减少用户说出语音指令至唤醒语音交互系统之间的等待时长。
79.例如：假设预设唤醒词是“小爱同学”，电子设备在第0ms～1000ms之间接收用户说的“小爱同学，播放音乐”的音频数据流，且“学”字对应的音频数据的接收时间为第350ms～500ms，且基于语音唤醒模型在第400ms判断第0ms～400ms接收到的音频数据与预设唤醒词之间的匹配程度达到了预设匹配阈值(如85％)，则会在第400ms开始预唤醒语音交互系统，
并将第500ms之后的的实时音频数据输入至语音交互系统进行处理。
80.在本技术实施例中，采用语音唤醒模型对实时音频数据中的预设唤醒词进行检测，当确定接收到预设唤醒词的实时音频数据时，可以采用尾端点检测模型检测该预设唤醒词对应的唤醒音频数据的尾端点，将在该预设唤醒词的尾端点之后的实时音频数据输入至控制语音交互系统进行唤醒响应，其中，采用尾端点检测模型对所述实时音频数据进行尾端点检测，可以使确定的唤醒音频数据的尾端点为预设唤醒词中的最后一个音素的尾端点，能够克服尾端点提前造成的语音识别结果出错的问题。
81.本技术实施例提供的语音唤醒方法，执行主体可以为语音唤醒装置。本技术实施例中以语音唤醒装置执行语音唤醒方法为例，说明本技术实施例提供的语音唤醒装置。
82.请参阅图2，本技术实施例提供的语音唤醒装置200以包括以下模块：
83.第一获取模块201，用于获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测；
84.检测模块202，用于当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测；
85.第一控制模块203，用于当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。
86.可选的，语音唤醒装置200，还包括：
87.标注模块，用于将语音样本中相邻两个字间的时间点标注为第一数值，以及将其他时间点标注为第二数值，得到训练样本；
88.训练模块，用于将所述训练样本输入到待训练的分字模型中进行模型训练，得到所述尾端点检测模型。
89.可选的，语音唤醒装置200，还包括：
90.第二获取模块，用于获取至少一个预设唤醒词；
91.第一确定模块，用于将所述预设唤醒词中最后一个音素的终止点确定为该预设唤醒词的尾端点；
92.第二确定模块，用于将所述预设唤醒词的尾端点确定为所述尾端点检测模型的检测对象。
93.可选的，检测模块202，包括：
94.检测单元，用于基于尾端点检测模型检测所述预设唤醒词中的至少一个音素；
95.第一确定单元，用于将所述预设唤醒词中最后一个音素的终止点确定为所述实时音频数据的尾端点。
96.可选的，语音唤醒装置200还包括：
97.第二控制模块，用于当针对所述实时音频数据的尾端点的检测时间超过预设时间阈值时，控制所述语音交互系统进行唤醒响应。
98.可选的，第一获取模块201，包括：
99.获取单元，用于获取实时音频数据；
100.匹配单元，用于基于语音唤醒模型，将所述实时音频数据与所述预设唤醒词进行逐帧匹配；
101.第二确定单元，用于当匹配度达到预设匹配阈值时，则确定检测到所述预设唤醒词。
102.可选的，语音唤醒装置200，还包括：
103.第三控制模块，用于当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，控制所述语音交互系统进入预唤醒状态，其中，在所述预唤醒状态下，所述语音交互系统启动，且不对所述实时音频数据进行唤醒响应。
104.本技术实施例中的语音唤醒装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
105.本技术实施例提供的语音唤醒装置能够实现如图1所示的方法实施例实现的各个过程，且能够取得相同的有益效果，为避免重复，这里不再赘述。
106.可选地，如图3所示，本技术实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述语音唤醒方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
107.需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
108.本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音唤醒方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
109.其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
110.本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音唤醒方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
111.应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
112.本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音尾端点的确定方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
113.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而
且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
114.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
115.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

技术特征：

1.一种语音唤醒方法，其特征在于，包括：获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测；当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测；当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。2.根据权利要求1所述的方法，其特征在于，在所述获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行预设唤醒词检测之前，所述方法还包括：将语音样本中相邻两个字间的时间点标注为第一数值，以及将其他时间点标注为第二数值，得到训练样本；将所述训练样本输入到待训练的分字模型中进行模型训练，得到所述尾端点检测模型。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取至少一个预设唤醒词；将所述预设唤醒词中最后一个音素的终止点确定为该预设唤醒词的尾端点；将所述预设唤醒词的尾端点确定为所述尾端点检测模型的检测对象。4.根据权利要求1所述的方法，其特征在于，在所述基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测之后，所述方法还包括：当针对所述实时音频数据的尾端点的检测时间超过预设时间阈值时，控制所述语音交互系统进行唤醒响应。5.根据权利要求1所述的方法，其特征在于，所述获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测，包括：获取实时音频数据；基于语音唤醒模型，将所述实时音频数据与所述预设唤醒词进行逐帧匹配；当匹配度达到预设匹配阈值时，则确定检测到所述预设唤醒词。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，控制所述语音交互系统进入预唤醒状态，其中，在所述预唤醒状态下，所述语音交互系统启动，且不对所述实时音频数据进行唤醒响应。7.一种语音唤醒装置，其特征在于，包括：获取模块，用于获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测；检测模块，用于当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测；第一控制模块，用于当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。8.根据权利要求7所述的装置，其特征在于，还包括：标注模块，用于将语音样本中相邻两个字间的时间点标注为第一数值，以及将其他时
间点标注为第二数值，得到训练样本；训练模块，用于将所述训练样本输入到待训练的分字模型中进行模型训练，得到所述尾端点检测模型。9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的语音唤醒方法的步骤。10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的语音唤醒方法的步骤。

技术总结

本申请公开了一种语音唤醒方法、装置和电子设备，属于音频处理技术领域。其中，方法包括：获取实时音频数据，并基于语音唤醒模型和预设唤醒词对所述实时音频数据进行唤醒词检测；当检测到与所述预设唤醒词的匹配度超过预设阈值的唤醒音频数据时，基于尾端点检测模型及所述预设唤醒词的尾端点对所述实时音频数据进行尾端点检测；当检测到所述唤醒音频数据对应的尾端点时，控制语音交互系统进行唤醒响应。本申请实施例能够提升确定的预设唤醒词的尾端点的准确度。尾端点的准确度。尾端点的准确度。