一种语音唤醒的方法、装置、存储介质及电子设备与流程



1.本发明涉及语音处理技术领域,具体涉及一种语音唤醒的方法、装置、存储介质及电子设备。


背景技术:



2.语音唤醒技术是指用户通过说出唤醒词来使智能设备从休眠状态进入激活状态,目前该技术已经得到了广泛的应用。传统的语音唤醒方法,主要将语音唤醒模型的输出直接与设定阈值进行比较来判断是否唤醒。
3.预测置信度(forecasting confidence)为在对未来的情况做出估计时,采用数理统计中的区间估计法而获得的在误差允许范围以内的预测值的概率。然而,在某个预测置信度很低的情况下,也可能由于预测值的快速跳跃而造成误激活的问题。另外,传统方法不能对语音唤醒进行线性的阈值调节。


技术实现要素:



4.本发明的目的在于提供一种语音唤醒的方法及装置,以解决上述背景技术中提出的语音唤醒中模型预测值由于快速跳跃而造成的误激活以及缺乏线性阈值调节的问题。
5.为实现上述目的,本发明提供如下技术方案:
6.一种语音唤醒方法,包括:
7.s1.获取语音唤醒模型,设定唤醒敏感度及唤醒阈值;
8.s2.获取待判定语音,并通过s1所获取的语音唤醒模型输出预测概率;
9.s3.指定正态分布概率密度函数,并通过正态分布概率密度函数计算累计概率分布;
10.s4.将s2输出的预测概率转换为分布点,通过分布点在s3得到的累计概率分布中取对应值,得到平滑概率;
11.s5.根据s4得到的平滑概率以及s1设定的唤醒敏感度及唤醒阈值来判断是否唤醒。
12.进一步的技术方案是:所述语音唤醒模型为二分类模型。
13.进一步的技术方案是:所述s2具体为:待判定语音的数据流根据设定的数据块大小,按帧获取语音数据,存储并更新到缓存区;且缓存区的更新按照先入先出的原则,将缓存区的语音帧输入到语音唤醒模型得到预测概率。
14.进一步的技术方案是:所述s3具体为:
15.由指定的均值、方差得到所述正态分布概率密度函数,
16.由指定的分布范围、分辨率得到分布点序列,
17.再通过正态分布概率密度函数以及分布点序列获得累计概率分布。
18.进一步的技术方案是:所述预测概率转换为分布点的方法为:
19.将预测概率通过sigmoid反函数得到标量值,再通过指定的分布范围对标量值进
行归一化,根据指定的分辨率对归一化标量值计算得到分布点。
20.进一步的技术方案是:所述s5具体为:
21.激活数目初始化为0,对s4得到的平滑概率与s1设定的唤醒敏感度进行比较,若平滑概率大于唤醒敏感度,则激活数目加1;否则,激活数目减1,当激活数目大于唤醒阈值时,则判断为唤醒状态。
22.同时,本发明还提供如下技术方案:
23.一种语音唤醒装置,包括:
24.语音数据获取模块,用于接收语音并存储、更新至缓存区;
25.模型处理模块,用于对获取的语音输出预测概率;
26.正态分布平滑模块,用于将预测概率转换为平滑概率;
27.激活判决模块,用于设定唤醒敏感度、唤醒阈值以及判断是否唤醒。
28.另外,本发明还提供如下技术方案:
29.一种计算机可读存储介质,存储有计算机程序,所述计算机程序用于实现如上所述一种语音唤醒方法。
30.另外,本发明还提供如下技术方案:
31.一种电子设备,包括:
32.存储装置,用于存储计算机程序;
33.处理装置,用于执行所述存储装置中的所述计算机程序,以实现如上所述一种语音唤醒方法的步骤。
34.与现有技术相比,本发明的有益效果是:
35.通过估计语音唤醒模型输出的正态分布,使用平均值和标准差来计算累计概率分布,避免了语音唤醒模型对某个预测值置信度很低的情况下,由于预测值的快速跳跃而造成的误激活问题,同时为语音唤醒提供了相对线性的阈值调节,从而更加准确对语音唤醒进行响应。
附图说明
36.图1为本发明实施例中语音唤醒方法的流程示意图;
37.图2为本发明实施例中获取待判定语音的示意图;
38.图3为本发明实施例中唤醒判决流程示意图;
39.图4为本发明实施例中一种语音唤醒装置结构框图。
具体实施方式
40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.实施例1
42.本发明实施例所述一种语音唤醒方法,如图1所示,包括以下步骤:
43.s1.获取语音唤醒模型,设定唤醒敏感度及唤醒阈值;
44.可选的,所述语音唤醒模型包括但不限于二分类模型;所述唤醒敏感度用于对控制唤醒的灵敏程度;所述唤醒阈值用于判断是否激活;
45.s2.获取待判定语音,并通过s1获取的语音唤醒模型输出预测概率;
46.如图2所示,所述待判定语音数据流根据人为设定的数据块大小,按帧获取语音数据,同时存储并更新到缓存区,缓存区的更新按照先入先出的原则,将缓存区的语音帧输入到语音唤醒模型得到预测概率;
47.s3.指定正态分布概率密度函数,并对正态分布概率密度函数计算累计概率分布;
48.可选的,所述正态分布概率密度函数由指定的均值、方差得到,由指定的分布范围、分辨率得到分布点序列,由正态分布密度函数以及分布点序列计算得到累计概率分布;
49.举例说明,指定均值为4,方差为6,可得到概率密度函数,指定分布范围为-10~22,分辨率为200,通过分布范围以及分辨率得到分布点序列[-10.00,-9.99,-9.98,...,21.994,22.00],共32
×
200个点,再通过分布点序列、概率密度函数可计算得到累计概率分布;
[0050]
s4.将s2的预测概率转换为分布点,在s3得到的累计概率分布中取对应值,得到平滑概率;
[0051]
可选的,所述预测概率转换为分布点的方式为:将预测概率通过sigmoid反函数得到标量值,再通过指定的分布范围对标量值进行归一化,根据指定的分辨率对归一化标量值计算得到分布点,将分布点带入累计概率分布得到平滑概率;
[0052]
s5.根据s4得到的平滑概率以及s1设定的唤醒敏感度及唤醒阈值来判断是否唤醒;
[0053]
如图3所示,激活数目初始化为0,即对s4得到的平滑概率与唤醒敏感度进行比较,若大于唤醒敏感度则激活数目加1,否则激活数目减1,当激活数目大于唤醒阈值则判断为唤醒状态;
[0054]
通过本实施例1提供的一种语音唤醒方法,避免了激活词模型对某个预测值置信度很低的情况下,由于预测值的快速跳跃而造成的误激活问题,同时为语音唤醒提供了相对线性的阈值调节。
[0055]
实施例2
[0056]
本发明实施例所述的一种语音唤醒装置,如图4所示,包括:
[0057]
语音数据获取模块,用于接收语音并存储、更新至缓存区;
[0058]
如图3所示,所述待判定语音根据人为设定的数据块大小,按帧获取语音数据,同时存储并更新到缓存区,缓存区的更新按照先入先出的原则;
[0059]
模型处理模块,用于对获取的语音输出预测概率;
[0060]
可选的,将缓存区的语音帧输入到语音唤醒模型得到预测概率;
[0061]
正态分布平滑模块,用于将预测概率转换为平滑概率;
[0062]
可选的,由指定的均值、方差得到正态分布密度函数,由指定的分布范围、分辨率得到分布点序列,由正态分布密度函数以及分布点序列计算得到累计概率分布,将预测概率通过sigmoid反函数得到标量值,再通过指定的分布范围对标量值进行归一化,根据指定的分辨率对归一化标量值计算得到分布点,将分布点带入累计概率分布可得到平滑概率;
[0063]
激活判决模块,用于设定唤醒敏感度以及唤醒阈值以及判断是否唤醒。
[0064]
可理解的,激活数目初始化为0,即对得到的平滑概率与唤醒敏感度进行比较,若大于唤醒敏感度则激活数目加1,否则激活数目减1,当激活数目大于唤醒阈值则判断为唤醒状态;
[0065]
通过本实施例2提供的一种语音唤醒装置,避免了激活词模型对某个预测值置信度很低的情况下,由于预测值的快速跳跃而造成的误激活问题,同时为语音唤醒提供了相对线性的阈值调节。
[0066]
实施例3
[0067]
基于同一发明构思,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序用于实现如实施例1所述一种语音唤醒方法的步骤。
[0068]
基于同一发明构思,本发明实施例还提供一种电子设备,包括:
[0069]
存储装置,用于存储计算机程序;
[0070]
处理装置,用于执行所述存储装置中的所述计算机程序,以实现如实施例1所述一种语音唤醒方法的步骤。
[0071]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种语音唤醒方法,其特征在于,包括:s1.获取语音唤醒模型,设定唤醒敏感度及唤醒阈值;s2.获取待判定语音,并通过s1所获取的语音唤醒模型输出预测概率;s3.指定正态分布概率密度函数,并通过正态分布概率密度函数计算累计概率分布;s4.将s2输出的预测概率转换为分布点,通过分布点在s3得到的累计概率分布中取对应值,得到平滑概率;s5.根据s4得到的平滑概率以及s1设定的唤醒敏感度及唤醒阈值来判断是否唤醒。2.根据权利要求1所述一种语音唤醒方法,其特征在于,所述语音唤醒模型为二分类模型。3.根据权利要求1所述一种语音唤醒方法,其特征在于,所述s2具体为:待判定语音的数据流根据设定的数据块大小,按帧获取语音数据,存储并更新到缓存区;且缓存区的更新按照先入先出的原则,将缓存区的语音帧输入到语音唤醒模型得到预测概率。4.根据权利要求1所述一种语音唤醒方法,其特征在于,所述s3具体为:由指定的均值、方差得到所述正态分布概率密度函数,由指定的分布范围、分辨率得到分布点序列,再通过正态分布概率密度函数以及分布点序列获得累计概率分布。5.根据权利要求4所述一种语音唤醒方法,其特征在于,所述预测概率转换为分布点的方法为:将预测概率通过sigmoid反函数得到标量值,再通过指定的分布范围对标量值进行归一化,根据指定的分辨率对归一化标量值计算得到分布点。6.根据权利要求1所述一种语音唤醒方法,其特征在于,所述s5具体为:激活数目初始化为0,对s4得到的平滑概率与s1设定的唤醒敏感度进行比较,若平滑概率大于唤醒敏感度,则激活数目加1;否则,激活数目减1,当激活数目大于唤醒阈值时,则判断为唤醒状态。7.一种语音唤醒装置,其特征在于,包括:语音数据获取模块,用于接收语音并存储、更新至缓存区;模型处理模块,用于对获取的语音输出预测概率;正态分布平滑模块,用于将预测概率转换为平滑概率;激活判决模块,用于设定唤醒敏感度、唤醒阈值以及判断是否唤醒。8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序用于实现权利要求1-6任一项所述一种语音唤醒方法。9.一种电子设备,其特征在于,包括:存储装置,用于存储计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-6任一项所述一种语音唤醒方法的步骤。

技术总结


本发明公开了一种语音唤醒的方法、装置、存储介质及电子设备,方法包括:获取语音唤醒模型,设定唤醒敏感度及唤醒阈值;获取待判定语音,并通过所获取的语音唤醒模型输出预测概率;指定正态分布概率密度函数,并通过正态分布概率密度函数计算累计概率分布;将输出的预测概率转换为分布点,通过分布点在得到的累计概率分布中取对应值,得到平滑概率;根据平滑概率、唤醒敏感度及唤醒阈值来判断是否唤醒。本发明避免了语音唤醒模型对某个预测值置信度很低的情况下,由于预测值的快速跳跃而造成的误激活问题,同时为语音唤醒提供了相对线性的阈值调节,从而更加准确对语音唤醒进行响应。应。应。


技术研发人员:

朱海

受保护的技术使用者:

四川启睿克科技有限公司

技术研发日:

2022.08.03

技术公布日:

2022/11/3

本文发布于:2024-09-22 12:36:47,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/12969.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:概率   语音   所述   阈值
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议