唤醒语音音频的响应方法和装置、存储介质及电子装置与流程



1.本技术涉及通信领域,具体而言,涉及一种唤醒语音音频的响应方法和装置、存储介质及电子装置。


背景技术:



2.随着智能语音产品的推广以及使用量的增加,用户对语音产品的交互体验要求也不断提高。
3.相关技术中,语音交互设备只能设置固定的语音交互音量,且需要用户通过语音或按键来进行设置,而不能根据周围环境的变化动态地调整音量。例如,周围噪声很大时,用户会听不清楚语音交互设备的语音模块发出的声音;而夜深人静时,语音模块的声音又相对过大,可能会影响到其他人。而在唤醒之后,用户可能会四处走动,当用户走到离设备较远的地方处理事情时,就会听不清语音模块的声音,比如,用户在打开菜谱功能后,去了离语音模块较远的地方准备食材就可能会听不清楚语音模块播放的内容,导致用户体验感很差。
4.针对相关技术中,智能语音产品不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题,尚未提出有效的解决方案。


技术实现要素:



5.本技术实施例提供了一种唤醒语音音频的响应方法和装置、存储介质及电子装置,以至少解决相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差的问题。
6.根据本技术实施例的一个实施例,提供了一种唤醒语音音频的响应方法,包括:在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。
7.在一个示例性实施例中,确定所述唤醒语音音频的第一音量值,包括:从多个音量值计算方法中确定目标音量值计算方法,其中,所述多个音量值计算方法包括以下至少之一:计算所述唤醒语音音频中所有采样点的均方根rms、计算所述唤醒语音音频中所有采样点的平均值avg;通过所述目标音量值计算方法对所述唤醒语音音频的能量值进行计算,得到所述唤醒语音音频的第一音量值。
8.在一个示例性实施例中,确定与所述第一音量值对应的第二音量值之后,所述方法还包括:将所述第二音量值存入音频数据库,其中,所述音频数据库用于存储所述语音交互设备发出的响应音频的所有音量值;按照第一预设周期定期遍历所述音频数据库中存储的所述响应音频的所有音量值,以确定所述所有音量值中出现频率最高的第三音量值;将所述第三音量值确定为所述语音交互设备的默认音量值。
9.在一个示例性实施例中,将所述第三音量值确定为所述语音交互设备的默认音量值之后,所述方法还包括:在下次接收到的唤醒语音音频为无效唤醒语音音频的情况下,控制所述语音交互设备基于所述默认音量值的响应语音响应所述唤醒语音音频。
10.在一个示例性实施例中,控制所述语音交互设备基于响应语音响应所述唤醒语音音频之后,所述方法还包括:按照第二预设周期采集第一对象对所述语音交互设备发出的至少两个交互音频;根据比较所述至少两个交互音频的音量值确定所述第一对象与所述语音交互设备的距离变化;根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节。
11.在一个示例性实施例中,根据所述至少两个交互音频的音量值大小确定所述第一对象与所述语音交互设备的距离变化,包括:比较接收到的当前交互音频音量值与接收到的上一交互音频音量值;在所述接收到的当前交互音频音量值小于所述接收到的上一交互音频音量值的情况下,确定所述第一对象远离所述语音交互设备;在所述接收到的当前交互音频音量值大于所述接收到的上一交互音频音量值的情况下,确定所述第一对象靠近所述语音交互设备。
12.在一个示例性实施例中,根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节,包括:在所述距离变化指示所述第一对象远离所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值提高至第四音量值;在所述距离变化指示所述第一对象靠近所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值降低至第五音量值,其中,所述第四音量值与所述第五音量值均通过第二线性关系计算得到,所述第二线性关系用于指示所述距离变化与音量值的函数关系。
13.根据本技术实施例的另一个实施例,还提供了一种唤醒音频的响应装置,包括:确定模块,用于在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;计算模块,用于根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。
14.根据本技术实施例的另一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述唤醒语音音频的处理方法。
15.根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的唤醒语音音频的处理方法。
16.在本技术实施例中,在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。采用上述技术方案,解决了相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题,实现了满足用户不同环境下对语音交互音量的需求,提升了用户体验的技术效果。
附图说明
17.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
18.图1是本技术实施例的一种可选的唤醒语音音频的响应方法的语音模块的硬件结构框图;
19.图2是本技术实施例的一种可选的唤醒语音音频的响应方法的流程示意图;
20.图3是根据本技术实施例的一种可选的唤醒语音音频的响应方法的流程图;
21.图4是根据本技术实施例的另一种可选的唤醒语音音频的响应方法的流程图;
22.图5是根据本技术实施例的一种可选的唤醒语音音频的响应装置的结构框图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
24.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.本技术实施例所提供的方法实施例可以在语音交互设备或者类似的运算系统中执行。以运行在语音交互设备上为例,图1是本技术实施例的一种唤醒语音音频的响应方法的语音交互设备的硬件结构框图。如图1所示,语音交互设备可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理系统)和用于存储数据的存储器104,在一个示例性实施例中,上述语音交互设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述语音交互设备的结构造成限定。例如,语音交互设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
26.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本技术实施例中的唤醒语音音频的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储系统、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至语音交互设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
27.传输系统106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括语音交互设备的通信供应商提供的无线网络。在一个实例中,传输系统106包括一个网络适配器(network interface controller,简称为nic),其可通过与其他网络设备相连从而可与互联网进行通讯。
28.在本实施例中提供了一种唤醒语音音频的响应方法,应用于上述语音交互设备,图2是根据本技术实施例的一种可选的唤醒语音音频的响应方法的流程图,该流程包括如下步骤:
29.步骤s202,在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;
30.步骤s204,根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。
31.通过上述步骤,在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值;采用上述技术方案,解决了相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题,实现了满足用户不同环境下对语音交互音量的需求,提升了用户体验的技术效果。
32.需要说明的是,上述确定唤醒语音音频为有效唤醒语音音频可以理解为判定唤醒语音音频是否为用户误触发,也可以理解为判定唤醒语音音频的音量值是否为有效值,本技术对此不做限制。
33.需要说明的是,上述第一音量值与第二音量值的差值小于第一预设阈值可以理解为语音交互设备以与用户唤醒语音音频音量相近的音量响应唤醒语音音频。
34.为了更好地理解本发明可选实施例的技术方案,本发明实施例中涉及到的名词定义如下:
35.隆巴德效应:在强大噪声环境下,说话人不得不提高声音的效果,包括提高声音的频率,强度,延长语句等,希望使对方能听到。
36.需要说明的是,基于隆巴德效应,在周边噪声较大时用户唤醒语音音频的音量会自然提升,语音模块会随着唤醒语音音频的提升自动调大音量;而安静环境中用户的唤醒音量会降低,语音模块也会对应调低回复音量。
37.在一个示例性实施例中,确定所述唤醒语音音频的第一音量值,包括:从多个音量值计算方法中确定目标音量值计算方法,其中,所述多个音量值计算方法包括以下至少之一:计算所述唤醒语音音频中所有采样点的均方根rms、计算所述唤醒语音音频中所有采样点的平均值avg;通过所述目标音量值计算方法对所述唤醒语音音频的能量值进行计算,得到所述唤醒语音音频的第一音量值。
38.为了更加精准地计算出唤醒语音音频的音量值,以便根据用户的音量计算出当前用户所需要的响应语音的音量,本技术提出了以下几种目标音量值计算方法:通过计算唤醒语音音频的所有采样点的均方根(rms)即能量值的方法计算用户声音的分贝值;或通过
计算唤醒语音音频中所有采样点的平均值(avg)的方法计算用户声音的分贝值。在获取到唤醒语音音频中采样点数据的波动范围超过预设阈值时,采用计算平均值(avg)的方法;而在采样点数据的波动范围未超过预设阈值时,采用计算均方根(rms)的方法,对唤醒语音音频的能量值进行计算,得到唤醒语音音频的第一音量值。
39.需要说明的是,上述目标音量值的计算方法还可以包括计算唤醒语音音频所有采样点的峰值的方法,本技术对此不做限制。
40.基于上述过程,确定与所述第一音量值对应的第二音量值之后,所述方法还包括:将所述第二音量值存入音频数据库,其中,所述音频数据库用于存储所述语音交互设备发出的响应音频的所有音量值;按照第一预设周期定期遍历所述音频数据库中存储的所述响应音频的所有音量值,以确定所述所有音量值中出现频率最高的第三音量值;将所述第三音量值确定为所述语音交互设备的默认音量值。
41.为了给用户带来更好的使用体验,会为语音交互设备设置默认音量值,但默认音量值若为固定不变的,则无法满足用户大部分时间的需求,因此将每一次唤醒语音音频所对应的响应音频的音量值存储到音频数据库中,然后按照预设的周期定期遍历音频数据库中存储的音量值数据,出出现频率最高的音量值,将该音量值设置为第三音量值,并将语音交互设备的默认音量值更新为第三音量值,使语音交互设备的默认音量值始终为最贴合用户需求的音量值。
42.此外,将所述第三音量值确定为所述语音交互设备的默认音量值之后,所述方法还包括:在下次接收到的唤醒语音音频为无效唤醒语音音频的情况下,控制所述语音交互设备基于所述默认音量值的响应语音响应所述唤醒语音音频。
43.在判断接收到的唤醒语音音频为无效唤醒语音音频时,即用户误唤醒的情况下,语音交互设备仍然需要给用户语音响应,但此时无法根据唤醒语音音频的音量值调整响应语音的音量值,因此语音交互设备会基于用户需求更新默认音量值,并基于更新后的默认音量值的响应语音响应所述唤醒语音音频。
44.基于上述过程,控制所述语音交互设备基于响应语音响应所述唤醒语音音频之后,所述方法还包括:按照第二预设周期采集第一对象对所述语音交互设备发出的至少两个交互音频;根据比较所述至少两个交互音频的音量值确定所述第一对象与所述语音交互设备的距离变化;根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节。
45.在实际应用过程中,用户可能会一边处理其他事情,一边与语音交互设备进行交互,此时用户的位置可能处于一直变化的过程,为了防止用户远离或靠近语音交互设备时,因为语音交互设备的交互音量过小或过大而影响使用体验;语音交互设备会按照第二预设周期采集用户对语音交互设备发出的至少两个交互音频,通过比较所述至少两个交互音频的音量值大小确定用户相对于语音交互设备的距离变化,根据得到的距离变化对语音交互设备的当前交互音频的音量值进行调节。
46.需要说明的是,在交互过程中若用户音量值与唤醒音量值相差超出一定范围,就会重新设置语音设备交互音频的播放音量。
47.进一步地,根据所述至少两个交互音频的音量值大小确定所述第一对象与所述语音交互设备的距离变化,包括:比较接收到的当前交互音频音量值与接收到的上一交互音
频音量值;在所述接收到的当前交互音频音量值小于所述接收到的上一交互音频音量值的情况下,确定所述第一对象远离所述语音交互设备;在所述接收到的当前交互音频音量值大于所述接收到的上一交互音频音量值的情况下,确定所述第一对象靠近所述语音交互设备。
48.可以理解的是,用户在使用菜谱功能时,会前往厨房准备食材,从而与语音交互设备距离较远,若语音交互设备还是按照根据唤醒语音音频计算得到的音量值与用户进行交互的话,用户就会听不清语音模块播放的内容,就会产生不好的使用体验;因此,语音交互设备可以获取当前用户位于厨房时发出的交互音频的音量值,与唤醒语音音频对应的音量值进行比较,若当前音量值小于唤醒语音音频对应的音量值,则判断用户远离了语音交互设备;若当前音量值大于唤醒语音音频对应的音量值,则判断用户靠近了语音交互设备。则语音交互设备自动对交互音量进行调节增大,使用户在厨房也可以清楚地听到语音设备的响应语音。
49.基于上述过程,根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节,包括:在所述距离变化指示所述第一对象远离所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值提高至第四音量值;在所述距离变化指示所述第一对象靠近所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值降低至第五音量值,其中,所述第四音量值与所述第五音量值均通过第二线性关系计算得到,所述第二线性关系用于指示所述距离变化与音量值的函数关系。
50.在判断出用户当前是远离或靠近了语音交互设备之后,可以自动对应调节语音交互设备的音量值大小,当判断出用户远离语音交互设备时,将语音交互设备的当前交互音频的音量值提高至第四音量值;当判断出用户靠近了语音交互设备时,将语音交互设备的当前交互音频的音量值降低至第五音量值,且第四音量值和第五音量值都由第二线性关系计算得出,第二线性关系用于指示距离变化和音量值之间的函数关系。
51.需要说明的是,用户在交互过程中若远离语音模块,语音模块会检测到使用者音量相对变小进而会自动调大音量;相反,若用户靠近了语音模块,语音模块会检测到使用者音量相对变大进而自动降低音量,以确保用户在不同的环境下可以听清语音模块的声音。
52.图3是本技术实施例的一种可选的唤醒语音音频的响应方法的流程示意图。如图3所示,提供了一种唤醒语音音频的响应方法,具体步骤如下:
53.步骤s302:语音交互设备接收用户的唤醒语音;
54.步骤s304:判断该唤醒语音是否为有效唤醒,防止用户误操作,若是有效唤醒,则执行步骤s306,若不是有效唤醒,则执行步骤s318;
55.步骤s306:计算该唤醒语音音频的能量;
56.步骤s308:保存计算得到的能量值;
57.步骤s310:判断该音频能量值是否有效,避免出现过小或过大的能量值,若有效,则执行步骤s312;若无效,则执行步骤s318;
58.步骤s312:计算该音频能量值对应的语音交互设备应当设置的音量值;
59.步骤s314:将语音交互设备的语音模块的音量设置为步骤s312计算得到的数值;
60.步骤s316:按照设置好的音量值播放回复语;
61.步骤s318:将语音交互设备的语音模块的音量设置为默认数值,并执行步骤s316。
62.通过上述步骤,语音交互设备在接收到用户的唤醒语音的情况下进行有效唤醒判断,防止用户误唤醒,若不是有效唤醒,则将语音交互音量设置为默认数值并播放回复语;若是有效唤醒,则计算出唤醒语音音频的能量值并将其保存,并判断音频能量值是否为有效能量值,防止能量值过大或过小,超出正常范围,若不是有效能量值,则将音量设置为默认数值,并按照默认音量值播放回复语;若为有效能量值,则计算该能量值对应的语音交互设备的音量值,并将语音交互设备音量设置为计算得到的音量值,并以该音量值播放回复语;采用上述技术方案,解决了相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题,实现了满足用户不同环境下对语音交互音量的需求,提升了用户体验的技术效果。
63.在本实施例中提供了另一种可选的唤醒语音音频的响应方法,图4是根据本技术实施例的另一种可选的唤醒语音音频的响应方法的流程图,如图4所示,具体如下步骤:
64.步骤s402:语音交互设备开始与用户进行语音交互;
65.步骤s404:计算出交互音频的能量值;
66.步骤s406:判断能量值是否超出了波动范围,若没有,则执行步骤s416;若超出了,则执行步骤s408;
67.步骤s408:判断交互音频的能量值是否大于唤醒语音音频的能量值,若是则执行步骤s410;若否则执行步骤s412;
68.步骤s410:对应调小语音交互设备的交互音量数值;
69.步骤s412:对应调大语音交互设备的交互音量数值;
70.步骤s414:根据得到的音量数值设置语音交互设备的交互音量;
71.步骤s416:按照设置好的交互音量播放交互音频。
72.在本发明实施例中,语音交互设备通过捕捉用户在交互过程中的交互音频能量的变化,先判断能量值是否超出了波动范围,若超过则判断交互音频能量与唤醒语音音频能量之间的大小,进而判断用户与语音交互设备之间距离的变化,根据得到的距离的变化对应调整语音交互设备的交互音量,从而为用户带来更好的使用体验;采用上述技术方案,解决了相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题,实现了满足用户不同环境下对语音交互音量的需求,提升了用户体验的技术效果。
73.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
74.图5是根据本技术实施例的一种唤醒语音音频的响应装置的结构框图;如图5所示,包括:
75.确定模块52,用于在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;
76.计算模块54,用于根据第一线性关系计算与所述第一音量值对应的第二音量值,
控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。
77.通过上述装置,在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值;采用上述技术方案,解决了相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题,实现了满足用户不同环境下对语音交互音量的需求,提升了用户体验的技术效果。
78.在一个示例性实施例中,所述确定模块,还用于确定所述唤醒语音音频的第一音量值,包括:从多个音量值计算方法中确定目标音量值计算方法,其中,所述多个音量值计算方法包括以下至少之一:计算所述唤醒语音音频中所有采样点的均方根rms、计算所述唤醒语音音频中所有采样点的平均值avg;通过所述目标音量值计算方法对所述唤醒语音音频的能量值进行计算,得到所述唤醒语音音频的第一音量值。
79.为了更加精准地计算出唤醒语音音频的音量值,以便根据用户的音量计算出当前用户所需要的响应语音的音量,本技术提出了以下几种目标音量值计算方法:通过计算唤醒语音音频的所有采样点的均方根(rms)即能量值的方法计算用户声音的分贝值;或通过计算唤醒语音音频中所有采样点的平均值(avg)的方法计算用户声音的分贝值。在获取到唤醒语音音频中采样点数据的波动范围超过预设阈值时,采用计算平均值(avg)的方法;而在采样点数据的波动范围未超过预设阈值时,采用计算均方根(rms)的方法,对唤醒语音音频的能量值进行计算,得到唤醒语音音频的第一音量值。
80.基于上述过程,所述确定模块,还用于将所述第二音量值存入音频数据库,其中,所述音频数据库用于存储所述语音交互设备发出的响应音频的所有音量值;按照第一预设周期定期遍历所述音频数据库中存储的所述响应音频的所有音量值,以确定所述所有音量值中出现频率最高的第三音量值;将所述第三音量值确定为所述语音交互设备的默认音量值。
81.为了给用户带来更好的使用体验,会为语音交互设备设置默认音量值,但默认音量值若为固定不变的,则无法满足用户大部分时间的需求,因此将每一次唤醒语音音频所对应的响应音频的音量值存储到音频数据库中,然后按照预设的周期定期遍历音频数据库中存储的音量值数据,出出现频率最高的音量值,将该音量值设置为第三音量值,并将语音交互设备的默认音量值更新为第三音量值,使语音交互设备的默认音量值始终为最贴合用户需求的音量值。
82.此外,所述确定模块,还用于在下次接收到的唤醒语音音频为无效唤醒语音音频的情况下,控制所述语音交互设备基于所述默认音量值的响应语音响应所述唤醒语音音频。
83.在判断接收到的唤醒语音音频为无效唤醒语音音频时,即用户误唤醒的情况下,语音交互设备仍然需要给用户语音响应,但此时无法根据唤醒语音音频的音量值调整响应语音的音量值,因此语音交互设备会基于用户需求更新默认音量值,并基于更新后的默认音量值的响应语音响应所述唤醒语音音频。
84.基于上述过程,所述确定模块,按照第二预设周期采集第一对象对所述语音交互设备发出的至少两个交互音频;根据比较所述至少两个交互音频的音量值确定所述第一对象与所述语音交互设备的距离变化;根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节。
85.在实际应用过程中,用户可能会一边处理其他事情,一边与语音交互设备进行交互,此时用户的位置可能处于一直变化的过程,为了防止用户远离或靠近语音交互设备时,因为语音交互设备的交互音量过小或过大而影响使用体验;语音交互设备会按照第二预设周期采集用户对语音交互设备发出的至少两个交互音频,通过比较所述至少两个交互音频的音量值大小确定用户相对于语音交互设备的距离变化,根据得到的距离变化对语音交互设备的当前交互音频的音量值进行调节。
86.进一步地,所述确定模块,还用于比较接收到的当前交互音频音量值与接收到的上一交互音频音量值;在所述接收到的当前交互音频音量值小于所述接收到的上一交互音频音量值的情况下,确定所述第一对象远离所述语音交互设备;在所述接收到的当前交互音频音量值大于所述接收到的上一交互音频音量值的情况下,确定所述第一对象靠近所述语音交互设备。
87.可以理解的是,用户在使用菜谱功能时,会前往厨房准备食材,从而与语音交互设备距离较远,若语音交互设备还是按照根据唤醒语音音频计算得到的音量值与用户进行交互的话,用户就会听不清语音模块播放的内容,就会产生不好的使用体验;因此,语音交互设备可以获取当前用户位于厨房时发出的交互音频的音量值,与唤醒语音音频对应的音量值进行比较,若当前音量值小于唤醒语音音频对应的音量值,则判断用户远离了语音交互设备;若当前音量值大于唤醒语音音频对应的音量值,则判断用户靠近了语音交互设备。则语音交互设备自动对交互音量进行调节增大,使用户在厨房也可以清楚地听到语音设备的响应语音。
88.基于上述过程,所述确定模块,还用于在所述距离变化指示所述第一对象远离所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值提高至第四音量值;在所述距离变化指示所述第一对象靠近所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值降低至第五音量值,其中,所述第四音量值与所述第五音量值均通过第二线性关系计算得到,所述第二线性关系用于指示所述距离变化与音量值的函数关系。
89.在判断出用户当前是远离或靠近了语音交互设备之后,可以自动对应调节语音交互设备的音量值大小,当判断出用户远离语音交互设备时,将语音交互设备的当前交互音频的音量值提高至第四音量值;当判断出用户靠近了语音交互设备时,将语音交互设备的当前交互音频的音量值降低至第五音量值,且第四音量值和第五音量值都由第二线性关系计算得出,第二线性关系用于指示距离变化和音量值之间的函数关系。
90.本技术的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
91.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
92.s1,在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频
的第一音量值;
93.s2,根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。
94.本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
95.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
96.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
97.s1,在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;
98.s2,根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。
99.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
100.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
101.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
102.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:


1.一种唤醒语音音频的响应方法,其特征在于,包括:在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。2.根据权利要求1所述的唤醒语音音频的响应方法,其特征在于,确定所述唤醒语音音频的第一音量值,包括:从多个音量值计算方法中确定目标音量值计算方法,其中,所述多个音量值计算方法包括以下至少之一:计算所述唤醒语音音频中所有采样点的均方根rms、计算所述唤醒语音音频中所有采样点的平均值avg;通过所述目标音量值计算方法对所述唤醒语音音频的能量值进行计算,得到所述唤醒语音音频的第一音量值。3.根据权利要求1所述的唤醒语音音频的响应方法,其特征在于,确定与所述第一音量值对应的第二音量值之后,所述方法还包括:将所述第二音量值存入音频数据库,其中,所述音频数据库用于存储所述语音交互设备发出的响应音频的所有音量值;按照第一预设周期定期遍历所述音频数据库中存储的所述响应音频的所有音量值,以确定所述所有音量值中出现频率最高的第三音量值;将所述第三音量值确定为所述语音交互设备的默认音量值。4.根据权利要求3所述的唤醒语音音频的响应方法,其特征在于,将所述第三音量值确定为所述语音交互设备的默认音量值之后,所述方法还包括:在下次接收到的唤醒语音音频为无效唤醒语音音频的情况下,控制所述语音交互设备基于所述默认音量值的响应语音响应所述唤醒语音音频。5.根据权利要求1所述的唤醒语音音频的响应方法,其特征在于,控制所述语音交互设备基于响应语音响应所述唤醒语音音频之后,所述方法还包括:按照第二预设周期采集第一对象对所述语音交互设备发出的至少两个交互音频;根据比较所述至少两个交互音频的音量值确定所述第一对象与所述语音交互设备的距离变化;根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节。6.根据权利要求5所述的唤醒语音音频的响应方法,其特征在于,根据所述至少两个交互音频的音量值大小确定所述第一对象与所述语音交互设备的距离变化,包括:比较接收到的当前交互音频音量值与接收到的上一交互音频音量值;在所述接收到的当前交互音频音量值小于所述接收到的上一交互音频音量值的情况下,确定所述第一对象远离所述语音交互设备;在所述接收到的当前交互音频音量值大于所述接收到的上一交互音频音量值的情况下,确定所述第一对象靠近所述语音交互设备。7.根据权利要求5所述的唤醒语音音频的响应方法,其特征在于,根据所述距离变化对所述语音交互设备的当前交互音频的音量值进行调节,包括:
在所述距离变化指示所述第一对象远离所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值提高至第四音量值;在所述距离变化指示所述第一对象靠近所述语音交互设备的情况下,将所述语音交互设备的当前交互音频的音量值降低至第五音量值,其中,所述第四音量值与所述第五音量值均通过第二线性关系计算得到,所述第二线性关系用于指示所述距离变化与音量值的函数关系。8.一种唤醒语音音频的响应装置,其特征在于,包括:确定模块,用于在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;计算模块,用于根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值。9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。

技术总结


本申请公开了一种唤醒语音音频的响应方法和装置、存储介质及电子装置,上述方法包括:在唤醒语音音频判定为有效唤醒语音音频的情况下,确定所述唤醒语音音频的第一音量值;根据第一线性关系计算与所述第一音量值对应的第二音量值,控制语音交互设备以第二音量值播放所述唤醒语音音频对应的响应语音音频;其中,所述第一音量值与所述第二音量值的差值小于第一预设阈值;采用上述技术方案,解决了相关技术中,语音交互设备不能自动调节语音交互音量,无法满足用户的实际需要,导致用户体验差等问题。差等问题。差等问题。


技术研发人员:

周斌道

受保护的技术使用者:

海尔智家股份有限公司

技术研发日:

2022.02.18

技术公布日:

2022/7/1

本文发布于:2024-09-21 03:16:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/8696.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:音量   语音   所述   音频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议