语音数据处理方法、装置、电子设备和存储介质与流程



1.本技术涉及语音数据处理技术领域,尤其涉及语音数据处理方法、装置、电子设备和存储介质。


背景技术:



2.语音唤醒技术通过在设备或软件中预置唤醒词,当用户发出该语音指令时,设备便从休眠状态中被唤醒,并作出指定响应,大大提升了人机交互的效率。为了保护用户隐私,在设备唤醒之前不能将语音数据上传,因此,语音唤醒往往要在本地设备实现。
3.受到成本的限制,本地设备往往存在算力不足、内存空间小的局限。为了实现低功耗的离线语音唤醒,不能将所有语音信号都直接进行唤醒词判断算法步骤,而是对语音信号分析后,将有效的语音段提取出来进行唤醒词的判断。
4.通过有效语音片段检测进行截取,单独对语音片段进行分析判断,不仅大大降低了数据量与计算量,还有助于提高唤醒率、降低误唤醒率。采用vad(voice activity detection,语音活动检测)技术对输入语音信号进行有效语音片段的开始点和结束点的检测,可以将有效的语音段截取出来,针对性地对语音信号进行分析处理。
5.但是,采用现有技术进行有效语音片段的检测,在某些情况下(尤其安静环境下)容易过早地判断一段语音的结束点,导致将一个完整的有效语音段误分割为若干段,影响后续获取唤醒词判断结果的准确性。


技术实现要素:



6.本技术旨在至少解决相关技术中存在的技术问题之一。为此,本技术提出一种语音数据处理方法,能够提高语音片段截取的鲁棒性。
7.本技术还提出一种语音数据处理装置。
8.本技术还提出一种电子设备。
9.本技术还提出一种存储介质。
10.本技术还提出一种计算机程序产品。
11.根据本技术第一方面实施例的语音数据处理方法,包括:
12.基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;
13.基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;
14.其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。
15.根据本技术实施例的语音数据处理方法,通过在有效语音段截取的过程中加入后处理逻辑,对截取有效语音段的结束条件加以约束,从而防止完整语音段由于中途存在短时静音而被误分割为多段,提高有效语音片段截取的鲁棒性。
16.根据本技术的一个实施例,所述第一历史时刻与所述当前时刻之间相隔有至少一时刻。
17.根据本技术实施例的语音数据处理方法,将有效语音片段的截断结束条件的判定依据,进一步限制为当前时刻以及与当前时刻相隔至少一时刻的第一历史时刻的语音有效性检测结果均为无效帧,通过增加当前时刻与第一历史时刻的距离,增大了有效语音片段截断点的缓冲长度,进一步防止了完整语音段被误分割为多段,提高了有效语音片段截取的鲁棒性。
18.根据本技术的一个实施例,所述基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点,包括:
19.基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,获取所述第一历史时刻与所述当前时刻之间的至少一时刻对应的至少一语音有效性检测结果;
20.基于所述至少一语音有效性检测结果确定与所述至少一时刻对应的所有语音数据帧均为无效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点。
21.根据本技术实施例的语音数据处理方法,在判断当前时刻与第一历史时刻之间的所有时刻对应的语音数据帧均为无效帧,才将第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点,进一步防止了完整语音段被误分割为多段,提高了有效语音片段截取的鲁棒性。
22.根据本技术的一个实施例,在所述基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果之前,还包括:
23.基于目标时刻的语音有效性检测结果确定与所述目标时刻对应的语音数据帧为有效帧,并获取所述原始语音段的第三历史时刻的语音有效性检测结果;
24.基于所述第三历史时刻的语音有效性检测结果确定与所述第三历史时刻对应的语音数据帧为无效帧,将与所述目标时刻对应的语音数据帧确定为所述目标语音片段的起始端点;
25.其中,所述第三历史时刻为所述目标时刻的前一时刻。
26.根据本技术实施例的语音数据处理方法,通过根据当前时刻以及前一时刻的语音有效性检测结果确定当前时刻是否为目标语音片段的起始点,确保了有效语音片段起始部分的完整性,进一步提高了有效语音片段截取的鲁棒性。
27.根据本技术的一个实施例,在所述基于所述第一历史时刻的语音有效性检测结果
确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点之后,还包括:
28.基于所述起始端点和所述截断端点从所述原始语音段中截取得到所述目标语音片段。
29.根据本技术实施例的语音数据处理方法,通过将上述确定的起始端点和截断端点作为有效语音片段截取的依据,从原始语音段中截取出目标语音片段,进一步提高了有效语音片段截取的鲁棒性。
30.根据本技术的一个实施例,所述第一历史时刻与所述当前时刻之间相隔的时刻数量为基于所述原始语音段的长度进行确定得到;或者,
31.所述第一历史时刻与所述当前时刻之间相隔的时刻数量为基于系统当前场景模式进行确定得到。
32.根据本技术实施例的语音数据处理方法,通过根据原始语音段的长度或预置的应用场景模式自适应地确定本次截取有效语音段的判定缓冲长度,提高了有效语音片段截取的鲁棒性和灵活性。
33.根据本技术的一个实施例,在所述基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果之前,还包括:
34.确定所述原始语音段中每一语音数据帧的音频强度值和过零率;
35.确定所述语音数据帧的音频强度值大于预设强度阈值,且所述语音数据帧的过零率小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为有效帧标记;
36.确定所述语音数据帧的音频强度值不大于预设强度阈值,或所述语音数据帧的过零率不小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为无效帧标记。
37.根据本技术实施例的语音数据处理方法,通过计算每一语音数据帧的音频强度值和过零率作为判断该语音数据帧的语音有效性的依据,提高了每一语音数据帧的有效性检测的准确性,从而进一步提高了有效语音片段截取的鲁棒性。
38.根据本技术第二方面实施例的语音数据处理装置,包括:
39.获取模块,用于基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;
40.确定模块,用于基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;
41.其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。
42.根据本技术第三方面实施例的电子设备,包括存储器、处理器及存储在存储器上
并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音数据处理方法。
43.根据本技术第四方面实施例的非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音数据处理方法。
44.根据本技术第五方面实施例的计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述语音数据处理方法。
45.本技术实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
46.通过在有效语音段截取的过程中加入后处理逻辑,对截取有效语音段的结束条件加以约束,从而防止完整语音段由于中途存在短时静音而被误分割为多段,提高有效语音片段截取的鲁棒性。
47.本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
48.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1是本技术实施例提供的语音数据处理方法的流程示意图;
50.图2是原始语音与有效语音的对比示意图;
51.图3是本技术实施例提供的语音唤醒步骤的流程示意图;
52.图4是现有技术的有效语音段截取处理结果示意图;
53.图5是本技术实施例提供的有效语音段截取处理结果示意图;
54.图6是本技术实施例提供的语音数据处理装置的结构示意图;
55.图7是本技术实施例提供的电子设备的结构示意图。
具体实施方式
56.下面结合附图和实施例对本技术的实施方式作进一步详细描述。以下实施例用于说明本技术,但不能用来限制本技术的范围。
57.请参照图1,本技术实施例提供一种语音数据处理方法,可以包括步骤:
58.s1、基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;
59.需要说明的是,在语音处理过程中,例如语音唤醒技术的处理过程主要分为四个步骤:语音获取、vad、唤醒词判断、获取结果,语音获取步骤会将获取到的原始语音信号进行分帧处理形成多个语音数据帧,后续模块会以语音数据帧的形式对语音信号进行处理。其中,vad对于后续的唤醒词判断、结果获取的准确性至关重要。采用vad(voice activity detection,语音活动检测,也称为语音端点检测)技术对输入语音信号进行有效语音片段
的开始点和结束点的检测,可以将有效的语音段截取出来,针对性地对语音信号进行分析处理。但是,采用现有技术进行有效语音片段的检测,在某些情况下(尤其安静环境下)容易过早地判断一段语音的结束点,导致将一个完整的有效语音段误分割为若干段,影响后续获取唤醒词判断结果的准确性。
60.本技术实施例对其中的vad模块进行改进,在进行有效语音片段检测的基础上,通过加入后处理逻辑,对语音段的结束条件加以约束,从而避免轻易的将语音段截断,能够保持语音段的完整性。
61.需要说明的是,每一语音数据帧具有相应的一个语音有效性检测结果,该语音有效性检测结果可以采用现有的vad技术进行检测,在本技术实施例中,每一语音数据帧的语音有效性检测结果为有效帧或无效帧两种。其中,一个时刻对应一个语音数据帧,且一个时刻对应一个语音有效性检测结果。
62.需要说明的是,在进行确定有效语音片段的截断点的过程中,若根据当前时刻的语音有效性检测结果判定对应的语音数据帧为无效帧时,需要进一步获取过去的第一历史时刻以及第二历史时刻对应的语音有效性检测结果,其中,第一历史时刻可以是当前时刻之前的第n时刻,n为正整数;第二历史时刻为第一历史时刻的前一时刻。例如取n=3,若当前时刻为t(n),则第一历史时刻可以是t(n-3),第二历史时刻为t(n-4)。n的取值可以根据需求进行设定。
63.s2、基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;其中,所述目标语音片段为所述原始语音段中的其中一语音段。
64.在本技术实施例中,当进一步确定第一历史时刻对应的语音数据帧为无效帧,同时确定第二历史时刻对应的语音数据帧为有效帧,则可以将第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点。
65.由于仅在同时判定当前时刻以及第一历史时刻对应的语音数据帧为无效帧的前提下,才有可能(还需根据第二历史时刻的检测结果进一步确定)将第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点,当首次检测出无效语音帧时不马上进行截断,增加了有效语音段截断前的缓冲段,避免了完整语音段由于存在短时静音而被误分割为多段的情况,有效提高有效语音片段截取的鲁棒性。
66.需要说明的是,在确定得到截断端点之后,即可截取得到目标语音片段(包括截断端点对应的语音数据帧在内),而当前时刻对应的语音数据帧则可以进行舍弃,不作为后续的语音分析模块的分析对象。
67.根据本技术实施例的语音数据处理方法,通过在有效语音段截取的过程中加入后处理逻辑,对截取有效语音段的结束条件加以约束,从而防止完整语音段由于中途存在短时静音而被误分割为多段,提高有效语音片段截取的鲁棒性。
68.在一个实施例中,所述第一历史时刻与所述当前时刻之间相隔有至少一时刻。
69.需要说明的是,第一历史时刻可以是当前时刻之前的第二时刻,如当前时刻为t(n),第一历史时刻为t(n-2),第一历史时刻与当前时刻之间相隔有t(n-1)这一时刻。
70.根据本技术实施例的语音数据处理方法,将有效语音片段的截断结束条件的判定
依据,进一步限制为当前时刻以及与当前时刻相隔至少一时刻的第一历史时刻的语音有效性检测结果均为无效帧,通过增加当前时刻与第一历史时刻的距离,增大了有效语音片段截断点的判定缓冲长度,进一步防止了完整语音段被误分割为多段,提高了有效语音片段截取的鲁棒性。
71.在一个实施例中,步骤s2可以包括步骤:
72.s21、基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,获取所述第一历史时刻与所述当前时刻之间的至少一时刻对应的至少一语音有效性检测结果;
73.s22、基于所述至少一语音有效性检测结果确定与所述至少一时刻对应的所有语音数据帧均为无效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点。
74.需要说明的是,在第一历史时刻与当前时刻之间相隔有至少一时刻的前提下,有可能存在以下情况:当前时刻、第一历史时刻、第二历史时刻的语音有效性检测结果均符合目标语音片段截断端点的判定条件,但是当前时刻与第一历史时刻之间的至少一时刻对应的语音数据帧存在有效帧。那么当前时刻实际上很有可能只是完整语音段中的一个静音阶段,若立即把对应的语音数据帧作为截断端点,则依然是过早地判断一段语音的结束,导致将一个完整有效语音段误分割成多段。
75.为了克服上述情况存在的问题,在本技术实施例中,进一步判断第一历史时刻与当前时刻之间的至少一时刻对应的所有语音数据帧的有效性,当这些语音数据帧均为无效帧时,才认为第一历史时刻对应的语音数据帧为目标语音片段的截断端点。
76.根据本技术实施例的语音数据处理方法,在判断当前时刻与第一历史时刻之间的所有时刻对应的语音数据帧均为无效帧,才将第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点,进一步防止了完整语音段被误分割为多段,提高了有效语音片段截取的鲁棒性。
77.在一个实施例中,在步骤s1之前还可以包括步骤:
78.s11、基于目标时刻的语音有效性检测结果确定与所述目标时刻对应的语音数据帧为有效帧,并获取所述原始语音段的第三历史时刻的语音有效性检测结果;
79.s12、基于所述第三历史时刻的语音有效性检测结果确定与所述第三历史时刻对应的语音数据帧为无效帧,将与所述目标时刻对应的语音数据帧确定为所述目标语音片段的起始端点;
80.其中,所述第三历史时刻为所述目标时刻的前一时刻。
81.在本技术实施例中,在目标语音片段的起始端点未被标记之前(若起始端点已被标记,则进入截断端点的判定过程),若判断目标时刻对应的语音数据帧是由无效变有效的一帧,则直接将目标时刻对应的语音数据帧确定为目标语音片段的起始端点。
82.根据本技术实施例的语音数据处理方法,通过根据目标时刻以及前一时刻的语音有效性检测结果确定目标时刻是否为目标语音片段的起始点,确保了有效语音片段起始部分的完整性,进一步提高了有效语音片段截取的鲁棒性。
83.在一个实施例中,在步骤s2之后还可以包括步骤:
84.s23、基于所述起始端点和所述截断端点从所述原始语音段中截取得到所述目标语音片段。
85.需要说明的是,在确定得到起始端点和截断端点之后,可以根据起始端点和截断端点从原始语音段中截取得到目标语音片段。基于确定得到的起始端点和截断端点,可以截取得到目标语音片段(包括起始端点以及截断端点对应的语音数据帧在内)。可以理解的是,当前时刻对应的语音数据帧可以进行舍弃,不作为后续的语音分析模块的分析对象。
86.根据本技术实施例的语音数据处理方法,利用本技术实施例确定的起始端点和截断端点进行目标语音片段的截取,而不是利用现有技术的vad检测技术直接确定的端点作为目标语音片段的截取依据,有效防止了完整语音段被误分割为多段,提高了有效语音片段截取的鲁棒性。
87.在一个实施例中,所述第一历史时刻与所述当前时刻之间相隔的时刻数量为基于所述原始语音段的长度进行确定得到;或者,
88.所述第一历史时刻与所述当前时刻之间相隔的时刻数量为基于系统当前场景模式进行确定得到。
89.需要说明的是,第一历史时刻可以是当前时刻之前的第n时刻,n为正整数。例如取n=3,若当前时刻为t(n),则第一历史时刻可以是t(n-3),此时第一历史时刻与当前时刻相隔的时刻数量为2,即相隔了t(n-1)和t(n-2)两个时刻。可以理解的是,可以预先配置原始语音长度与相隔时刻数量的对应关系,也可以预先配置系统场景模式与相隔时刻数量的对应关系;在截取有效语音段之前,可以获取本次的原始语音长度或系统当前场景模式自适应地确定第一历史时刻与当前时刻之间的相隔时刻数量,无需人工干预。
90.根据本技术实施例的语音数据处理方法,通过根据原始语音段的长度或预置的应用场景模式自适应地确定本次截取有效语音段的判定缓冲长度,提高了有效语音片段截取的鲁棒性和灵活性。
91.在一个实施例中,在步骤s1之前还可以包括步骤:
92.s13、确定所述原始语音段中每一语音数据帧的音频强度值和过零率;
93.s14、确定所述语音数据帧的音频强度值大于预设强度阈值,且所述语音数据帧的过零率小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为有效帧标记;
94.s15、确定所述语音数据帧的音频强度值不大于预设强度阈值,或所述语音数据帧的过零率不小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为无效帧标记。
95.在本技术实施例中,对于每一语音数据帧,通过计算该帧的音频强度值以及过零率,并分别与预设阈值进行比较来确定该帧的语音有效性检测结果。相对于其他的语音有效性检测方法(如只通过音频强度值来确定对应语音帧的有效性),本技术实施例通过同时以音频强度值和过零率作为判断该语音数据帧的语音有效性的依据,提高了每一语音数据帧的有效性检测的准确性,从而进一步提高了有效语音片段截取的鲁棒性。
96.请参见图2-5,基于上述方案,为便于更好的理解本技术实施例提供的语音数据处理方法,以下以对语音唤醒数据的处理为例进行详细说明:
97.需要说明的是,语音唤醒往往要在本地设备实现,而受到成本的限制,本地设备往
往存在算力不足、内存空间小的局限。为了实现低功耗的离线语音唤醒,不能将所有语音信号都直接进行唤醒词判断算法步骤,而是对语音信号分析后,将有效的语音段提取出来进行唤醒词的判断。
98.如图2所示,该图是语音信号的波形图,幅值越大表示音量越大。图中上部为原始语音,包含有语音段与静音段;图中下部为截取的有效语音段。可以理解的是,原始语音数据量较大,但其中有大量数据都不包含有效语音数据,这些数据是不含有语音语义信息的,通常为环境中的噪声,不包含任何唤醒词等有效信息。通过有效语音片段检测进行截取,单独对语音片段进行分析判断,不仅大大降低了数据量与计算量,还有助于提高唤醒率、降低误唤醒率。
99.如图3所示,语音唤醒技术主要分为四个步骤:语音获取、vad、唤醒词判断、获取结果,其中vad对于后续的唤醒词判断、结果获取的准确性至关重要。
100.采用vad(voice activity detection,语音活动检测)技术对输入语音信号进行有效语音片段的开始点和结束点的检测,可以将有效的语音段截取出来,针对性地对语音信号进行分析处理,获取更加准确的唤醒结果。
101.有效语音片段检测方案往往是通过语音信号的能量(音频强度值)与语音信号的过零率来综合判断语音段的开始点和结束点。如,对一帧语音信号(如32毫秒)进行计算,当计算得到的音频强度值大于预设强度阈值,同时过零率小于预设过零率阈值,则认为该语音帧处于有效语音段。
102.然而,在实际应用中,利用上述方法进行有效语音片段的检测,某些情况下(尤其安静环境下)容易过早地判断一段语音的结束,导致将一个有效语音段分割成若干段。
103.如图4所示,该图展示了一段完整语音被截成两段的情况。图中t0至t32代表系统在每个时刻获取的语音段,比如t0时刻,代表第0到31ms的语音段(一个语音数据帧),t1时刻,代表第32到63ms的语音段。在截取有效语音片段时,先对语音段进行vad判断,判断结果为1表示该语音帧为有效帧,否则为无效帧。
104.通过当前时刻t(n)与上一时刻t(n-1),来判断语音段的开始与结束。
105.如,在t4时刻vad结果为1,t3时刻vad结果为0,这是一个从0到1的变化,则认为是语音段开始的标志。
106.如,在t18时刻vad结果为0,t17时刻vad结果为1,这是一个从1到0的变化,则认为是语音段结束的标志。
107.这样,就可以通过vad结果的变化来判断出有效语音段的起始和结束。
108.采用上述现有技术进行有效语音段截取,由于在t18、t19两帧语音的vad检测结果为无效语音,使得整体的一段语音被分割成了两段(t4-t17以及t20-t26),语音唤醒模型则会分别对两段语音进行分析,比如原来的“小美小美”被截断为“小美小”和“美”,影响后续的唤醒词判断和最终获取的唤醒结果的准确性。
109.本技术实施例的目的在于解决进行有效语音片段检测过程中一段完整语音容易被分割的问题,在不影响整个系统的实时性的前提下,通过增加语音段结束的判断条件,提升有效语音片段截取的鲁棒性,进而提升唤醒效果。
110.本技术实施例提供的语音数据处理方法,对语音段的结束条件加以约束,通过时刻t(n)、时刻t(n-t)与时刻t(n-t-1)来判断语音段的结束(本实施例t取3)。
111.语音段结束需要满足三个条件:
112.1、当前时刻t(n)的vad结果为0;
113.2、时刻t(n-3)的vad结果为0;
114.3、时刻t(n-4)的vad结果为1。
115.在本技术实施例中,vad结果为0代表语音有效性检测结果为无效帧,vad结果为1代表语音有效性检测结果为有效帧,在其他实施例中也可以采用vad之外的其他语音有效性检测方法,也可以采用0和1之外的其他有效性表示方式。
116.如图5所示,t4时刻vad结果为1,t3时刻vad结果为0,则当前语音段为开始状态,将该帧数据送到唤醒词判断模块;
117.……
118.t18时刻vad结果为0,t15时刻vad结果为1,不满足条件2,则当前语音段为活跃状态,将该帧数据送到唤醒词判断模块;
119.t19时刻vad结果为0,t16时刻vad结果为1,不满足条件2,则当前语音段为活跃状态,将该帧数据送到唤醒词判断模块;
120.t20时刻vad结果为1,不满足条件1,则当前语音段为活跃状态,将该帧数据送到唤醒词判断模块;
121.……
122.t30时刻vad结果为0,t27时刻vad结果为0,t26时刻vad结果为1,满足3个条件,则当前语音段为结束状态,舍弃该帧数据;
123.t31时刻vad结果为0,t28时刻vad结果为0,t27时刻vad结果为0,不满足条件3,则当前语音段为非活跃状态,舍弃该帧数据。
124.由上可知,本次截取的有效语音片段为t4-t29对应的语音帧。通过对结束条件加以约束,语音分析模块(唤醒词判断模块)就能对t4到t29时刻的整体数据进行分析,而避免产生之前的将一段完整语音截成两段的情况。
125.综合以上操作,我们所做的优化可以归纳为:
126.设当前时刻处理的语音段为t(n),通过vad进行分析后,t(n)=0表示该段语音为无效语音,t(n)=1表示该段语音为有效语音,则对应的伪代码可以为:
[0127][0128]
与现有技术相比,通过实施本技术实施例能够进行有效语音片段检测的基础上,提升有效语音片段截取的鲁棒性,进而提升后续处理的准确性。这样的优势来源于,在进行语音有效性检测的基础上,通过加入后处理逻辑,对目标语音段截取的结束条件加以约束,从而避免轻易的将语音段截断,能够保持语音段的完整性。
[0129]
另外需要说明的是,本技术实施例的语音数据处理方法无额外时延及计算量引入,即能够在不产生帧延时的情况下完成语音段结束的约束,从而不会影响整个系统的实时性。这样的优势来源于,以增加语音段尾部数据的代价换取不产生帧延时,因为实时性对于系统而言更重要。
[0130]
参考图6,图6是本技术实施例提供的语音数据处理装置的模块示意图,本技术实施例提供的语音数据处理装置,包括:
[0131]
获取模块1,用于基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;
[0132]
确定模块2,用于基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;
[0133]
其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。
[0134]
在一个实施例中,所述第一历史时刻与所述当前时刻之间相隔有至少一时刻。
[0135]
在一个实施例中,所述确定模块2具体用于:
[0136]
基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,获取所述第一历史时刻与所述当前时刻之间的至少一
时刻对应的至少一语音有效性检测结果;
[0137]
基于所述至少一语音有效性检测结果确定与所述至少一时刻对应的所有语音数据帧均为无效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点。
[0138]
在一个实施例中,所述语音数据处理装置还包括起始确定模块,其用于:
[0139]
基于目标时刻的语音有效性检测结果确定与所述目标时刻对应的语音数据帧为有效帧,并获取所述原始语音段的第三历史时刻的语音有效性检测结果;
[0140]
基于所述第三历史时刻的语音有效性检测结果确定与所述第三历史时刻对应的语音数据帧为无效帧,将与所述目标时刻对应的语音数据帧确定为所述目标语音片段的起始端点;
[0141]
其中,所述第三历史时刻为所述目标时刻的前一时刻。
[0142]
在一个实施例中,所述语音数据处理装置还包括截取模块,其用于:
[0143]
基于所述起始端点和所述截断端点从所述原始语音段中截取得到所述目标语音片段。
[0144]
在一个实施例中,所述语音数据处理装置还包括检测模块,其用于:
[0145]
确定所述原始语音段中每一语音数据帧的音频强度值和过零率;
[0146]
确定所述语音数据帧的音频强度值大于预设强度阈值,且所述语音数据帧的过零率小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为有效帧标记;
[0147]
确定所述语音数据帧的音频强度值不大于预设强度阈值,或所述语音数据帧的过零率不小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为无效帧标记。
[0148]
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器310可以调用存储器730中的逻辑指令,以执行如下方法:
[0149]
s1、基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;
[0150]
s2、基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;
[0151]
其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。
[0152]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0153]
另一方面,本技术实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
[0154]
s1、基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;
[0155]
s2、基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;
[0156]
其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。
[0157]
又一方面,本技术实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
[0158]
s1、基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;
[0159]
s2、基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;
[0160]
其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。
[0161]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0162]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0163]
最后应说明的是,以上实施方式仅用于说明本技术,而非对本技术的限制。尽管参
照实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,对本技术的技术方案进行各种组合、修改或者等同替换,都不脱离本技术技术方案的精神和范围,均应涵盖在本技术的权利要求范围中。

技术特征:


1.一种语音数据处理方法,其特征在于,包括:基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。2.根据权利要求1所述的语音数据处理方法,其特征在于,所述第一历史时刻与所述当前时刻之间相隔有至少一时刻。3.根据权利要求2所述的语音数据处理方法,其特征在于,所述基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点,包括:基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,获取所述第一历史时刻与所述当前时刻之间的至少一时刻对应的至少一语音有效性检测结果;基于所述至少一语音有效性检测结果确定与所述至少一时刻对应的所有语音数据帧均为无效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点。4.根据权利要求1所述的语音数据处理方法,其特征在于,在所述基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果之前,还包括:基于目标时刻的语音有效性检测结果确定与所述目标时刻对应的语音数据帧为有效帧,并获取所述原始语音段的第三历史时刻的语音有效性检测结果;基于所述第三历史时刻的语音有效性检测结果确定与所述第三历史时刻对应的语音数据帧为无效帧,将与所述目标时刻对应的语音数据帧确定为所述目标语音片段的起始端点;其中,所述第三历史时刻为所述目标时刻的前一时刻。5.根据权利要求4所述的语音数据处理方法,其特征在于,在所述基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点之后,还包括:基于所述起始端点和所述截断端点从所述原始语音段中截取得到所述目标语音片段。6.根据权利要求1所述的语音数据处理方法,其特征在于,所述第一历史时刻与所述当
前时刻之间相隔的时刻数量为基于所述原始语音段的长度进行确定得到;或者,所述第一历史时刻与所述当前时刻之间相隔的时刻数量为基于系统当前场景模式进行确定得到。7.根据权利要求1-6任一项所述的语音数据处理方法,其特征在于,在所述基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果之前,还包括:确定所述原始语音段中每一语音数据帧的音频强度值和过零率;确定所述语音数据帧的音频强度值大于预设强度阈值,且所述语音数据帧的过零率小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为有效帧标记;确定所述语音数据帧的音频强度值不大于预设强度阈值,或所述语音数据帧的过零率不小于预设过零率阈值,将所述语音数据帧的语音有效性检测结果确定为无效帧标记。8.一种语音数据处理装置,其特征在于,包括:获取模块,用于基于原始语音段的当前时刻的语音有效性检测结果确定与所述当前时刻对应的语音数据帧为无效帧,获取所述原始语音段的第一历史时刻的语音有效性检测结果和所述原始语音段的第二历史时刻的语音有效性检测结果;确定模块,用于基于所述第一历史时刻的语音有效性检测结果确定与所述第一历史时刻对应的语音数据帧为无效帧,且基于所述第二历史时刻的语音有效性检测结果确定与所述第二历史时刻对应的语音数据帧为有效帧,将与所述第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点;其中,所述第一历史时刻为所述当前时刻之前的某一时刻,所述第二历史时刻为所述第一历史时刻的前一时刻;所述目标语音片段为所述原始语音段中的其中一语音段。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音数据处理方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音数据处理方法。11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音数据处理方法。

技术总结


本申请涉及语音数据处理技术领域,提供一种语音数据处理方法、装置、电子设备和存储介质,该方法包括:基于当前时刻的语音有效性检测结果确定与当前时刻对应的语音数据帧为无效帧,获取第一历史时刻和第二历史时刻的语音有效性检测结果;基于第一历史时刻的语音有效性检测结果确定对应的语音数据帧为无效帧,且基于第二历史时刻的语音有效性检测结果确定对应的语音数据帧为有效帧,将与第一历史时刻对应的语音数据帧确定为目标语音片段的截断端点。本申请通过在有效语音段截取的过程中加入后处理逻辑,对截取有效语音段的结束条件加以约束,从而防止完整语音段由于中途存在短时静音而被误分割为多段,提高有效语音片段截取的鲁棒性。的鲁棒性。的鲁棒性。


技术研发人员:

赵东宇 夏立超 刘宁 张法朝 奉飞飞 唐剑

受保护的技术使用者:

美的集团股份有限公司

技术研发日:

2022.04.26

技术公布日:

2022/7/25

本文发布于:2024-09-22 18:23:48,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/16839.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   所述   时刻   历史
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议