语音端点检测方法、装置、设备及计算机可读存储介质与流程

1.本技术涉及语音处理技术领域，尤其涉及一种语音端点检测方法、装置、设备及计算机可读存储介质。

背景技术：

2.语音端点检测技术在语音信号处理中有着非常重要的作用，广泛应用于语音增强、通话降噪、语音识别等领域。语音端点检测技术也被称为vad(voice activity detection，语音活性检测)，是指从一段语音信号(纯净或带噪)中检测出语音片段与非语音片段。在现有技术中通常是采用vad分类模型对语音信号进行识别，识别出语音信号中的语音帧和非语音帧，从而确定语音信号中的语音片段与非语音片段。但是现有技术要实现较好的性能，需要vad分类模型进行大量的运算操作，并且vad分类模型也很大。由此现有技术中vad分类模型复杂程度过高而导致语音端点检测的效率较低。

技术实现要素：

3.本技术的主要目的在于提供一种语音端点检测方法、电子设备及计算机可读存储介质，旨在解决现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。
4.为实现上述目的，本技术提供一种语音端点检测方法，应用于语音端点检测设备，语音端点检测方法包括：
5.获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；
6.获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；
7.若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
8.可选地，所述判断各所述待测音帧是否满足预设帧内一致性条件的步骤之后，所述的方法还包括：
9.若所述待测音帧不满足预设帧内一致性条件，则对所述待测音帧进行帧间连续性检测；
10.若所述待测音帧通过帧间连续性检测，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
11.可选地，所述对所述待测音帧进行帧间连续性检测的步骤包括：
12.判断所述待测音帧的前一帧音帧是否为语音帧；
13.若所述待测音帧的前一帧音帧为语音帧，则判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值，其中所述第二预设方差阈值小于第一预设方差阈值；
14.若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。
15.可选地，所述判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值的步骤之后包括：
16.若所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则获取所述待测音帧之前的预设帧数的音帧内的语音帧占比；
17.判断所述语音帧占比是否超过预设占比阈值；
18.若所述语音帧占比超过预设占比阈值，则判定所述待测音帧通过帧间连续性检测。
19.可选地，所述根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件的步骤包括：
20.根据所述振幅信息，确定各所述待测音帧的帧内振幅方差；
21.判断所述帧内振幅方差是否大于第一预设方差阈值；
22.若所述帧内振幅方差大于第一预设方差阈值，则判定所述待测音帧满足预设帧内一致性条件。
23.可选地，所述语音端点检测方法还包括：
24.在所述待测音帧不为语音帧时，获取所述待测音帧的当前噪声能量信息；
25.根据所述当前噪声能量信息，计算得出所述待测音帧的当前信噪比；
26.根据所述当前信噪比，确定新的第一预设方差阈值，其中所述信噪比与所述第一预设方差阈值呈负相关。
27.可选地，所述获取待测语音信息的步骤包括：
28.获取原始语音信号，并对所述原始语音信号进行预设分帧处理，得到至少一个语音信号帧；
29.将各所述语音信号帧进行加窗短时傅里叶变换，得到至少一个待测音帧，并将各所述待测音帧作为待测语音信息。
30.此外，为实现上述目的，本技术还提供一种语音端点检测装置，语音端点检测装置应用于语音端点检测设备，语音端点检测装置包括：
31.预处理模块，用于获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；
32.一致性判断模块，用于获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；
33.端点确定模块，用于若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
34.可选地，语音端点检测装置还包括：连续性判断模块，用于
35.若所述待测音帧不满足预设帧内一致性条件，则对所述待测音帧进行帧间连续性检测；
36.若所述待测音帧通过帧间连续性检测，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
37.可选地，连续性判断模块，还用于
38.判断所述待测音帧的前一帧音帧是否为语音帧；
39.若所述待测音帧的前一帧音帧为语音帧，则判断所述待测音帧的帧内振幅方差是
否大于第二预设方差阈值，其中所述第二预设方差阈值小于第一预设方差阈值；
40.若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。
41.可选地，连续性判断模块，还用于
42.若所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则获取所述待测音帧之前的预设帧数的音帧内的语音帧占比；
43.判断所述语音帧占比是否超过预设占比阈值；
44.若所述语音帧占比超过预设占比阈值，则判定所述待测音帧通过帧间连续性检测。
45.可选地，一致性判断模块，还用于
46.根据所述振幅信息，确定各所述待测音帧的帧内振幅方差；
47.判断所述帧内振幅方差是否大于第一预设方差阈值；
48.若所述帧内振幅方差大于第一预设方差阈值，则判定所述待测音帧满足预设帧内一致性条件。
49.可选地，语音端点检测装置还包括：阈值更新模块，用于
50.在所述待测音帧不为语音帧时，获取所述待测音帧的当前噪声能量信息；
51.根据所述当前噪声能量信息，计算得出所述待测音帧的当前信噪比；
52.根据所述当前信噪比，确定新的第一预设方差阈值，其中所述信噪比与所述第一预设方差阈值呈负相关。
53.可选地，预处理模块，还用于
54.获取原始语音信号，并对所述原始语音信号进行预设分帧处理，得到至少一个语音信号帧；
55.将各所述语音信号帧进行加窗短时傅里叶变换，得到至少一个待测音帧，并将各所述待测音帧作为待测语音信息。
56.本技术还提供一种电子设备，电子设备包括：存储器、处理器以及存储在存储器上并可在处理器上运行的语音端点检测方法的程序，语音端点检测方法的程序被处理器执行时可实现如上述的语音端点检测方法的步骤。
57.本技术还提供一种计算机可读存储介质，计算机可读存储介质上存储有实现语音端点检测方法的程序，语音端点检测方法的程序被处理器执行时实现如上述的语音端点检测方法的步骤。
58.本技术还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述的语音端点检测方法的步骤。
59.本技术提供了一种语音端点检测方法、装置、设备及计算机可读存储介质，通过获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；若所述待测音帧满足预设帧内一致性条件，则说明待测音帧的帧内一致性较高，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。本技术中可以通过待测音帧的帧内一致性，快速判定该待测音帧是否为语音帧，进而确定对应语音段的起点与终点，实现语音信号的语音端点检测，并且相对于传统采用vad分类模型的方式，本技术运
算量较低，也无需复杂的建模，可以快速部署到嵌入式实时应用平台，解决了现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。
附图说明
60.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
61.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
62.图1为本技术语音端点检测方法第一实施例的流程示意图；
63.图2为本发明涉及的预设分帧操作的示意图；
64.图3为本技术语音端点检测方法第二实施例的流程示意图；
65.图4为本技术语音端点检测方法第三实施例的流程示意图；
66.图5为本技术语音端点检测方法中试验语音信号的示意图；
67.图6为本技术语音端点检测方法中安静场景下试验语音信号的示意图；
68.图7为本技术语音端点检测方法中信噪比为20db场景下试验语音信号的示意图；
69.图8为本技术语音端点检测方法中信噪比为10db场景下试验语音信号的示意图；
70.图9为本技术语音端点检测方法中信噪比为5db场景下试验语音信号的示意图；
71.图10为本技术实施例中语音端点检测方法涉及的硬件运行环境的设备结构示意图。
72.本技术目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
73.为使本技术的上述目的、特征和优点能够更加明显易懂，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本技术保护的范围。
74.实施例一
75.本技术实施例提供一种语音端点检测方法，在本技术语音端点检测方法的第一实施例中，参照图1，语音端点检测方法包括：
76.步骤s10，获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；
77.步骤s20，获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；
78.步骤s30，若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
79.在本实施例中，需要说明的是，语音端点检测方法可以应用于智能手机、耳机、计算机、服务器等存在于语音端点检测需求的任一设备。
80.另外，需要说明的是，根据观察和实验仿真，语音信号的帧内一致性较低(也即帧
内的振幅值离散程度较高，如帧内振幅方差比较大)，而平稳噪声信号的帧内一致性较高(也即帧内的振幅值离散程度较低，如帧内振幅方差比较小)，因此可以利用帧内的振幅值的方差、标准差、平均差等表征数据离散程度的指标用于区分语音帧和非语音帧。
81.示例性的，预设帧内一致性条件可以包括帧内振幅方差高于第一预设方差阈值，所述第一预设方差阈值可以是根据实验经验选取的用于判断帧内振幅一致性的阈值。所述待测语音信息可以是待检测的原始语音信号，也可以是将原始语音信号进行分帧、短时加窗傅里叶变换等预处理后得到的语音信号，所述待测语音信息中至少包括一个待测音帧，以便于后期对所述待测语音信号的分析。步骤s10至步骤s40包括：获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧，然后再获取各所述待测音帧的振幅信息，其中所述振幅信息可以包括各所述待测音帧内各时间点对应的振幅值。从而可以根据各所述待测音帧内各时间点对应的振幅值，计算得到各所述待测音帧的帧内振幅方差，进而根据各所述待测音帧的帧内振幅方差，判断所述待测音帧的帧内振幅方差是否高于第一预设方差阈值。若所述待测音帧的帧内振幅方差高于第一预设方差阈值，说明该待测音帧满足预设帧内一致性条件，则可以判定该待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。若所述待测音帧的帧内振幅方差不高于第一预设方差阈值，说明该待测音帧不满足预设帧内一致性条件，则可以判定该待测音帧为非语音帧。其中，当语音帧的上一音帧为非语音帧，则该语音帧为语音段的起点；当语音帧的下一音帧为非语音帧，则该语音帧为语音段的终点。从而实现了对于语音信号的语音端点检测。
82.在另一种可实施的方式中，预设帧内一致性条件可以包括帧内振幅平均差高于第一预设平均差阈值，所述第一预设平均差阈值可以是根据实验经验选取的用于判断帧内振幅一致性的阈值。步骤s10至步骤s40包括：获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧，然后再获取各所述待测音帧的振幅信息，其中所述振幅信息可以包括各所述待测音帧内各时间点对应的振幅值。从而可以根据各所述待测音帧内各时间点对应的振幅值，计算得出各所述待测音帧的帧内振幅平均差，进而根据各所述待测音帧的帧内振幅平均差，判断所述待测音帧的帧内振幅平均差是否高于第一预设平均差阈值。若所述待测音帧的帧内振幅平均差高于第一预设平均差阈值，说明该待测音帧满足预设帧内一致性条件，则可以判定该待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。若所述待测音帧的帧内振幅平均差不高于第一预设平均差阈值，说明该待测音帧不满足预设帧内一致性条件，则可以判定该待测音帧为非语音帧。其中，当语音帧的上一音帧为非语音帧，则该语音帧为语音段的起点；当语音帧的下一音帧为非语音帧，则该语音帧为语音段的终点。从而实现了对于语音信号的语音端点检测。
83.进一步地，可以理解的是用于判断所述待测音帧是否满足预设帧内一致性条件的指标并不限于帧内振幅方差、帧内振幅平均差，还可以是极差、四分位差、标准差、变异系数等指标。可以根据具体地使用需求设置对应的预设帧内一致性条件。
84.其中，在步骤s10中，获取待测语音信息的步骤包括：
85.步骤s11，获取原始语音信号，并对所述原始语音信号进行预设分帧处理，得到至少一个语音信号帧；
86.步骤s12，将各所述语音信号帧进行加窗短时傅里叶变换，得到至少一个待测音帧，并将各所述待测音帧作为待测语音信息。
87.需要说明的是，一段完整的语音信号通常是非稳态的，即其特征基本上是随时间变化的，然而由于人的口腔与喉部发声的固有特性，在一个短时间范围内，一般其特征基本保持不变，即语音信号是短时平稳的。所以在对语音信号进行分析时需要一帧一帧地进行处理。
88.在一可选实施例中，可参照图2，图2为本发明涉及的预设分帧操作的示意图。可以根据具体需求设置待测语音信息中各待测音帧的帧长(即每帧时长)和重叠长度(即相邻两帧之间重叠的时长)，帧移为帧长与重叠长度之差用于表征相邻两帧之间的移动时长。其中所述帧长可以为7.5ms～15ms范围内，当然也可以在更大的范围内进行选取。从而在获得原始语音信号后可以按照预设的帧长和重叠长度对原始语音信号进行分帧处理，得到至少一个语音信号帧。然后再将各所述语音信号帧进行加窗短时傅里叶变换，从而将各所述语音信号从时域信号变换到频域信号，得到至少一个待测音帧，并将各所述待测音帧作为待测语音信息。
89.其中，在步骤s20中，根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件的步骤包括：
90.步骤s21，根据所述振幅信息，确定各所述待测音帧的帧内振幅方差；
91.步骤s22，判断所述帧内振幅方差是否大于第一预设方差阈值；
92.步骤s23，若所述帧内振幅方差大于第一预设方差阈值，则判定所述待测音帧满足预设帧内一致性条件。
93.示例性的，需要说明的是，可以将帧内振幅方差作为判断所述待测音帧的帧内一致性的指标，即预设帧内一致性条件可以为帧内振幅方差高于第一预设方差阈值，所述第一预设方差阈值可以是根据实验经验选取的用于判断帧内振幅一致性的阈值。其中所述振幅信息可以包括各所述待测音帧内各时间点对应的振幅值。
94.步骤s21至步骤s23包括：根据所述振幅信息中各所述待测音帧内各时间点对应的振幅值，计算得出各所述待测音帧的帧内振幅方差。然后判断所述帧内振幅方差是否大于第一预设方差阈值；若所述帧内振幅方差大于第一预设方差阈值，则判定所述待测音帧满足预设帧内一致性条件。若所述帧内振幅方差不大于第一预设方差阈值，则判定所述待测音帧不满足预设帧内一致性条件。其中，所述振幅信息可以包括所述待测音帧的时长内的多个振幅值。所述待测音帧的帧内振幅方差的计算公式如下所示：
[0095][0096]
式中，σ2为所述帧内振幅方差，xi为待测音帧内各时间点对应的振幅值，μ为待测音帧振幅值的平均值，n为待测音帧的振幅值的数量。
[0097]
本技术第一实施例提供了一种语音端点检测方法，也即获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；若所述待测音帧满足预设帧内一致性条件，则说明待测音帧的帧内一致性较高，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。本技术中可以通过待测音帧的帧内一致性，快速判定该待测音帧是否为语音帧，进而确定对应语音段的起点与终点，实现语音信号的语音端点检测，并且相对于传统采用vad分类模型的方式，本技术运算量较低，也无需复杂
的建模，可以快速部署到嵌入式实时应用平台，解决了现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。
[0098]
实施例二
[0099]
进一步地，参照图3，基于本技术第一实施例，在本技术另一实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。在步骤s20中，判断各所述待测音帧是否满足预设帧内一致性条件的步骤之后，所述的方法还包括：
[0100]
步骤s40，若所述待测音帧不满足预设帧内一致性条件，则对所述待测音帧进行帧间连续性检测；
[0101]
步骤s41，若所述待测音帧通过帧间连续性检测，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
[0102]
需要说明的是，如果仅依赖单一音帧的帧内一致性进行判别，则可能出现误判，导致语音帧的不连续性和频繁跳变。而根据统计观察，语音段通常会持续一定时间，也就是会连续若干帧，这个特点可以称为语音连续性先验。因此，除了考虑单一音帧的帧内一致性之外，还可以利用各所述待测音帧的时域帧间语音连续性作为补充判据，从而进一步提高对于语音信号的语音端点检测的准确性。帧间连续性检测可以是所述待测音帧的前一帧音帧为语音帧的情况下，对所述待测音帧的帧内振幅方差和/或所述待测音帧之前预设帧数的音帧内语音帧的占比的进行检测。
[0103]
示例性地，在所述待测音帧不满足预设帧内一致性条件的情况下，可以判断所述待测音帧的前一帧音帧是否为语音帧。若所述待测音帧的前一帧音帧为语音帧，则可以判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值，其中所述第二预设方差阈值小于第一预设方差阈值。示例性地，所述第二预设方差阈值可以是第一预设方差阈值的80％、85％、90％等。若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。在待测音帧的前一帧音帧为语音帧的前提下，若待测音帧的帧内振幅方差略低于第一预设方差阈值，说明该待测音帧通过了预设帧间连续性，则可以判定所述待测音帧为语音帧。并根据所述语音帧确定对应语音段的起点和终点。其中，当语音帧的上一音帧为非语音帧，则该语音帧为语音段的起点；当语音帧的下一音帧为非语音帧，则该语音帧为语音段的终点。当然，在所述待测音帧不满足预设帧内一致性条件的情况下，所述待测音帧的前一帧音帧也不为语音帧，则可以判定所述待测音帧不为语音帧。在所述待测音帧不满足预设帧内一致性条件，且所述待测音帧的前一帧音帧为语音帧的情况下，所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则可以判定所述待测音帧不为语音帧。
[0104]
在另一实施例中，在所述待测音帧不满足预设帧内一致性条件的情况下，可以判断所述待测音帧的前一帧音帧是否为语音帧。若所述待测音帧的前一帧音帧为语音帧，则可以获取所述待测音帧之前的预设帧数(例如待测音帧之前的20真帧、30帧、50帧)的音帧内的语音帧的占比(即语音帧占比)。然后判断所述语音帧占比是否超过预设占比阈值(例如30％、40％、50％等)；若所述语音帧占比超过预设占比阈值，则可以判定所述待测音帧通过帧间连续性检测。在待测音帧的前一帧音帧为语音帧的前提下，若所述待测音帧之前的预设帧数的音帧内的语音帧占比超过预设占比阈值，说明该待测音帧通过了预设帧间连续性，则可以判定所述待测音帧为语音帧。并根据所述语音帧确定对应语音段的起点和终点。
其中，当语音帧的上一音帧为非语音帧，则该语音帧为语音段的起点；当语音帧的下一音帧为非语音帧，则该语音帧为语音段的终点。当然，在所述语音帧占比不超过预设占比阈值的情况下，则说明可以判定所述待测音帧不为语音帧。
[0105]
其中，步骤s40中，对所述待测音帧进行帧间连续性检测的步骤包括：
[0106]
步骤a10，判断所述待测音帧的前一帧音帧是否为语音帧；
[0107]
步骤a20，若所述待测音帧的前一帧音帧为语音帧，则判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值，其中所述第二预设方差阈值小于第一预设方差阈值；
[0108]
步骤a30，若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。
[0109]
示例性地，所述第二预设方差阈值可以是第一预设方差阈值的85％。
[0110]
本实施例可以通过判断所述待测音帧的前一帧音帧是否为语音帧。若所述待测音帧的前一帧音帧为语音帧，则可以判断所述待测音帧的帧内振幅方差是否大于第一预设方差阈值的85％(即第二预设方差阈值)。若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。在所述待测音帧不满足预设帧内一致性条件的情况下，若所述待测音帧的前一帧音帧也不为语音帧，则可以判定所述待测音帧通过帧间连续性检测。在所述待测音帧不满足预设帧内一致性条件，且所述待测音帧的前一帧音帧为语音帧的情况下，若所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则可以判定所述待测音帧通过帧间连续性检测。
[0111]
本实施例中，在待测音帧的前一帧音帧为语音帧的前提下，若待测音帧的帧内振幅方差略低于第一预设方差阈值，说明该待测音帧通过了预设帧间连续性，则可以判定所述待测音帧为语音帧。
[0112]
其中步骤a20中，判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值的步骤之后包括：
[0113]
步骤b10，若所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则获取所述待测音帧之前的预设帧数的音帧内的语音帧占比；
[0114]
步骤b20，判断所述语音帧占比是否超过预设占比阈值；
[0115]
步骤b30，若所述语音帧占比超过预设占比阈值，则判定所述待测音帧通过帧间连续性检测。
[0116]
示例性的，所述预设帧数为20帧，预设占比阈值为1/3。
[0117]
本实施例可以在所述待测音帧的帧内振幅方差不大于第二预设方差阈值时，获取所述待测音帧的前20帧音帧中语音帧在该20帧的占比(即语音帧占比)。然后判断所述语音帧占比是否超过1/3；若所述语音帧占比超过1/3，则可以判定所述待测音帧通过帧间连续性检测。在所述语音帧占比不超过预设占比阈值的情况下，说明所述待测音帧通过帧间连续性检测，可以判定所述待测音帧不为语音帧。
[0118]
本实施例中，在待测音帧的前一帧音帧为语音帧且所述待测音帧的帧内振幅方差不大于第二预设方差阈值的情况下，若所述待测音帧之前的预设帧数的音帧内的语音帧占比超过预设占比阈值，说明该待测音帧通过了预设帧间连续性，则可以判定所述待测音帧为语音帧。
[0119]
在本技术的第二实施例中，在待测音帧的前一帧音帧为语音帧的前提下，若待测
音帧的帧内振幅方差大于第二预设方差阈值和/或所述待测音帧之前的预设帧数的音帧内的语音帧占比超过预设占比阈值，说明所述待测音帧通过帧间连续性检测，则可以判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。因此，本实施例除了考虑单一音帧的帧内一致性之外，还可以利用各所述待测音帧的时域帧间语音连续性作为补充判据，从而进一步提高对于语音信号的语音端点检测的准确性。
[0120]
实施例三
[0121]
进一步地，参照图4，基于本技术第一实施例，在本技术另一实施例中，与上述实施例一相同或相似的内容，可以参考上文介绍，后续不再赘述。所述语音端点检测方法还包括：
[0122]
步骤c10，在所述待测音帧不为语音帧时，获取所述待测音帧的当前噪声能量信息；
[0123]
步骤c20，根据所述当前噪声能量信息，计算得出所述待测音帧的当前信噪比；
[0124]
步骤c30，根据所述当前信噪比，确定新的第一预设方差阈值，其中所述信噪比与所述第一预设方差阈值呈负相关。
[0125]
需要说明的是，本技术第一实施例中对待测音帧的帧内一致性进行判定需要设置第一预设方差阈值。而传统方法设置阈值通常是根据输入信号的不同手动调整阈值，以达到最好的效果，但手动设置阈值显然不能兼顾不同的场景，对于安静场景，非语音段中音帧的帧内一致性较高，即帧内振幅方差接近于0，而语音段中音帧的帧内一致性较低，即帧内振幅方差较大。当时在噪声场景下，非语音段中音帧的帧内一致性会有所下降，即帧内振幅方差有所增加。因此，若所述第一预设方差阈值若是固定不变，则难以适应不同场景下的语音端点检测工作，从而降低了语音端点检测的准确性。所以第一预设方差阈值不能固定不变，而是需要随噪声的大小动态调整，以贴合不同噪音下的应用场景，从而提高对于语音信号的语音端点检测的准确性。
[0126]
示例性的，本实施例在所述待测音帧不为语音帧时，获取所述待测音帧的当前噪声能量信息。其中所述当前噪音能量信息可以包括当前噪音估计值。
[0127]
其中所述当前噪音估计值的计算公式如下所示：
[0128]en
＝λk+λ0[0129]
式中，λk为噪音估计迭代值，λ0为噪声估计初始值，其中，所述噪声估计初始值一般设置为一个较小常数值，避免在计算信噪比的过程中出现除0的情况。在所述待测音帧为非语音帧时，进行噪音估计迭代值λk的更新，则可以避免语音帧中的语音信号对噪声估计值的计算结果的干扰，影响了噪音估计值的准确性。
[0130]
其中所述λk的计算公式如下所示：
[0131]
λk＝(1/(1+c
p
·
snr))
·
|xk|2+(c
p
·
snr/(1+c
p
·
snr))
·
λk-1
[0132]
式中，xk表示待测音帧的傅里叶频域数据(如待测音帧内各时间点对应的振幅值)，λk为噪音估计迭代值，λk为前一帧噪音估计迭代值，snr为根据实验经验选取的预设信噪比，c
p
为根据实验经验选取的常系数。
[0133]
然后，再根据所述当前噪声能量信息中的当前噪音估计值，计算得出所述待测音帧的当前信噪比。所述当前信噪比的计算公式如下所示：
[0134][0135]
式中，snr为当前信噪比。
[0136]
由于在噪音场景下，非语音段中音帧的帧内一致性会有所下降，即帧内振幅方差有所增加。因此信噪比越小(即噪音越强)，则用于判断帧内一致性的第一预设方差阈值也需要随之增大。反之，信噪比越大(即噪音越弱)，则用于判断帧内一致性的第一预设方差阈值也需要随之减小，即所述信噪比与所述第一预设方差阈值呈负相关。本实施例可以预先设置信噪比与方差阈值的映射表，从而在获得所述当前信噪比时，可以通过查询该映射表，确定与所述当前信噪比对应的方差阈值，并将该方差阈值作为新的第一预设方差阈值。
[0137]
当然也可以设置信噪比与方差阈值的计算关系式，示例性地，新的所述第一预设方差阈值的计算公式如下所示：
[0138]
th＝k1/(k2+snr)
[0139]
式中，th为第一预设方差阈值，k1和k2为根据实验经验值选取的常量，snr为当前信噪比。
[0140]
本实施例中，通过在所述待测音帧不为语音帧时，获取当前噪声能量信息，并根据所述当前噪声能量信息，计算得出所述待测音帧的当前信噪比。然后根据所述当前信噪比，确定新的第一预设方差阈值，其中所述信噪比与所述第一预设方差阈值呈负相关。从而本实施例通过随噪声的大小动态调整所述第一预设方差阈值，以贴合不同噪音下的应用场景，从而提高对于语音信号的语音端点检测的准确性。
[0141]
在实际应用中，选取一随机语音(即试验语音信号)，如图5所示，图5为本技术语音端点检测方法中试验语音信号的示意图。然后在不同场景下进行若干组仿真测试，参照图6至图9，图6为本技术语音端点检测方法中安静场景下试验语音信号的示意图；图7为本技术语音端点检测方法中信噪比为20db场景下试验语音信号的示意图；图8为本技术语音端点检测方法中信噪比为10db场景下试验语音信号的示意图；图9为本技术语音端点检测方法中信噪比为5db场景下试验语音信号的示意图。图5至图9中坐标系的横轴为时间，纵轴为振幅。图6至图9中，黑曲线为安静场景下/加噪场景下的试验语音信号，白曲线为安静场景下/加噪场景下的试验语音信号的帧内振幅方差(为显示方便，值进行了一定放大)，黑矩形的上边为第一预设方差阈值，黑矩形与横轴的端点分别为语音段的起点与终点。图6至图9的仿真测试的实验结果表明，本技术的语音端点检测方法无论在安静场景还是噪声场景均能较为准确识别出语音段和非语音段，具有不错的效果。
[0142]
实施例四
[0143]
本技术实施例还提供一种语音端点检测装置，语音端点检测装置应用于语音端点检测设备，语音端点检测装置包括：
[0144]
预处理模块，用于获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；
[0145]
一致性判断模块，用于获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；
[0146]
端点确定模块，用于若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
[0147]
可选地，语音端点检测装置还包括：连续性判断模块，用于
[0148]
若所述待测音帧不满足预设帧内一致性条件，则对所述待测音帧进行帧间连续性检测；
[0149]
若所述待测音帧通过帧间连续性检测，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
[0150]
可选地，连续性判断模块，还用于
[0151]
判断所述待测音帧的前一帧音帧是否为语音帧；
[0152]
若所述待测音帧的前一帧音帧为语音帧，则判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值，其中所述第二预设方差阈值小于第一预设方差阈值；
[0153]
若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。
[0154]
可选地，连续性判断模块，还用于
[0155]
若所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则获取所述待测音帧之前的预设帧数的音帧内的语音帧占比；
[0156]
判断所述语音帧占比是否超过预设占比阈值；
[0157]
若所述语音帧占比超过预设占比阈值，则判定所述待测音帧通过帧间连续性检测。
[0158]
可选地，一致性判断模块，还用于
[0159]
根据所述振幅信息，确定各所述待测音帧的帧内振幅方差；
[0160]
判断所述帧内振幅方差是否大于第一预设方差阈值；
[0161]
若所述帧内振幅方差大于第一预设方差阈值，则判定所述待测音帧满足预设帧内一致性条件。
[0162]
可选地，语音端点检测装置还包括：阈值更新模块，用于
[0163]
在所述待测音帧不为语音帧时，获取所述待测音帧的当前噪声能量信息；
[0164]
根据所述当前噪声能量信息，计算得出所述待测音帧的当前信噪比；
[0165]
根据所述当前信噪比，确定新的第一预设方差阈值，其中所述信噪比与所述第一预设方差阈值呈负相关。
[0166]
可选地，预处理模块，还用于
[0167]
获取原始语音信号，并对所述原始语音信号进行预设分帧处理，得到至少一个语音信号帧；
[0168]
将各所述语音信号帧进行加窗短时傅里叶变换，得到至少一个待测音帧，并将各所述待测音帧作为待测语音信息。
[0169]
本技术提供的语音端点检测装置，采用上述实施例一或实施例二中的语音端点检测方法，解决了现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。与现有技术相比，本技术实施例提供的语音端点检测装置的有益效果与上述实施例提供的语音端点检测方法的有益效果相同，且该语音端点检测装置中的其他技术特征与上述实施例方法公开的特征相同，在此不做赘述。
[0170]
实施例五
[0171]
本技术实施例提供一种电子设备，电子设备包括：至少一个处理器；以及，与至少
一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例一中的语音端点检测方法。
[0172]
下面参考图3，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0173]
如图3所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)，其可以根据存储在只读存储器(rom)中的程序或者从存储装置加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中，还存储有电子设备操作所需的各种程序和数据。处理装置、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0174]
通常，以下系统可以连接至i/o接口：包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备，但是应理解的是，并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
[0175]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储装置被安装，或者从rom被安装。在该计算机程序被处理装置执行时，执行本公开实施例的方法中限定的上述功能。
[0176]
本技术提供的电子设备，采用上述实施例一或实施例二中的语音端点检测方法，解决了现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。与现有技术相比，本技术实施例提供的电子设备的有益效果与上述实施例一提供的语音端点检测方法的有益效果相同，且该电子设备中的其他技术特征与上述实施例方法公开的特征相同，在此不做赘述。
[0177]
应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0178]
以上仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。
[0179]
实施例六
[0180]
本实施例提供一种计算机可读存储介质，具有存储在其上的计算机可读程序指令，计算机可读程序指令用于执行上述实施例一中的语音端点检测的方法。
[0181]
本技术实施例提供的计算机可读存储介质例如可以是u盘，但不限于电、磁、光、电
磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0182]
上述计算机可读存储介质可以是电子设备中所包含的；也可以是单独存在，而未装配入电子设备中。
[0183]
上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被电子设备执行时，使得电子设备：获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。
[0184]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0185]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0186]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该单元本身的限定。
[0187]
本技术提供的计算机可读存储介质，存储有用于执行上述语音端点检测方法的计算机可读程序指令，解决了现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。与现有技术相比，本技术实施例提供的计算机可读存储介质的有益效果与上述实施例一或实施例二提供的语音端点检测方法的有益效果相同，在此不做赘述。
[0188]
实施例七
[0189]
本技术还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现如上述的语音端点检测方法的步骤。
[0190]
本技术提供的计算机程序产品解决了现有技术中vad分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。与现有技术相比，本技术实施例提供的计算机程序产品的有益效果与上述实施例一或实施例二提供的语音端点检测方法的有益效果相同，在此不做赘述。
[0191]
以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利处理范围内。

技术特征：

1.一种语音端点检测方法，其特征在于，所述语音端点检测方法包括：获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。2.如权利要求1所述语音端点检测方法，其特征在于，所述判断各所述待测音帧是否满足预设帧内一致性条件的步骤之后，所述的方法还包括：若所述待测音帧不满足预设帧内一致性条件，则对所述待测音帧进行帧间连续性检测；若所述待测音帧通过帧间连续性检测，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。3.如权利要求2所述语音端点检测方法，其特征在于，所述对所述待测音帧进行帧间连续性检测的步骤包括：判断所述待测音帧的前一帧音帧是否为语音帧；若所述待测音帧的前一帧音帧为语音帧，则判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值，其中所述第二预设方差阈值小于第一预设方差阈值；若所述待测音帧的帧内振幅方差大于第二预设方差阈值，则判定所述待测音帧通过帧间连续性检测。4.如权利要求3所述语音端点检测方法，其特征在于，所述判断所述待测音帧的帧内振幅方差是否大于第二预设方差阈值的步骤之后包括：若所述待测音帧的帧内振幅方差不大于第二预设方差阈值，则获取所述待测音帧之前的预设帧数的音帧内的语音帧占比；判断所述语音帧占比是否超过预设占比阈值；若所述语音帧占比超过预设占比阈值，则判定所述待测音帧通过帧间连续性检测。5.如权利要求1至4任一项所述语音端点检测方法，其特征在于，所述根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件的步骤包括：根据所述振幅信息，确定各所述待测音帧的帧内振幅方差；判断所述帧内振幅方差是否大于第一预设方差阈值；若所述帧内振幅方差大于第一预设方差阈值，则判定所述待测音帧满足预设帧内一致性条件。6.如权利要求1至4任一项所述语音端点检测方法，其特征在于，所述语音端点检测方法还包括：在所述待测音帧不为语音帧时，获取所述待测音帧的当前噪声能量信息；根据所述当前噪声能量信息，计算得出所述待测音帧的当前信噪比；根据所述当前信噪比，确定新的第一预设方差阈值，其中所述信噪比与所述第一预设方差阈值呈负相关。7.如权利要求1至4任一项所述语音端点检测方法，其特征在于，所述获取待测语音信息的步骤包括：
获取原始语音信号，并对所述原始语音信号进行预设分帧处理，得到至少一个语音信号帧；将各所述语音信号帧进行加窗短时傅里叶变换，得到至少一个待测音帧，并将各所述待测音帧作为待测语音信息。8.一种语音端点检测装置，其特征在于，所述语音端点检测装置应用于语音端点检测设备，所述语音端点检测装置包括：预处理模块，用于获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；一致性判断模块，用于获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；端点确定模块，用于若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的语音端点检测方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有实现语音端点检测方法的程序，所述实现语音端点检测方法的程序被处理器执行以实现如权利要求1至7中任一项所述语音端点检测方法的步骤。

技术总结

本申请公开了一种语音端点检测方法、装置、设备及计算机可读存储介质，应用于语音处理技术领域，所述语音端点检测方法包括：获取待测语音信息，其中所述待测语音信息包括至少一个待测音帧；获取各所述待测音帧的振幅信息，并根据所述振幅信息，判断各所述待测音帧是否满足预设帧内一致性条件；若所述待测音帧满足预设帧内一致性条件，则判定所述待测音帧为语音帧，并根据所述语音帧确定对应语音段的起点和终点。本申请解决了现有技术中VAD分类模型复杂程度过高而导致语音端点检测效率较低的技术问题。低的技术问题。低的技术问题。