直播语音信息处理方法、装置、设备及存储介质与流程

1.本发明涉及视频直播技术领域，尤其涉及一种直播语音信息处理方法、装置、设备及存储介质。

背景技术：

2.随着网络直播平台和视频直播的普及和流行，直播作为一种休闲娱乐项目，为了更加融入生活并且进行直播的联动，目前用户(即观看直播的观众)可在终端观看主播直播的过程。并且在观看直播的同时，还可实时与直播通过连麦等方式实时互动。
3.由于直播内容的实时性，现有技术中缺乏快速且有效的手段对直播内容进行质量把控，导致现有的直播容易误播出低俗用语或错误使用的地名等不当用语，造成直播内容质量低下。当前对直播内容的质量把控一般是人工发现不当词语后，主播直播间进行屏蔽语音流处理，例如通过房管，或者用户进行举报，对主播语音流进行审核检查，然后对主播进行相应的处罚处理，使得对直播过程中语音内容的质量把控不够及时。

技术实现要素：

4.本发明的主要目的在于解决现有直播质量把控方法对直播语音内容的质量把控不够及时的技术问题。
5.本发明第一方面提供了一种直播语音信息处理方法，包括：获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。
6.可选的，在本发明第一方面的第一种实现方式中，所述将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号包括：提取所述目标语音信号的时域信息，以及获取指定频域的各个频域变量；根据所述时域信息，采用所述目标语音信号依次计算所述各个频域变量对应的初始频域信号；组合各所述初始频域信号，得到所述目标语音信号对应的频域信号。
7.可选的，在本发明第一方面的第二种实现方式中，所述从所述频域信号中提取所述目标语音信号的信号特征包括：根据所述音频信号，计算所述目标语音信号对应的功率谱，并基于所述功率谱，利用多个预置梅尔滤波器组计算能量输出；对各所述梅尔滤波器组的能量输出进行离散余弦变换，得到所述目标语音信号对应的梅尔频率倒谱参数并作为所述目标语音信号的信号特征。
8.可选的，在本发明第一方面的第三种实现方式中，在所述获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号之前，还包括：获取参照语音信号；利用所述关键信号对应的特征参考模式，对所述参照语音信号对应的信号
特征进行模式匹配，得到所述参照语言信号和所述关键信号之间的第二匹配距离；将所述第二匹配距离设置为所述参考距离。
9.可选的，在本发明第一方面的第四种实现方式中，在所述获取目标语音信号之后，还包括：对所述目标语音信号进行预加重处理，并对预加重处理后的目标语音信号进行分帧处理；对分帧处理后的目标语音信号进行加窗处理，得到新的目标语音信号。
10.可选的，在本发明第一方面的第五种实现方式中，所述基于对比的结果确定对所述目标语音信号的处理结果包括：若所述第一匹配距离大于预先设置的参考距离，则触发对下一段目标语音信号的第一优化行为，并根据所述第一优化行为的执行结果，生成对应的第一处理结果；若所述第一匹配距离小于预先设置的参考距离，则触发对所述目标语音信号介入式的第二优化行为，并根据所述第二优化行为的执行结果，生成对应的第二处理结果。
11.本发明第二方面提供了一种直播语音信息处理装置，包括：转换模块，用于获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；匹配模块，用于从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；对比模块，用于对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。
12.可选的，在本发明第二方面的第一种实现方式中，所述转换模块包括：获取单元，用于提取所述目标语音信号的时域信息，以及获取指定频域的各个频域变量；第一计算单元，用于根据所述时域信息，采用所述目标语音信号依次计算所述各个频域变量对应的初始频域信号；组合单元，用于组合各所述初始频域信号，得到所述目标语音信号对应的频域信号。
13.可选的，在本发明第二方面的第二种实现方式中，所述匹配模块包括：第二计算单元，用于根据所述音频信号，计算所述目标语音信号对应的功率谱，并基于所述功率谱，利用多个预置梅尔滤波器组计算能量输出；变换单元，用于对各所述梅尔滤波器组的能量输出进行离散余弦变换，得到所述目标语音信号对应的梅尔频率倒谱参数并作为所述目标语音信号的信号特征。
14.可选的，在本发明第二方面的第三种实现方式中，所述直播语音信息处理装置还包括参照匹配模块，用于：获取参照语音信号；利用所述关键信号对应的特征参考模式，对所述参照语音信号对应的信号特征进行模式匹配，得到所述参照语言信号和所述关键信号之间的第二匹配距离；将所述第二匹配距离设置为所述参考距离。
15.可选的，在本发明第二方面的第四种实现方式中，所述直播语音信息处理装置还包括预处理模块，用于：对所述目标语音信号进行预加重处理，并对预加重处理后的目标语音信号进行分帧处理；对分帧处理后的目标语音信号进行加窗处理，得到新的目标语音信号。
16.可选的，在本发明第二方面的第五种实现方式中，所述对比模块包括：第一执行单元，用于若所述第一匹配距离大于预先设置的参考距离，则触发对下一段目标语音信号的第一优化行为，并根据所述第一优化行为的执行结果，生成对应的第一处理结果；第二执行单元，用于若所述第一匹配距离小于预先设置的参考距离，则触发对所述目标语音信号介
入式的第二优化行为，并根据所述第二优化行为的执行结果，生成对应的第二处理结果。
17.本发明第三方面提供了一种直播语音信息处理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播语音信息处理设备执行上述的直播语音信息处理方法。
18.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的直播语音信息处理方法。
19.本发明提供的技术方案中，获取目标语音信号，并将目标语音信号转换至指定频域，得到目标语音信号的频域信号；从频域信号中提取目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对信号特征进行模式匹配，得到目标语音信号和关键信号之间的第一匹配距离；对比第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对目标语音信号的处理结果，实现了直播过程中的语音自动化的质量把控，提升了直播语音把控的效率以及执行审核行为的实时性，提升了直播语音内容质量，从而提高用户留存率，同时提升了直播平台质量审核的精准性。
附图说明
20.图1为本发明实施例中直播语音信息处理方法的第一个实施例示意图；
21.图2为本发明实施例中直播语音信息处理方法的第二个实施例示意图；
22.图3为本发明实施例中直播语音信息处理方法的第三个实施例示意图；
23.图4为本发明实施例中直播语音信息处理装置的一个实施例示意图；
24.图5为本发明实施例中直播语音信息处理装置的另一个实施例示意图；
25.图6为本发明实施例中直播语音信息处理设备的一个实施例示意图。
具体实施方式
26.本发明实施例提供了一种直播语音信息处理方法、装置、设备及存储介质，通过获取目标语音信号，并将目标语音信号转换至指定频域，得到目标语音信号的频域信号；从频域信号中提取目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对信号特征进行模式匹配，得到目标语音信号和关键信号之间的第一匹配距离；对比第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对目标语音信号的处理结果。本发明实现了直播过程中的语音自动化审核，提升了直播语音审核的效率以及执行审核行为的实时性。
27.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中直播语音信息处理方法的第一个实施例包括：
29.101、获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；
30.可以理解的是，本发明的执行主体可以为直播语音信息处理装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
31.本实施例中，在直播过程中用户产生的每一段实时语音片段，对其进行保存，然后同时进行直播语音监测，获取当前监测的实时语音片段对应的目标语音信号，此时目标语音信号是基于时域的语音信号，根据时间顺序记录直播过程中产生的语音信号，此处需要先将目标语音信号从时域转换到指定的频域中，将目标语音信号转换为频域信号。
32.具体的，在将目标语音信号转换至指定频域时，通常可以采用傅里叶变换法、拉普拉斯变换法和z变换法，其中，可以优选采用傅里叶变换法，包括离散傅里叶变换(dft，discrete fourier transform)、快速傅立叶变换(fft，fast fourier transform)和短时傅里叶变换(stft，short-time fourier transform，或short-term fourier transform)。
33.102、从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；
34.本实施例中，频域信号中包含有多维度的语音信息，其中，针对不同的语句发音可以通过不同的信号特征进行表征，从高维度上表示对应的语音信号。具体的，可以继续通过fft、stft等来提取目标语音信号的信号特征，也可以在此基础上，进一步以如cqt(constant q transform，恒q变换)的方法来提取信号特征，另外，还可以通过如频率质心(spectral centroid)、spectral rolloff、spectral flux、mfcc(mel-frequency cepstral coefficients，梅尔频率倒谱系数)等方法来进行信号特征的提取。
35.本实施例中，针对每个关键信号预先配置有一个或多个特征参考模式，即为关键信号对应的信号特征模板，以用于与目标语音信号的信号特征进行模式匹配，来计算信号特征与每个特征参考模式之间的差别，以表征目标语音信号和关键信号之间的相似度，并以第一匹配距离来表示。
36.具体的，可以通过dtw(动态时间规整，dynamic time warping)算法来对目标语音信号的信号特征进行提取、以及对信号特征进行模式匹配。即dtw算法中配置有如傅里叶变换算法以用于提取目标语音信号中的信号特征、以及配置有每个关键信号对应的一个或多个特征参考模式以用于信号特征的模式匹配。
37.103、对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。
38.本实施例中，预先建立不当词库的不当词信号，以及记录如屏蔽关键词、奖励关键词、惩罚关键词等不当词汇的关键信号，根据不当词库和不同类型关键词，提取对应不当词信号和关键信号对应的信号特征，来计算及设置两者之间的参考距离，以表征不当词和关键词汇之间的差别(或者相似度)。故此处计算得到目标语音信号和关键信号之间的第一匹配距离时，可以与不当词信号和关键信号之间的参考距离进行对比，确定目标语音信号与不当词信号之间的差别，来执行相对应的优化行为，并生成处理结果。
39.本发明实施例中，通过获取目标语音信号，并将目标语音信号转换至指定频域，得到目标语音信号的频域信号；从频域信号中提取目标语音信号的信号特征，并利用预置关
键信号对应的特征参考模式，对信号特征进行模式匹配，得到目标语音信号和关键信号之间的第一匹配距离；对比第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对目标语音信号的处理结果，实现了直播过程中的语音自动化审核，提升了直播语音审核的效率以及执行审核行为的实时性，降低了直播语音的质量把控难度，同时提升了直播平台审核的精准性。
40.请参阅图2，本发明实施例中直播语音信息处理方法的第二个实施例包括：
41.201、获取目标语音信号，并提取所述目标语音信号的时域信息，以及获取指定频域的各个频域变量；
42.202、根据所述时域信息，采用所述目标语音信号依次计算所述各个频域变量对应的初始频域信号；
43.203、组合各所述初始频域信号，得到所述目标语音信号对应的频域信号；
44.本实施例中，按照预先设置的时间长度，先从目标语音信号中提取出n个时间分段信号强度的时域信息j，然后再获取指定频域上的自变量，即频域变量k，结合目标语音信号、时域信息j、频域变量k，通过傅里叶变换等算法来计算各个频域变量对应的初始频率信号，具体的，针对每个频域变量对应的初始频率信号，可以采用下述公式进行计算：
[0045][0046]
其中，y(k)表示所述变换后的音频信号，y(n)表示目标语音信号，优选地，n＝512，最终按频域变量的顺序，对初始频域信号进行组合拼接，即可得到目标语音信号完整的频域信号。
[0047]
204、根据所述音频信号，计算所述目标语音信号对应的功率谱，并基于所述功率谱，利用多个预置梅尔滤波器组计算能量输出；
[0048]
205、对各所述梅尔滤波器组的能量输出进行离散余弦变换，得到所述目标语音信号对应的梅尔频率倒谱参数并作为所述目标语音信号的信号特征；
[0049]
本实施例中，根据所述变换后的音频信号计算功率谱具体可以采用下述公式进行计算：其中，p表示所述功率谱；设置梅尔滤波器组，包括每个梅尔滤波器组中的滤波器数量，优选为40，计算每个梅尔滤波器组的能量输出，如下所示：
[0050]
s(m)＝p*hm(k)；
[0051][0052]
其中，s(m)表示第m个梅尔滤波器的能量输出，hm(k)表示第m个梅尔滤波器的频率响应，f(m)表示第m个梅尔滤波器的中心频率；相邻梅尔滤波器中心频率的间隔随m值的增大而增宽；
[0053]
根据能量输出，计算目标语音信号的梅尔频率倒谱参数，如下所示：
[0054]
c＝(c1，c2，
……cl
)；
[0055][0056]
其中，c为向量，表示所述目标语音信号的梅尔频率倒谱参数，m表示梅尔滤波器的数量，l表示梅尔频率倒谱参数的阶数。
[0057]
206、利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；
[0058]
207、对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。
[0059]
请参阅图3，本发明实施例中直播语音信息处理方法的第三个实施例包括：
[0060]
301、获取参照语音信号；
[0061]
302、利用所述关键信号对应的特征参考模式，对所述参照语音信号对应的信号特征进行模式匹配，得到所述参照语言信号和所述关键信号之间的第二匹配距离；
[0062]
303、将所述第二匹配距离设置为所述参考距离，并获取目标语音信号；
[0063]
本实施例中，通过建立的不当词词库，转化为参照语音信号，同时按照目标语音信号进行特征参考模式的模式匹配方法，来对参照语音信号进行转换，此处参照语音信号即作为模拟直播过程中可能出现的不当词，利用特征参考模式与屏蔽关键词进行模式匹配，以确定不当词库中不当词对应的参照语音信号与对应的屏蔽信号之间的第二匹配距离，用于后续对直播过程中的实时语音信号进行判别，实时语音信号中是否包含有不当词。
[0064]
本实施例中，通过将第二匹配距离设置为参考距离，可以减少直播过程中实时语音信号监测的计算量，若直接将参照语音信号与目标语音信号进行相似度计算，当参照语音信号数量为30000，目标语音信号的监测频率为100/s，则计算量为3*106/s，若特征参考模式数量为400，则计算量为4*104/s，后续再进行对比即可。
[0065]
304、对所述目标语音信号进行预加重处理，并对预加重处理后的目标语音信号进行分帧处理；
[0066]
305、对分帧处理后的目标语音信号进行加窗处理，得到新的目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；
[0067]
本实施例中，针对获取的目标语音信号，还可以进一步对目标语音信号进行预处理，得到预处理后的目标语音信号。
[0068]
首先，对所述目标语音信号进行预加重处理，得到预加重后的目标语音信号，如下所示：x'(t)＝x(t)-ax(t-1)；其中，x(t)表示目标语音信号的原始音频，x’(t)表示所述预加重后的目标语音信号，a表示滤波器系数；
[0069]
然后，对预加重后的目标语音信号进行分帧处理，得到分帧后的目标语音信号；再对分帧后的目标语音信号进行加汉明窗处理，得到加窗后的实目标语音信号，如下所示：
[0070]
y(n)＝x'(n)*w(n)；
[0071][0072]
其中，x’(n)表示一帧数据，b＝0.46，τ为窗口长度，且0≤n≤τ-1。
[0073]
306、从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；
[0074]
307、对比所述第一匹配距离和预先设置的参考距离之间的大小；
[0075]
308、若所述第一匹配距离大于预先设置的参考距离，则触发对下一段目标语音信号的第一优化行为，并根据所述第一优化行为的执行结果，生成对应的第一处理结果；
[0076]
309、若所述第一匹配距离小于预先设置的参考距离，则触发对所述目标语音信号介入式的第二优化行为，并根据所述第二优化行为的执行结果，生成对应的第二处理结果。
[0077]
本实施例中，在得到目标语音信号与关键信号之间的第一匹配距离后，与相同特征参考模式的参考距离进行对比，若第一匹配距离大于预先设置的参考距离，则目标语音信号与参照语音信号的相似度较低，此时则确定目标语音信号中不包含有关键信号，反之则包含，同时触发对应的第二优化行为。
[0078]
具体的，此处第一优化行为即为执行下一个目标语音信号的审核，第二优化行为可以包括触发不当词处理和业务活动逻辑；其中，触发不当词处理可以对主播直播间语音流进行屏蔽或者静音处理，触发业务活动逻辑可以对当前目标语音信号进行业务行为的响应，比如如弹窗奖励等。
[0079]
上面对本发明实施例中直播语音信息处理方法进行了描述，下面对本发明实施例中直播语音信息处理装置进行描述，请参阅图4，本发明实施例中直播语音信息处理装置一个实施例包括：
[0080]
转换模块401，用于获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；
[0081]
匹配模块402，用于从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；
[0082]
对比模块403，用于对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。
[0083]
本发明实施例中，获取目标语音信号，并将目标语音信号转换至指定频域，得到目标语音信号的频域信号；从频域信号中提取目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对信号特征进行模式匹配，得到目标语音信号和关键信号之间的第一匹配距离；对比第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对目标语音信号的处理结果，实现了直播过程中的语音自动化审核，提升了直播语音处理的效率以及执行审核行为的实时性，降低了直播语音的审核难度，同时提升了直播平台审核的精准性。
[0084]
请参阅图5，本发明实施例中直播语音信息处理装置的另一个实施例包括：
[0085]
转换模块401，用于获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；
[0086]
匹配模块402，用于从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；
[0087]
对比模块403，用于对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。
[0088]
具体的，所述转换模块401包括：
[0089]
获取单元4011，用于提取所述目标语音信号的时域信息，以及获取指定频域的各个频域变量；
[0090]
第一计算单元4012，用于根据所述时域信息，采用所述目标语音信号依次计算所述各个频域变量对应的初始频域信号；
[0091]
组合单元4013，用于组合各所述初始频域信号，得到所述目标语音信号对应的频域信号。
[0092]
具体的，所述匹配模块402包括：
[0093]
第二计算单元4021，用于根据所述音频信号，计算所述目标语音信号对应的功率谱，并基于所述功率谱，利用多个预置梅尔滤波器组计算能量输出；
[0094]
变换单元4022，用于对各所述梅尔滤波器组的能量输出进行离散余弦变换，得到所述目标语音信号对应的梅尔频率倒谱参数并作为所述目标语音信号的信号特征。
[0095]
具体的，所述直播语音信息处理装置还包括参照匹配模块404，用于：
[0096]
获取参照语音信号；
[0097]
利用所述关键信号对应的特征参考模式，对所述参照语音信号对应的信号特征进行模式匹配，得到所述参照语言信号和所述关键信号之间的第二匹配距离；
[0098]
将所述第二匹配距离设置为所述参考距离。
[0099]
具体的，所述直播语音信息处理装置还包括预处理模块405，用于：
[0100]
对所述目标语音信号进行预加重处理，并对预加重处理后的目标语音信号进行分帧处理；
[0101]
对分帧处理后的目标语音信号进行加窗处理，得到新的目标语音信号。
[0102]
具体的，所述对比模块403包括：
[0103]
第一执行单元4031，用于若所述第一匹配距离大于预先设置的参考距离，则触发对下一段目标语音信号的第一优化行为，并根据所述第一优化行为的执行结果，生成对应的第一处理结果；
[0104]
第二执行单元4032，用于若所述第一匹配距离小于预先设置的参考距离，则触发对所述目标语音信号介入式的第二优化行为，并根据所述第二优化行为的执行结果，生成对应的第二处理结果。
[0105]
上面图4和图5从模块化功能实体的角度对本发明实施例中的直播语音信息处理装置进行详细描述，下面从硬件处理的角度对本发明实施例中直播语音信息处理设备进行详细描述。
[0106]
图6是本发明实施例提供的一种直播语音信息处理设备的结构示意图，该直播语音信息处理设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对直播语音
信息处理设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在直播语音信息处理设备600上执行存储介质630中的一系列指令操作。
[0107]
直播语音信息处理设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图6示出的直播语音信息处理设备结构并不构成对直播语音信息处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0108]
本发明还提供一种直播语音信息处理设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述直播语音信息处理方法的步骤。本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述直播语音信息处理方法的步骤。
[0109]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0110]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0111]
以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种直播语音信息处理方法，其特征在于，所述直播语音信息处理方法包括：获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。2.根据权利要求1所述的直播语音信息处理方法，其特征在于，所述将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号包括：提取所述目标语音信号的时域信息，以及获取指定频域的各个频域变量；根据所述时域信息，采用所述目标语音信号依次计算所述各个频域变量对应的初始频域信号；组合各所述初始频域信号，得到所述目标语音信号对应的频域信号。3.根据权利要求1所述的直播语音信息处理方法，其特征在于，所述从所述频域信号中提取所述目标语音信号的信号特征包括：根据所述音频信号，计算所述目标语音信号对应的功率谱，并基于所述功率谱，利用多个预置梅尔滤波器组计算能量输出；对各所述梅尔滤波器组的能量输出进行离散余弦变换，得到所述目标语音信号对应的梅尔频率倒谱参数并作为所述目标语音信号的信号特征。4.根据权利要求1所述的直播语音信息处理方法，其特征在于，在所述获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号之前，还包括：获取参照语音信号；利用所述关键信号对应的特征参考模式，对所述参照语音信号对应的信号特征进行模式匹配，得到所述参照语言信号和所述关键信号之间的第二匹配距离；将所述第二匹配距离设置为所述参考距离。5.根据权利要求1所述的直播语音信息处理方法，其特征在于，在所述获取目标语音信号之后，还包括：对所述目标语音信号进行预加重处理，并对预加重处理后的目标语音信号进行分帧处理；对分帧处理后的目标语音信号进行加窗处理，得到新的目标语音信号。6.根据权利要求1-4中任一项所述的直播语音信息处理方法，其特征在于，所述基于对比的结果确定对所述目标语音信号的处理结果包括：若所述第一匹配距离大于预先设置的参考距离，则触发对下一段目标语音信号的第一优化行为，并根据所述第一优化行为的执行结果，生成对应的第一处理结果；若所述第一匹配距离小于预先设置的参考距离，则触发对所述目标语音信号介入式的第二优化行为，并根据所述第二优化行为的执行结果，生成对应的第二处理结果。7.一种直播语音信息处理装置，其特征在于，所述直播语音信息处理装置包括：
转换模块，用于获取目标语音信号，并将所述目标语音信号转换至指定频域，得到所述目标语音信号的频域信号；匹配模块，用于从所述频域信号中提取所述目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对所述信号特征进行模式匹配，得到所述目标语音信号和所述关键信号之间的第一匹配距离；对比模块，用于对比所述第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对所述目标语音信号的处理结果。8.根据权利要求7所述的直播语音信息处理装置，其特征在于，所述直播语音信息处理装置还包括预处理模块，用于：对所述目标语音信号进行预加重处理，并对预加重处理后的目标语音信号进行分帧处理；对分帧处理后的目标语音信号进行加窗处理，得到新的目标语音信号。9.一种直播语音信息处理设备，其特征在于，所述直播语音信息处理设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述直播语音信息处理设备执行如权利要求1-6中任意一项所述的直播语音信息处理方法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任意一项所述直播语音信息处理方法的步骤。

技术总结

本发明涉及视频直播技术领域，公开了一种直播语音信息处理方法、装置、设备及存储介质。该方法包括：获取目标语音信号，并将目标语音信号转换至指定频域，得到目标语音信号的频域信号；从频域信号中提取目标语音信号的信号特征，并利用预置关键信号对应的特征参考模式，对信号特征进行模式匹配，得到目标语音信号和关键信号之间的第一匹配距离；对比第一匹配距离和预先设置的参考距离之间的大小，并基于对比的结果确定对目标语音信号的处理结果。本发明实现了直播过程中的语音自动化审核，提升了直播语音审核的效率以及执行审核行为的实时性。性。性。