样本确定方法、装置及电子设备与流程



1.本发明涉及人工智能技术领域,尤其涉及一种样本确定方法、装置及电子设备。


背景技术:



2.目前针对语音的模型训练方法中,通常使用的是监督训练的方法,而监督训练中干净数据的选择对模型的效果有着十分重要的作用,可以直接影响模型的效果。干净数据是指理论上没有噪声的语音数据。目前,通常在安静环境下录制语音获取干净数据。然而,由于无法保证绝对安静的环境,在安静环境下录制的语音可能会包括较大的噪声,导致模型训练的效果较差。


技术实现要素:



3.本公开实施例提供一种样本确定方法、装置及电子设备,以解决现有技术中模型训练的效果较差的问题。
4.为了解决上述技术问题,本发明是这样实现的:
5.第一方面,本公开实施例提供了一种样本确定方法,所述方法包括:
6.对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;
7.基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;
8.基于所述第一指标值与预设指标值确定目标调整参数
9.基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。
10.第二方面,本公开实施例提供了一种样本确定装置,所述装置包括:
11.分割模块,用于对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;
12.第一确定模块,用于基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;
13.第二确定模块,用于基于所述第一指标值与预设指标值确定目标调整参数;
14.第三确定模块,用于基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。
15.第三方面,本公开实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的样本确定方法中的步骤。
16.第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的样本确定方法中的步骤。
17.在本公开实施例中,对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。这样,通过第一指标值与预设指标值对所述第一语音进行调整,能够降低第一语音中的噪声,从而能够提高模型训练的效果。
附图说明
18.为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本公开实施例提供的一种语音评估方法的流程图;
20.图2是本公开实施例提供的一种语音评估装置的结构示意图;
21.图3是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
22.下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
24.参见图1,图1是本公开实施例提供的一种样本确定方法的流程图,如图1所示,包括以下步骤:
25.步骤101、对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段。
26.其中,第一语音可以是在安静环境下录制的语音,或者可以是通过其他方式获得的噪声较少的语音。第一语音对应的第一语音段可以包括对第一语音进行语音分割得到的至少一个语音段。第一语音对应的第一非语音段可以包括对第一语音进行语音分割得到的至少一个非语音段。
27.一种实施方式中,第一语音对应的第一语音段可以包括对第一语音进行语音分割得到的全部语音段。第一语音对应的第一非语音段可以包括对第一语音进行语音分割得到的全部非语音段。
28.一种实施方式中,可以确定第一语音的帧长及帧移等,对第一语音进行分帧,在分帧后,可以采用语音活动检测(voice activity detection,vad)算法对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段。
29.步骤102、基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度。
30.其中,所述第一指标值可以与如下至少一项正相关:第一比值,第二比值,第三比值,第四比值。
31.一种实施方式中,所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值,所述第二语音段基于所述第一语音段进行低通滤波处理后获得,所述第三语音段基于所述第一语音段进行高通滤波处理后获得;所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值,所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得,所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得;所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值,所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点,所述第二数据点为所述第一语音段中除所述第一数据点外的数据点;所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。
32.另一种实施方式中,所述第一比值为第二语音段的能量值与第三语音段的能量值的比值;所述第二比值为第二非语音段的能量值与第三非语音段的能量值的比值;所述第三比值为第一数据点的能量值与第二数据点的能量值的比值;所述第四比值为所述第一语音段的能量值与所述第一非语音段的能量值的比值。
33.步骤103、基于所述第一指标值与预设指标值确定目标调整参数。
34.其中,所述目标调整参数可以为预设指标值与第一指标值的比值;或者所述目标调整参数可以为第一指标值与预设指标值的比值;或者所述目标调整参数可以为预设指标值与第一指标值的比值与预设系数的乘积;等等,本实施例对此不进行限定。
35.步骤104、基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。
36.其中,可以基于所述目标调整参数对所述第一语音的数据点的幅值进行调整,使得所述第一语音的语音干净程度满足所述预设指标值。
37.一种实施方式中,所述第一指标值分别与第一比值,第二比值,第三比值及第四比值正相关,所述基于所述目标调整参数对所述第一语音进行调整,包括:基于所述目标调整参数及所述第二语音段的能量均值确定第一调整参数,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整;基于所述目标调整参数及所述第二非语音段的能量均值确定第三调整参数,基于所述第三调整参数对所述第二非语音段对应的数据点中每个数据点的幅值进行调整;基于所述目标调整参数及所述第一数据点的能量均值确定第五调整参数,基于所述第五调整参数对所述第一数据点的幅值进行调整;基于所述目标调整参数及所述第一语音段的能量均值确定第七调整参数,基于所述第七调整参数对所述第一语音段对应的数据点中每个数据点的幅值进行调整。
38.需要说明的是,可以对调整后的第一语音进行平滑处理,将平滑处理的第一语音确定为用于模型训练的训练样本。
39.需要说明的是,可以基于模型训练的结果调整语音数据。示例地,在采用某个语音样本对模型训练时,若经过小于预设次数的训练后损失值小于预设阈值,则认为该语音样本的语音干净程度较好。可以调整预设指标值,将预设指标值设置为该语音样本的第一指标值。在后续获取训练样本时,基于预设指标值对第一语音进行调整,从而能够在训练次数小于或等于预设次数时将模型训练好。
40.本实施例能够提高语音数据的干净程度,为模型训练提供较高质量的标签数据,从而提高训练得到的模型的效果。
41.在本公开实施例中,对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。这样,通过第一指标值与预设指标值对所述第一语音进行调整,能够降低第一语音中的噪声,从而能够提高模型训练的效果。
42.可选地,所述第一指标值与如下至少一项正相关:
43.第一比值,第二比值,第三比值,第四比值;
44.其中,所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值,所述第二语音段基于所述第一语音段进行低通滤波处理后获得,所述第三语音段基于所述第一语音段进行高通滤波处理后获得;
45.所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值,所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得,所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得;
46.所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值,所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点,所述第二数据点为所述第一语音段中除所述第一数据点外的数据点;
47.所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。
48.一种实施方式中,第二语音段可以包括多个第三数据点。第二语音段的能量均值可以是多个第三数据点的幅值的平方的均值;或者第二语音段的能量均值可以通过如下获得:确定每个第三数据点的幅值与第一幅值均值的差值,计算每个第三数据点对应的差值的平方值,将多个第三数据点对应的平方值的均值作为第二语音段的能量均值,第一幅值均值为该多个第三数据点的幅值的均值。示例地,第二语音段的能量均值lspeech可以通过如下计算公式获得:
[0049][0050]
其中,xi为第i个第三数据点的幅值与第一幅值均值的差值,m为第二语音段包括的第三数据点的数据点个数。
[0051]
另外,第三语音段可以包括多个第四数据点。第三语音段的能量均值可以是多个第四数据点的幅值的平方的均值;或者第三语音段的能量均值可以通过如下获得:确定每个第四数据点的幅值与第二幅值均值的差值,计算每个第四数据点对应的差值的平方值,将多个第四数据点对应的平方值的均值作为第三语音段的能量均值,第二幅值均值为该多个第四数据点的幅值的均值。示例地,第三语音段的能量均值hspeech可以通过如下计算公式获得:
[0052]
[0053]
其中,xi为第i个第四数据点的幅值与第二幅值均值的差值,m为第三语音段包括的第四数据点的数据点个数。
[0054]
需要说明的是,本实施例对高通滤波及低通滤波的滤波截止频率不进行限定。示例地,滤波截止频率可以为3khz,高通滤波即滤除3khz以下的信号,低通滤波即滤除3khz以上的信号。
[0055]
一种实施方式中,第二非语音段可以包括多个第五数据点。第二非语音段的能量均值可以是多个第五数据点的幅值的平方的均值;或者第二非语音段的能量均值可以通过如下获得:确定每个第五数据点的幅值与第三幅值均值的差值,计算每个第五数据点对应的差值的平方值,将多个第五数据点对应的平方值的均值作为第二非语音段的能量均值,第三幅值均值为该多个第五数据点的幅值的均值。示例地,第二非语音段的能量均值lnoise可以通过如下计算公式获得:
[0056][0057]
其中,xi为第i个第五数据点的幅值与第三幅值均值的差值,m为第二非语音段包括的第五数据点的数据点个数。
[0058]
另外,第三非语音段可以包括多个第六数据点。第三非语音段的能量均值可以是多个第六数据点的幅值的平方的均值;或者第三非语音段的能量均值可以通过如下获得:确定每个第六数据点的幅值与第四幅值均值的差值,计算每个第六数据点对应的差值的平方值,将多个第六数据点对应的平方值的均值作为第三非语音段的能量均值,第四幅值均值为该多个第六数据点的幅值的均值。示例地,第三非语音段的能量均值hnoise可以通过如下计算公式获得:
[0059][0060]
其中,xi为第i个第六数据点的幅值与第四幅值均值的差值,m为第三非语音段包括的第六数据点的数据点个数。
[0061]
一种实施方式中,第一数据点的数据点个数可以为多个。第一数据点的能量均值可以是第一语音段中的第一数据点的幅值的平方的均值;或者第一数据点的能量均值可以通过如下获得:确定每个第一数据点的幅值与第五幅值均值的差值,计算每个第一数据点对应的差值的平方值,将第一语音段中的第一数据点对应的平方值的均值作为第一数据点的能量均值,第五幅值均值为第一语音段中的第一数据点的幅值的均值。示例地,第一数据点的能量均值eb可以通过如下计算公式获得:
[0062][0063]
其中,xi为第i个第一数据点的幅值与第五幅值均值的差值,m为第一语音段包括的第一数据点的数据点个数。
[0064]
另外,第二数据点的数据点个数可以为多个。第二数据点的能量均值可以是第一语音段中的第二数据点的幅值的平方的均值;或者第二数据点的能量均值可以通过如下获得:确定每个第二数据点的幅值与第六幅值均值的差值,计算每个第二数据点对应的差值的平方值,将第一语音段中的第二数据点对应的平方值的均值作为第二数据点的能量均
值,第六幅值均值为第一语音段中的第二数据点的幅值的均值。示例地,第二数据点的能量均值eo可以通过如下计算公式获得:
[0065][0066]
其中,xi为第i个第二数据点的幅值与第六幅值均值的差值,m为第一语音段包括的第二数据点的数据点个数。
[0067]
以第一语音段的基频为65hz为例,基频的倍频为2*65hz,3*65hz,4*65hz..;等等,第一数据点为第一语音段中65hz,2*65hz,3*65hz,4*65hz,...,等频率所在的数据点。
[0068]
需要说明的是,确定第一数据点的方式可以如下:可以获取第一语音段的频谱,频谱的谱号为:0,1,2,3,4,...,256。频谱的谱号对应的频率为:0*32.5,1*32.5,....,256*32.5hz。假设基频为65hz,倍频为:2*65,3*65,...,等,则可以获取对应谱号为:65/32.5=2,2*65/32.5=4,3*65/32.5=6,

,等谱号处的点作为第一数据点。
[0069]
一种实施方式中,第一语音段可以包括多个第七数据点。第一语音段的能量均值可以是多个第七数据点的幅值的平方的均值;或者第一语音段的能量均值可以通过如下获得:确定每个第七数据点的幅值与第七幅值均值的差值,计算每个第七数据点对应的差值的平方值,将多个第七数据点对应的平方值的均值作为第一语音段的能量均值,第七幅值均值为该多个第七数据点的幅值的均值。示例地,第一语音段的能量均值espeech可以通过如下计算公式获得:
[0070][0071]
其中,xi为第i个第七数据点的幅值与第七幅值均值的差值,m为第一语音段包括的第七数据点的数据点个数。
[0072]
另外,第一非语音段可以包括多个第八数据点。第一非语音段的能量均值可以是多个第八数据点的幅值的平方的均值;或者第一非语音段的能量均值可以通过如下获得:确定每个第八数据点的幅值与第八幅值均值的差值,计算每个第八数据点对应的差值的平方值,将多个第八数据点对应的平方值的均值作为第一非语音段的能量均值,第八幅值均值为该多个第八数据点的幅值的均值。示例地,第一非语音段的能量均值enoise可以通过如下计算公式获得:
[0073][0074]
其中,xi为第i个第八数据点的幅值与第八幅值均值的差值,m为第一非语音段包括的第八数据点的数据点个数。
[0075]
该实施方式中,所述第一指标值与如下至少一项正相关:第一比值,第二比值,第三比值,第四比值。这样,能够从一个或多个维度确定所述第一语音的语音干净程度,从而在对第一语音进行调整时,能够从一个或多个维度对第一语音进行调整,进而能够较好地降低第一语音中的噪声,从而能够提高模型训练的效果。
[0076]
可选地,所述基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,包括:
[0077]
分别获取第一乘积、第二乘积、第三乘积及第四乘积,所述第一乘积为第一权重系
数与所述第一比值的乘积,所述第二乘积为第二权重系数与所述第二比值的乘积,所述第三乘积为第三权重系数与所述第三比值的乘积,所述第四乘积为第四权重系数与所述第四比值的乘积;
[0078]
基于所述第一乘积、第二乘积、第三乘积及第四乘积确定所述第一语音的第一指标值。
[0079]
其中,第一指标值可以为所述第一乘积、第二乘积、第三乘积及第四乘积的和值。第一权重系数、第二权重系数、第三权重系数及第四权重系数均可以预先设置。示例地,第一权重系数可以设为0.5,第二权重系数可以设为0.2,第三权重系数可以设为0.3,第四权重系数可以设为0.2;或者,第一权重系数可以设为5,第二权重系数可以设为3,第三权重系数可以设为2,第四权重系数可以设为2;或者,第一权重系数可以设为50,第二权重系数可以设为30,第三权重系数可以设为20,第四权重系数可以设为10;等等,本实施例对此不进行限定。
[0080]
一种实施方式中,第一权重系数、第二权重系数、第三权重系数及第四权重系数的和值可以为1。
[0081]
一种实施方式中,第一指标值q=a*js+b*jn+c*jf+d*je,其中,js为第一比值,jn为第二比值,jf为第三比值,je为第四比值,a为第一权重系数,b为第二权重系数,c为第三权重系数,d为第四权重系数。
[0082]
该实施方式中,通过所述第一乘积、第二乘积、第三乘积及第四乘积确定所述第一语音的第一指标值,能够从多个维度综合确定所述第一语音的语音干净程度。
[0083]
可选地,所述基于所述目标调整参数对所述第一语音进行调整,包括:
[0084]
基于所述目标调整参数及所述第二语音段的能量均值确定第一调整参数,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整;
[0085]
和/或
[0086]
基于所述目标调整参数及所述第三语音段的能量均值确定第二调整参数,基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值进行调整。
[0087]
其中,以所述目标调整参数为预设指标值与第一指标值的比值为例,所述第二语音段对应的数据点可以是第三数据点,第一调整参数可以为所述目标调整参数、所述第二语音段的能量均值及第二语音段包括的第三数据点的数据点个数的乘积的开方值,示例地,第一调整参数a1可以为:
[0088][0089]
其中,scale为目标调整参数,lspeech为第二语音段的能量均值,m为第二语音段包括的第三数据点的数据点个数。
[0090]
需要说明的是,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整,可以是,对于每个第三数据点,将每个第三数据点的幅值乘以第一调整参数a1。在通过计算得到第二语音段的能量均值lspeech的情况下,针对第i个第三数据点,获取第三数据点的xi与第一调整参数ae的乘积,将该乘积与第一幅值均值的和值确定为调整后的第i个第三数据点的幅值。
[0091]
另外,以所述目标调整参数为预设指标值与第一指标值的比值为例,所述第三语音段对应的数据点可以是第四数据点,第二调整参数可以为所述目标调整参数、所述第三语音段的能量均值及第三语音段包括的第四数据点的数据点个数的乘积的开方值,示例地,第二调整参数a2可以为:
[0092][0093]
其中,scale为目标调整参数,hspeech为第三语音段的能量均值,m为第三语音段包括的第四数据点的数据点个数。
[0094]
需要说明的是,基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值进行调整,可以是,对于每个第四数据点,将每个第四数据点的幅值除以第二调整参数a2。在通过计算得到第三语音段的能量均值hspeech的情况下,针对第i个第四数据点,获取第四数据点的xi与第二调整参数a2的商值,将该商值与第二幅值均值的和值确定为调整后的第i个第四数据点的幅值。
[0095]
该实施方式中,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整,或者,基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值进行调整。这样,从第一语音的语音段的维度,对所述第二语音段对应的数据点或所述第三语音段对应的数据点的幅值进行调整,以使得第一语音的语音干净程度满足预设指标值,从而能够获得语音干净程度较高的训练样本。
[0096]
可选地,所述基于所述目标调整参数对所述第一语音进行调整,包括:
[0097]
基于所述目标调整参数及所述第二非语音段的能量均值确定第三调整参数,基于所述第三调整参数对所述第二非语音段对应的数据点中每个数据点的幅值进行调整;
[0098]
和/或
[0099]
基于所述目标调整参数及所述第三非语音段的能量均值确定第四调整参数,基于所述第四调整参数对所述第三非语音段对应的数据点中每个数据点的幅值进行调整。
[0100]
其中,以所述目标调整参数为预设指标值与第一指标值的比值为例,所述第二非语音段对应的数据点可以是第五数据点,第三调整参数可以为所述目标调整参数、所述第二非语音段的能量均值及第二非语音段包括的第五数据点的数据点个数的乘积的开方值,示例地,第三调整参数a3可以为:
[0101][0102]
其中,scale为目标调整参数,lnoise为第二非语音段的能量均值,m为第二非语音段包括的第五数据点的数据点个数。
[0103]
需要说明的是,基于所述第三调整参数对所述第二非语音段对应的数据点中每个数据点的幅值进行调整,可以是,对于每个第五数据点,将每个第五数据点的幅值乘以第三调整参数a3。在通过计算得到第二非语音段的能量均值lnoise的情况下,针对第i个第五数据点,获取第五数据点的xi与第三调整参数a3的乘积,将该乘积与第三幅值均值的和值确定为调整后的第i个第五数据点的幅值。
[0104]
另外,以所述目标调整参数为预设指标值与第一指标值的比值为例,所述第三非
语音段对应的数据点可以是第六数据点,第四调整参数可以为所述目标调整参数、所述第三非语音段的能量均值及第三非语音段包括的第六数据点的数据点个数的乘积的开方值,示例地,第四调整参数a4可以为:
[0105][0106]
其中,scale为目标调整参数,hnoise为第三非语音段的能量均值,m为第三非语音段包括的第六数据点的数据点个数。
[0107]
需要说明的是,基于所述第四调整参数对所述第三非语音段对应的数据点中每个数据点的幅值进行调整,可以是,对于每个第六数据点,将每个第六数据点的幅值除以第四调整参数a4。在通过计算得到第三非语音段的能量均值hnoise的情况下,针对第i个第六数据点,获取第六数据点的xi与第四调整参数a4的商值,将该商值与第四幅值均值的和值确定为调整后的第i个第六数据点的幅值。
[0108]
该实施方式中,基于所述第三调整参数对所述第二非语音段对应的数据点中每个数据点的幅值进行调整,或者,基于所述第四调整参数对所述第三非语音段对应的数据点中每个数据点的幅值进行调整。这样,从第一语音的非语音段的维度,对所述第二非语音段对应的数据点或所述第三非语音段对应的数据点的幅值进行调整,以使得第一语音的语音干净程度满足预设指标值,从而能够获得语音干净程度较高的训练样本。
[0109]
可选地,所述基于所述目标调整参数对所述第一语音进行调整,包括:
[0110]
基于所述目标调整参数及所述第一数据点的能量均值确定第五调整参数,基于所述第五调整参数对所述第一数据点的幅值进行调整;
[0111]
和/或
[0112]
基于所述目标调整参数及所述第二数据点的能量均值确定第六调整参数,基于所述第六调整参数对所述第二数据点的幅值进行调整。
[0113]
其中,以所述目标调整参数为预设指标值与第一指标值的比值为例,第五调整参数可以为所述目标调整参数、所述第一数据点的能量均值及第一语音段包括的第一数据点的数据点个数的乘积的开方值,示例地,第五调整参数a5可以为:
[0114][0115]
其中,scale为目标调整参数,eb为第一数据点的能量均值,m为第一语音段包括的第一数据点的数据点个数。
[0116]
需要说明的是,基于所述第五调整参数对所述第一数据点的幅值进行调整,可以是,对于每个第一数据点,将每个第一数据点的幅值乘以第五调整参数a5。在通过计算得到第一数据点的能量均值eb的情况下,针对第i个第一数据点,获取第一数据点的xi与第五调整参数a5的乘积,将该乘积与第五幅值均值的和值确定为调整后的第i个第一数据点的幅值。
[0117]
另外,以所述目标调整参数为预设指标值与第一指标值的比值为例,第六调整参数可以为所述目标调整参数、第二数据点的能量均值及第一语音段包括的第二数据点的数据点个数的乘积的开方值,示例地,第六调整参数a6可以为:
[0118][0119]
其中,scale为目标调整参数,eo为第二数据点的能量均值,m为第三语音段包括的第二数据点的数据点个数。
[0120]
需要说明的是,基于所述第六调整参数对所述第二数据点的幅值进行调整,可以是,对于每个第二数据点,将每个第二数据点的幅值除以第六调整参数a6。在通过计算得到第二数据点的能量均值hspeech的情况下,针对第i个第二数据点,获取第二数据点的xi与第六调整参数a6的商值,将该商值与第六幅值均值的和值确定为调整后的第i个第二数据点的幅值。
[0121]
该实施方式中,基于所述第五调整参数对所述第一数据点的幅值进行调整,或者,基于所述第六调整参数对所述第二数据点的幅值进行调整。这样,从第一语音的频率维度,对所述第一数据点或所述第二数据点的幅值进行调整,以使得第一语音的语音干净程度满足预设指标值,从而能够获得语音干净程度较高的训练样本。
[0122]
可选地,所述基于所述目标调整参数对所述第一语音进行调整,包括:
[0123]
基于所述目标调整参数及所述第一语音段的能量均值确定第七调整参数,基于所述第七调整参数对所述第一语音段对应的数据点中每个数据点的幅值进行调整;
[0124]
和/或
[0125]
基于所述目标调整参数及所述第一非语音段的能量均值确定第八调整参数,基于所述第八调整参数对所述第一非语音段对应的数据点中每个数据点的幅值进行调整。
[0126]
其中,以所述目标调整参数为预设指标值与第一指标值的比值为例,所述第一语音段对应的数据点可以是第七数据点,第七调整参数可以为所述目标调整参数、所述第一语音段的能量均值及第一语音段包括的第七数据点的数据点个数的乘积的开方值,示例地,第七调整参数a7可以为:
[0127][0128]
其中,scale为目标调整参数espeech为第一语音段的能量均值,m为第一语音段包括的第七数据点的数据点个数。
[0129]
需要说明的是,基于所述第七调整参数对所述第一语音段对应的数据点中每个数据点的幅值进行调整,可以是,对于每个第七数据点,将每个第七数据点的幅值乘以第七调整参数a7。在通过计算得到第一语音段的能量均值espeech的情况下,针对第i个第七数据点,获取第七数据点的xi与第七调整参数a7的乘积,将该乘积与第七幅值均值的和值确定为调整后的第i个第七数据点的幅值。
[0130]
另外,以所述目标调整参数为预设指标值与第一指标值的比值为例,所述第一非语音段对应的数据点可以是第八数据点,第八调整参数可以为所述目标调整参数、所述第一非语音段的能量均值及第一非语音段包括的第八数据点的数据点个数的乘积的开方值,示例地,第八调整参数a8可以为:
[0131][0132]
其中,scale为目标调整参数,enoise为第一非语音段的能量均值,m为第一非语音
段包括的第八数据点的数据点个数。
[0133]
需要说明的是,基于所述第八调整参数对所述第一非语音段对应的数据点中每个数据点的幅值进行调整,可以是,对于每个第八数据点,将每个第八数据点的幅值除以第八调整参数a8。在通过计算得到第一非语音段的能量均值enoise的情况下,针对第i个第八数据点,获取第八数据点的xi与第八调整参数a8的商值,将该商值与第二幅值均值的和值确定为调整后的第i个第八数据点的幅值。
[0134]
该实施方式中,基于所述第七调整参数对所述第一语音段对应的数据点中每个数据点的幅值进行调整,或者,基于所述第八调整参数对所述第一非语音段对应的数据点中每个数据点的幅值进行调整。这样,从第一语音的语音段及非语音段的维度,对所述第一语音段对应的数据点或所述第一非语音段对应的数据点的幅值进行调整,以使得第一语音的语音干净程度满足预设指标值,从而能够获得语音干净程度较高的训练样本。
[0135]
参见图2,图2是本公开实施例提供的一种样本确定装置的结构示意图,如图2所示,样本确定装置200包括:
[0136]
分割模块201,用于对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;
[0137]
第一确定模块202,用于基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;
[0138]
第二确定模块203,用于基于所述第一指标值与预设指标值确定目标调整参数;
[0139]
第三确定模块204,用于基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。
[0140]
可选地,所述第一指标值与如下至少一项正相关:
[0141]
第一比值,第二比值,第三比值,第四比值;
[0142]
其中,所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值,所述第二语音段基于所述第一语音段进行低通滤波处理后获得,所述第三语音段基于所述第一语音段进行高通滤波处理后获得;
[0143]
所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值,所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得,所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得;
[0144]
所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值,所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点,所述第二数据点为所述第一语音段中除所述第一数据点外的数据点;
[0145]
所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。
[0146]
可选地,所述第一确定模块具体用于:
[0147]
分别获取第一乘积、第二乘积、第三乘积及第四乘积,所述第一乘积为第一权重系数与所述第一比值的乘积,所述第二乘积为第二权重系数与所述第二比值的乘积,所述第三乘积为第三权重系数与所述第三比值的乘积,所述第四乘积为第四权重系数与所述第四比值的乘积;
[0148]
基于所述第一乘积、第二乘积、第三乘积及第四乘积确定所述第一语音的第一指标值。
[0149]
可选地,所述第三确定模块具体用于:
[0150]
基于所述目标调整参数及所述第二语音段的能量均值确定第一调整参数,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整;
[0151]
和/或,基于所述目标调整参数及所述第三语音段的能量均值确定第二调整参数,基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值进行调整;
[0152]
将调整后的第一语音确定为用于模型训练的训练样本。
[0153]
可选地,所述第三确定模块具体用于:
[0154]
基于所述目标调整参数及所述第二非语音段的能量均值确定第三调整参数,基于所述第三调整参数对所述第二非语音段对应的数据点中每个数据点的幅值进行调整;
[0155]
和/或,基于所述目标调整参数及所述第三非语音段的能量均值确定第四调整参数,基于所述第四调整参数对所述第三非语音段对应的数据点中每个数据点的幅值进行调整;
[0156]
将调整后的第一语音确定为用于模型训练的训练样本。
[0157]
可选地,所述第三确定模块具体用于:
[0158]
基于所述目标调整参数及所述第一数据点的能量均值确定第五调整参数,基于所述第五调整参数对所述第一数据点的幅值进行调整;
[0159]
和/或,基于所述目标调整参数及所述第二数据点的能量均值确定第六调整参数,基于所述第六调整参数对所述第二数据点的幅值进行调整;
[0160]
将调整后的第一语音确定为用于模型训练的训练样本。
[0161]
可选地,所述第三确定模块具体用于:
[0162]
基于所述目标调整参数及所述第一语音段的能量均值确定第七调整参数,基于所述第七调整参数对所述第一语音段对应的数据点中每个数据点的幅值进行调整;
[0163]
和/或,基于所述目标调整参数及所述第一非语音段的能量均值确定第八调整参数,基于所述第八调整参数对所述第一非语音段对应的数据点中每个数据点的幅值进行调整;
[0164]
将调整后的第一语音确定为用于模型训练的训练样本。
[0165]
语音评估装置能够实现图1的方法实施例中实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0166]
如图3所示,本公开实施例还提供了一种电子设备300,包括:存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序,所述程序被所述处理器301执行时实现上述样本确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0167]
本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述样本确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0168]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0169]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
[0170]
上面结合附图对本公开的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

技术特征:


1.一种样本确定方法,其特征在于,所述方法包括:对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。2.根据权利要求1所述的方法,其特征在于,所述第一指标值与如下至少一项正相关:第一比值,第二比值,第三比值,第四比值;其中,所述第一比值为第二语音段的能量均值与第三语音段的能量均值的比值,所述第二语音段基于所述第一语音段进行低通滤波处理后获得,所述第三语音段基于所述第一语音段进行高通滤波处理后获得;所述第二比值为第二非语音段的能量均值与第三非语音段的能量均值的比值,所述第二非语音段基于所述第一非语音段进行低通滤波处理后获得,所述第三非语音段基于所述第一非语音段进行高通滤波处理后获得;所述第三比值为第一数据点的能量均值与第二数据点的能量均值的比值,所述第一数据点为所述第一语音段的基频对应的数据点及所述基频的倍频对应的数据点,所述第二数据点为所述第一语音段中除所述第一数据点外的数据点;所述第四比值为所述第一语音段的能量均值与所述第一非语音段的能量均值的比值。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,包括:分别获取第一乘积、第二乘积、第三乘积及第四乘积,所述第一乘积为第一权重系数与所述第一比值的乘积,所述第二乘积为第二权重系数与所述第二比值的乘积,所述第三乘积为第三权重系数与所述第三比值的乘积,所述第四乘积为第四权重系数与所述第四比值的乘积;基于所述第一乘积、第二乘积、第三乘积及第四乘积确定所述第一语音的第一指标值。4.根据权利要求2或3所述的方法,其特征在于,所述基于所述目标调整参数对所述第一语音进行调整,包括:基于所述目标调整参数及所述第二语音段的能量均值确定第一调整参数,基于所述第一调整参数对所述第二语音段对应的数据点中每个数据点的幅值进行调整;和/或基于所述目标调整参数及所述第三语音段的能量均值确定第二调整参数,基于所述第二调整参数对所述第三语音段对应的数据点中每个数据点的幅值进行调整。5.根据权利要求2或3所述的方法,其特征在于,所述基于所述目标调整参数对所述第一语音进行调整,包括:基于所述目标调整参数及所述第二非语音段的能量均值确定第三调整参数,基于所述第三调整参数对所述第二非语音段对应的数据点中每个数据点的幅值进行调整;和/或基于所述目标调整参数及所述第三非语音段的能量均值确定第四调整参数,基于所述
第四调整参数对所述第三非语音段对应的数据点中每个数据点的幅值进行调整。6.根据权利要求2或3所述的方法,其特征在于,所述基于所述目标调整参数对所述第一语音进行调整,包括:基于所述目标调整参数及所述第一数据点的能量均值确定第五调整参数,基于所述第五调整参数对所述第一数据点的幅值进行调整;和/或基于所述目标调整参数及所述第二数据点的能量均值确定第六调整参数,基于所述第六调整参数对所述第二数据点的幅值进行调整。7.根据权利要求2或3所述的方法,其特征在于,所述基于所述目标调整参数对所述第一语音进行调整,包括:基于所述目标调整参数及所述第一语音段的能量均值确定第七调整参数,基于所述第七调整参数对所述第一语音段对应的数据点中每个数据点的幅值进行调整;和/或基于所述目标调整参数及所述第一非语音段的能量均值确定第八调整参数,基于所述第八调整参数对所述第一非语音段对应的数据点中每个数据点的幅值进行调整。8.一种样本确定装置,其特征在于,所述装置包括:分割模块,用于对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;第一确定模块,用于基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;第二确定模块,用于基于所述第一指标值与预设指标值确定目标调整参数;第三确定模块,用于基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至7中任一项所述的样本确定方法中的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的样本确定方法中的步骤。

技术总结


本公开提供一种样本确定方法、装置及电子设备,所述方法包括:对第一语音进行语音分割,得到所述第一语音对应的第一语音段和第一非语音段;基于所述第一语音段和/或所述第一非语音段确定所述第一语音的第一指标值,所述第一指标值用于指示所述第一语音的语音干净程度;基于所述第一指标值与预设指标值确定目标调整参数;基于所述目标调整参数对所述第一语音进行调整,将调整后的第一语音确定为用于模型训练的训练样本。本公开实施例能够提高模型训练的效果。训练的效果。训练的效果。


技术研发人员:

李良斌

受保护的技术使用者:

北京声智科技有限公司

技术研发日:

2022.08.02

技术公布日:

2022/11/3

本文发布于:2024-09-22 02:04:51,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/12973.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   语音   据点   参数
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议