语音标注质量评价方法、装置、电子设备与存储介质与流程

1.本发明涉及语音信号处理技术领域，尤其涉及一种语音标注质量评价方法、装置、电子设备与存储介质。

背景技术：

2.现实的语音识别业务中，某些通用场景中识别效果较好的模型迁移到特定场景后，识别效果下降明显，通常需要收集这些特定场景的语料进行标注，然后应用通用场景的模型来迭代，以期达到更好的识别效果。这些语料标注的质量直接决定模型训练效果的好坏，因此，语音标注质量的核查至关重要。
3.目前，语音标注质量的核查方式为人工核验，分为两个阶段，第一个阶段为全检，需要对全量的标注数据进行检查，另一阶段为质检，会从全检的数据随机抽查一定的比例数据再次检查，只有两个阶段都核验合格的数据，才能用于后续模型的迭代训练。然而，此种核查方式特别耗费人力及时间，特别是第一个阶段，需要对标注数据进行逐条核验，特别耗时。

技术实现要素：

4.本发明提供一种语音标注质量评价方法、装置、电子设备与存储介质，用以解决现有技术中标注数据的质量核查耗费人力及时间成本的缺陷。
5.本发明提供一种语音标注质量评价方法，包括：
6.确定样本语音的标注文本；
7.基于所述标注文本进行语音合成，得到合成语音；
8.基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；
9.基于所述声学相似度，确定标注质量评价结果。
10.根据本发明提供的一种语音标注质量评价方法，所述基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度，包括：
11.基于高斯混合模型，确定所述样本语音对应的声学特征的声学分布向量，所述高斯混合模型基于训练语音对应的训练声学特征训练得到；
12.基于所述高斯混合模型，确定所述合成语音对应的声学特征的声学分布向量；
13.基于所述样本语音和所述合成语音分别对应的声学分布向量，确定所述样本语音与所述合成语音之间的声学相似度。
14.根据本发明提供的一种语音标注质量评价方法，所述基于高斯混合模型，确定所述样本语音对应的声学特征的声学分布向量，包括：
15.基于所述样本语音对应的声学特征，确定所述高斯混合模型中的各个高斯分量的混合系数；
16.基于所述各个高斯分量的混合系数，确定所述样本语音对应的声学分布向量。
17.根据本发明提供的一种语音标注质量评价方法，所述基于所述各个高斯分量的混合系数，确定所述样本语音对应的声学分布向量，包括：
18.将所述高斯混合模型中的各个高斯分量按照对应的概率从大到小的顺序进行排序，并选取排在前列的预设数量的高斯分量组成更新后的高斯混合模型，所述对应的概率为所述样本语音对应的声学特征属于所述各个高斯分量的概率；
19.基于所述更新后的高斯混合模型的各个高斯分量的混合系数，确定所述样本语音对应的声学分布向量。
20.根据本发明提供的一种语音标注质量评价方法，所述基于所述声学相似度，确定标注质量评价结果，包括：
21.基于所述声学相似度，以及所述标注文本的语法评价结果，确定所述标注质量评价结果。
22.根据本发明提供的一种语音标注质量评价方法，所述标注文本的语法评价结果基于如下步骤确定：
23.基于语言模型，确定所述标注文本的混淆度；
24.基于所述标注文本的混淆度，确定所述标注文本的语法评价结果。
25.根据本发明提供的一种语音标注质量评价方法，所述合成语音包括多个预设倍速的语音。
26.本发明还提供一种语音标注质量评价装置，包括：
27.文本确定单元，用于确定样本语音的标注文本；
28.语音合成单元，用于基于所述标注文本进行语音合成，得到合成语音；
29.相似度确定单元，用于基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；
30.质量评价单元，用于基于所述声学相似度，确定标注质量评价结果。
31.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音标注质量评价方法。
32.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音标注质量评价方法。
33.本发明提供的语音标注质量评价方法、装置、电子设备与存储介质，通过根据标注文本进行语音合成得到合成语音，并根据样本语音和合成语音分别提取得到的声学特征，确定样本语音与合成语音之间的声学相似度，再根据声学相似度确定标注质量评价结果，从而可以实现标注文本的准确质量评价，进而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。
附图说明
34.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1是本发明提供的语音标注质量评价方法的流程示意图；
36.图2是本发明提供的声学相似度的确定方法的流程示意图；
37.图3是本发明提供的声学分布向量的确定方法的流程示意图之一；
38.图4是本发明提供的声学分布向量的确定方法的流程示意图之二；
39.图5是本发明提供的语法评价结果的确定方法的流程示意图；
40.图6是本发明提供的语音标注质量评价装置的结构示意图；
41.图7是本发明提供的电子设备的结构示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
43.随着深度学习技术在语音识别领域的突破，连续语音识别技术已广泛应用于教育、娱乐、医疗、交通等各行各业，应用的效果得到了业界的普遍认可。但由于连续语音识别技术属于典型的数据驱动性、有监督学习的模式识别技术，训练数据所覆盖的数量与质量直接影响着系统的识别性能。由于行业领域的不同，同一个语种的连续语音识别任务，所要识别的数据具有非常明显的差异性，包括信道、文本主题、说话人、环境噪声等因素，这些差异性的客观存在，导致难以建立一个各行业领域通用的连续语音识别系统。现实的语音识别业务中，某些通用场景中识别效果较好的模型迁移到特定场景后，识别效果下降明显，通常需要收集这些特定场景的语料进行标注，然后应用通用场景的模型来迭代训练。这些语料标注的质量直接决定模型训练效果的好坏，因此，语音标注质量的核查至关重要。
44.目前，语音标注质量的核查方式为人工核验，分为两个阶段，第一个阶段为全检，需要对全量的标注数据进行检查，另一阶段为质检，会从全检的数据随机抽查一定的比例数据再次检查，只有两个阶段都核验合格的数据，才能视为合格的标注数据，从而可以有效保障标注数据的质量。然而，此种核查方式特别耗费人力及时间，特别是第一个阶段，需要对标注数据进行逐条核验，特别耗时。
45.针对上述问题，本发明提供一种语音标注质量评价方法。图1是本发明提供的语音标注质量评价方法的流程示意图，如图1所示，该方法包括：
46.步骤110，确定样本语音的标注文本。
47.此处，样本语音即可以作为语音识别模型的训练样本的语音数据，具体可以是通过收音设备预先采集得到的，也可以是实时录制得到的，本发明实施例对此不作具体限定。获取到样本语音之后，对样本语音进行语音标注处理，即可得到样本语音的标注文本。
48.步骤120，基于标注文本进行语音合成，得到合成语音；
49.步骤130，基于样本语音和合成语音分别对应的声学特征，确定样本语音与合成语音之间的声学相似度；
50.步骤140，基于声学相似度，确定标注质量评价结果。
51.具体地，考虑到现有技术中对于语音标注质量采用人工核查的方式，效率低下，人力成本较高，针对这一问题，本发明实施例首先根据标注文本进行语音合成，得到合成语
音，随即对样本语音和合成语音分别进行特征提取，得到样本语音和合成语音分别对应的声学特征再基于此确定样本语音与合成语音之间的声学相似度，最后根据该声学相似度对标注文本的标注质量进行评价，得到标注质量评价结果，从而极大提升了标注文本的核查效率，同时节省了人力及时间成本。
52.需要说明的是，声学相似度可以表征样本语音与合成语音之间的声学相关度，声学相关度越大，表明样本语音与合成语音的声学发音越相似，样本语音与合成语音的内容相同的概率就越高，合成语音的由来即标注文本就会越准确，因此，可以根据样本语音与合成语音之间的声学相似度，得到较为准确的标注质量评价结果，从而可以有效保障标注数据的质量，为后续语音识别模型的优化打下坚实的数据基础。
53.此处，在基于标注文本进行语音合成时，可以仅合成单个倍速的语音，也可以合成多个倍速的语音。样本语音和合成语音分别对应的声学特征，具体可以是lpc(linear prediction coefficient，线性预测系数)、mfccs(mel frequency cepstral coefficients，梅尔频率倒谱系数)或plp(perceptual linear predictive，感知线性预测)等或其任意组合，本发明实施例对此不作具体限定。
54.在确定声学相似度时，可以直接根据样本语音的声学特征与合成语音的声学特征之间的相似度确定声学相似度，也可以分别对样本语音的声学特征和合成语音的声学特征进行处理，再根据处理后的特征之间的相似度确定声学相似度。在基于声学相似度确定标注质量评价结果时，可以仅根据声学相似度进行确定，也可以结合语法等其它层面的评价结果进行确定，本发明实施例对此也不作具体限定。
55.另外，标注质量评价结果可以是具体的质量评分，也可以是标注文本所属的质量等级，本发明实施例对此也不作具体限定。进一步地，根据标注质量评价结果可以判断标注文本是否合格，如果合格，则可以用于后续语音识别模型的迭代训练，如果不合格，则可以对样本语音进行重新标注或者对标注文本进行修正等处理。
56.本发明实施例提供的方法，通过根据标注文本进行语音合成得到合成语音，并根据样本语音和合成语音分别提取得到的声学特征，确定样本语音与合成语音之间的声学相似度，再根据声学相似度确定标注质量评价结果，从而可以实现标注文本的准确质量评价，进而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。
57.基于上述实施例，图2是本发明提供的声学相似度的确定方法的流程示意图，如图2所示，步骤130包括：
58.步骤131，基于高斯混合模型，确定样本语音对应的声学特征的声学分布向量，高斯混合模型基于训练语音对应的训练声学特征训练得到；
59.步骤132，基于高斯混合模型，确定合成语音对应的声学特征的声学分布向量；
60.步骤133，基于样本语音和合成语音分别对应的声学分布向量，确定样本语音与合成语音之间的声学相似度。
61.具体地，考虑到高斯混合模型可以利用混合的多个高斯分布分量拟合任意精度的概率分布，本发明实施例应用高斯混合模型基于输入的样本语音的声学特征，分析该样本语音在声学空间上的分布，从而得到能够表征样本语音在声学空间上分布的声学分布向量，类似地，还应用高斯混合模型基于输入的合成语音的声学特征，得到能够表征合成语音
在声学空间上分布的声学分布向量。
62.在此基础上，即可计算样本语音对应的声学分布向量与合成语音对应的声学分布向量之间的相似度，由此确定样本语音与合成语音之间的声学相似度，此处的声学相似度用于表征样本语音与合成语音之间的声学相关度。此处，相似度例如可以是余弦相似度、jaccard相似度等，本发明实施例对此不作具体限定。可以理解的是，不同语音声学特征的统计分布不同，因此，通过比较不同语音的高斯混合模型输出的声学分布向量，就可以判别出样本语音与合成语音的声学发音是否相同，由此确定声学相似度。
63.另外，在执行步骤131和步骤132之前，需要预先基于训练语音的训练声学特征对初始模型进行训练，从而得到高斯混合模型。训练语音可以与样本语音同属于一个语种，也可以与样本语音同属于一个具体场景，例如，中文通话场景，本发明实施例对此不作具体限定。初始模型的参数可以是随机初始化得到，也可以是通过k-means聚类等算法得到，本发明实施例对此也不作具体限定。
64.需要说明的是，步骤131和步骤132可以同步执行，也可以先执行步骤131再执行步骤132，或者先执行步骤132再执行步骤131，本发明实施例对此也不作具体限定。
65.基于上述任一实施例，图3是本发明提供的声学分布向量的确定方法的流程示意图之一，如图3所示，步骤131包括：
66.步骤1311，基于样本语音对应的声学特征，确定高斯混合模型中的各个高斯分量的混合系数；
67.步骤1312，基于各个高斯分量的混合系数，确定样本语音对应的声学分布向量。
68.具体地，在将样本语音对应的声学特征输入到高斯混合模型中之后，可以根据高斯混合模型中的各个高斯分量的权重分布，即各个高斯分量的混合系数，分析该样本语音在声学空间上的分布，从而得到能够表征样本语音在声学空间上分布的声学分布向量。
69.此处，声学分布向量可以是直接由当前所有高斯分量的混合系数组成的，也可以是从其中选取部分高斯分量组成更新后的高斯混合模型，再根据更新后的高斯混合模型的高斯分量的混合系数组成的，本发明实施例对此不作具体限定。
70.类似地，可以将合成语音对应的声学特征输入到高斯混合模型中，根据合成语音对应的各个高斯分量的混合系数，确定能够表征合成语音在声学空间上分布的声学分布向量。
71.基于上述任一实施例，图4是本发明提供的声学分布向量的确定方法的流程示意图之二，如图4所示，步骤1312包括：
72.步骤1312-1，将高斯混合模型中的各个高斯分量按照对应的概率从大到小的顺序进行排序，并选取排在前列的预设数量的高斯分量组成更新后的高斯混合模型，对应的概率为样本语音对应的声学特征属于各个高斯分量的概率；
73.步骤1312-2，基于更新后的高斯混合模型的各个高斯分量的混合系数，确定样本语音对应的声学分布向量。
74.具体地，可以按照样本语音对应的声学特征属于各个高斯分量的概率从大到小的顺序，对高斯混合模型中的各个高斯分量进行排序，并选取排在前列的预设数量的高斯分量组成更新后的高斯混合模型，由于更新后的高斯混合模型所包括的高斯分量的数目减少，混合系数也需要随之更新，在此基础上，即可根据更新后的高斯混合模型的各个高斯分
量的混合系数，得到样本语音对应的声学分布向量。
75.进一步地，样本语音的声学特征属于各个高斯分量的概率ni可以通过如下公式确定：
[0076][0077][0078]
其中，x
t
表示当前第t帧的样本语音的声学特征，t为样本语音的总帧数，p(i|x
t
)表示x
t
属于第i个高斯分量的概率，wi为高斯混合模型的第i个高斯分量的混合系数，ni(
·
)为高斯混合模型的第i个高斯分量，m为高斯混合模型的高斯混合数，即高斯分量的数目。
[0079]
得到ni之后，可以按照概率ni从大到小的顺序对各个高斯分量进行排序，取概率较大的前k名的高斯分量组成更新后的高斯混合模型，计算公式如下：
[0080][0081][0082][0083]
其中，表示更新后的高斯混合模型的第i个高斯分量的混合系数，取值相同，受ni及τ调控，τ为经验参数，取值在一个范围区间，如[10，50]之间的一个实数值，γ为混合系数的调节因子，用来控制的累加之和为1，k即步骤1312-1中的预设数量，是可以调节的整数值，k的范围区间在(1，m]。
[0084]
得到更新后的高斯混合模型之后，即可取出更新后的高斯混合模型中的所有高斯分量的混合系数将其拼接成样本语音对应的声学分布向量。
[0085]
类似地，也可以通过上述方式得到合成语音对应的声学分布向量。
[0086]
基于上述任一实施例，基于声学相似度，确定标注质量评价结果，包括：
[0087]
基于声学相似度，以及标注文本的语法评价结果，确定标注质量评价结果。
[0088]
具体地，考虑到如果仅从声学层面对标注文本进行质量评价的方式，对于标注文本中出现同音词错误的情况，无法保证评价的准确性，对此，本发明实施例根据样本语音与合成语音之间的声学相似度确定标注文本的声学评价结果，并结合标注文本的语法评价结果，对标注文本的质量进行评价，从而得到标注质量评价结果。
[0089]
此处，标注文本的语法评价结果可以表征标注文本符合语言习惯的程度，例如可以是根据标注文本的混淆度、交叉熵等指标确定的，本发明实施例对此不作具体限定。
[0090]
本发明实施例提供的方法，综合声学发音层面及语法层面对标注文本进行质量评
价，避免了单一评价算法检查不全面的情况，例如标注文本中出现同音词错误的情况，或者标注文本符合人的语言习惯，但与原始的样本语音发音不对应的情况，都可以实现准确的质量评价，从而可以保证标注文本检查的准确性，为后续的语音识别模型优化打下坚实的数据基础。
[0091]
基于上述任一实施例，图5是本发明提供的语法评价结果的确定方法的流程示意图，如图5所示，标注文本的语法评价结果基于如下步骤确定：
[0092]
步骤510，基于语言模型，确定标注文本的混淆度；
[0093]
步骤520，基于标注文本的混淆度，确定标注文本的语法评价结果。
[0094]
具体地，可以将标注文本输入到语言模型中，得到语言模型输出的标注文本中每个词的概率，再基于此计算标注文本的混淆度(perplexity，ppl)，随即，根据标注文本的混淆度，从语法层面对标注文本进行评价，从而得到标注文本的语法评价结果。
[0095]
此处，语言模型例如可以采用ngram、rnn(recurrent neural network，循环神经网络)等模型构建，本发明实施例对此不作具体限定。可以先收集大量与标注文本语种相同的样本文本，再应用样本文本对初始语言模型进行训练，从而得到语言模型。
[0096]
需要说明的是，标注文本的混淆度即困惑度越低，标注文本中每个词的概率就会越高，标注文本就越符合语言交流习惯，因此可以根据标注文本的混淆度从语法层面对标注文本进行评价，从而能够得到较为准确的语法评价结果。
[0097]
进一步地，在得到标注文本的混淆度ppl之后，可以根据标注文本的词数l，计算平均ppl分数ppl
avg
，并将其作为标注文本的语法评价结果，如下：
[0098][0099]
基于上述任一实施例，合成语音包括多个预设倍速的语音。
[0100]
具体地，为了增加合成语音的多样性，进一步提升从声学层面上对标注文本的质量评估的精度，本发明实施例中利用语音合成技术将标注文本随机合成多个预设倍速的语音，此处的多个例如可以是3个、5个、8个等，预设倍速例如可以是0.8、1.0、1.2倍速等，随即，分别计算各个预设倍速的语音与样本语音之间的声学相似度，再基于此确定标注文本的标注质量评价结果。
[0101]
此处，在确定标注文本的标注质量评价结果时，可以根据各个预设倍速的语音与样本语音之间的声学相似度中最大的声学相似度确定标注质量评价结果，也可以根据各个预设倍速的语音与样本语音之间的声学相似度计算平均值，再根据平均值确定标注质量评价结果，本发明实施例对此不作具体限定。
[0102]
基于上述任一实施例，本发明提供的语音标注质量评价方法具体包括模型训练及语音标注质量评价两个阶段。具体如下所述：
[0103]
一、模型训练阶段：
[0104]
s1、收集与样本语音同源的训练语音，无需标注信息，为了保证训练数据量，提升模型的训练效果，要求收集的语音数据的有效时长不低于预设时长，例如500小时。
[0105]
s2、对步骤s1中的训练语音滤除噪声后提取plp特征作为训练声学特征，plp特征为一种语音识别所用的特征，已广泛应用到语音识别中，且已有很多开源工具可以提取该特征。
[0106]
s3、设置高斯混合模型(gaussian mixed model，gmm)的高斯混合数m，利用k-means聚类得到高斯混合模型的初始模型，之后利用em算法(expectation-maximization algorithm，期望最大算法)对步骤s2中的训练声学特征作迭代训练，训练初始模型，反复迭代至初始模型收敛，从而得到高斯混合模型。此处，m为一个整数值，如取1024，一般来说，当步骤s1中的数据越多，m值可以设置得越大。
[0107]
s4、获取大量与标注文本语种相同的文本语料。
[0108]
s5、利用步骤s4中收集的文本语料，训练ngram初始语言模型，从而得到语言模型。一般而言，3gram语言模型已经够用了，如果n值继续增大，会导致训练的语料急剧增加。
[0109]
通过以上步骤得到高斯混合模型及语言模型。
[0110]
二、语音标注质量评价阶段：
[0111]
s6、对待检查的样本语音x_real，其对应的标注文本为text_x。采用语音合成工具利用text_x，随机合成多种预设倍速的语音，例如分别按照0.8、1.0、1.2倍速合成对应的语音数据，分别记为x_synthesis_0.8、x_synthesis_1.0、x_synthesis_1.2，后续将以此为例进行详细说明。
[0112]
s7、对步骤s6中的样本语音x_real及合成语音x_synthesis_0.8、x_synthesis_1.0、x_synthesis_1.2，提取对应的plp特征作为声学特征，记为plp_real、plp_synthesis_0.8、plp_synthesis_1.0、plp_synthesis_1.2。
[0113]
s8、加载步骤s3训练阶段得到的高斯混合模型，分别输入步骤s7中产生的样本语音及合成语音分别对应的声学特征，得到高斯混合模型的如下参数：
[0114][0115][0116][0117][0118]
其中，ni为语音数据的声学特征属于第i个高斯分量的概率，即第i个高斯占有量，此处的语音数据可以是样本语音或合成语音，x
t
表示当前第t帧的语音数据的声学特征，t为语音数据的总帧数，p(i|x
t
)表示x
t
属于第i个高斯分量的概率，wi为高斯混合模型的第i个高斯分量的混合系数，ni(
·
)为高斯混合模型的第i个高斯分量(一个高斯分量代表一个正态分布)，m为训练步骤s3中指定的高斯混合数。
[0119]
按照高斯占有量ni从大到小进行排序，从高斯混合模型中选择前k名的高斯分量组成更新后的高斯混合模型，计算公式如下：
[0120][0121][0122][0123][0124][0125]
其中，及分别表示更新后的高斯混合模型的第i个高斯分量的混合系数、均值及方差，取值相同，受ni及τ调控，τ为经验参数，取值在一个范围区间，如[10，50]之间的一个实数值，γ为混合系数的调节因子，用来控制的累加之和为1，μi及表示更新前的高斯混合模型的第i个高斯分量的均值及方差，k是可以调节的整数值，k的范围区间在(1，m]。
[0126]
取出更新后的高斯混合模型的所有高斯分量的混合系数拼接成声学分布向量kvector，由于高斯混合模型反映了一种声学空间的分布，故kvector可以表征对应语音数据在声学空间上的分布。
[0127]
按照以上步骤分别得到plp_real、plp_synthesis_0.8、plp_synthesis_1.0、plp_synthesis_1.2对应的kvector_real、kvector_synthesis_0.8、kvector_synthesis_1.0、kvector_synthesis_1.2。
[0128]
s9、分别计算kvector_real与kvector_synthesis_0.8、kvector_synthesis_1.0、kvector_synthesis_1.2之间的余弦相似度作为x_real与x_synthesis_0.8、x_synthesis_1.0、x_synthesis_1.2之间的声学相似度，分别记为cos_sim
0.8
、cos_sim
1.0
、cos_sim
1.2
，并取平均得到cos_sim
avg
，如下式：
[0129][0130][0131]
一般而言，cos_sim
avg
值越大，说明样本语音与合成语音之间的发音越相似，即标注文本越可能是正确的，但不排除正确文本和当前的标注文本之间存在部分词发音相同但文字不同的情况，故需要通过下面的语言模型评分进行进一步条件约束。
[0132]
s10、加载训练阶段步骤s5的ngram语言模型，利用语言模型对步骤s6阶段的text_x计算混淆度ppl，记text_x的词数为l，得到平均ppl分数，记为ppl
avg
。
[0133][0134]
一般ppl
avg
值越低，表示该标注文本越符合人的语言交流习惯，即从语法层面排除标注错误的可能，约束标注时存在的同音词错误情况的发生。
[0135]
s11、根据步骤s9中的cos_sim
avg
，步骤s10中的ppl
avg
，计算样本语音的标注文本的标注质量评价结果，即声学及语言学层面上的综合评分score，如下式所示：
[0136]
score＝α
·
cos_sim
avg-β
·
ppl
avg
[0137]
其中，α及β为调节因子，取值可以根据实际情况而定。
[0138]
s12、设定预设阈值score_thred，根据预设阈值判别最终的标注文本是否合格，即如果当前标注文本的综合评分score大于score_thred，则判为标注合格；否则判断为不合格，需要对样本语音进行重新标注。此处，预设阈值可以是经验值，也可以是根据不同情况而调整的值，本发明实施例对此不作具体限定。
[0139]
通过以上步骤，完成了标注文本的质量评价，可以实现从一批原始标注数据中快速筛查出不合格的连续语音标注数据，将不合格的标注数据进行修正，而对合格的标注数据无需进行改动，极大加快了标注数据的检查进度，极大节省了人力及时间成本。
[0140]
针对连续语音的标注文本的检查任务，本发明实施例首先利用语音合成技术将标注的文本合成多个预设倍速的音频数据，之后采用高斯混合模型计算合成语音与样本语音各自的高斯占有量，取各自高斯占有量较大的前k个高斯分量组成更新后的高斯混合模型，根据更新后的高斯混合模型的高斯分量的混合系数组成声学分布向量，计算合成语音和样本语音的声学分布向量之间的余弦相似度作为两者的声学相似度，基于此得到声学评价结果，接着采用ngram语言模型对标注文本进行语法评分，最后将声学评价结果与语法评价结果进行加权融合，并根据预设阈值判别标注文本是否合格，从而挑选出不合格的标注数据供检查员检查，可以极大地加快标注数据的检查速度，为后续语音识别模型的优化打下坚实的数据基础。
[0141]
下面对本发明提供的语音标注质量评价装置进行描述，下文描述的语音标注质量评价装置与上文描述的语音标注质量评价方法可相互对应参照。
[0142]
基于上述任一实施例，图6是本发明提供的语音标注质量评价装置的结构示意图，如图6所示，该装置包括：
[0143]
文本确定单元610，用于确定样本语音的标注文本；
[0144]
语音合成单元620，用于基于标注文本进行语音合成，得到合成语音；
[0145]
相似度确定单元630，用于基于样本语音和合成语音分别对应的声学特征，确定样本语音与合成语音之间的声学相似度；
[0146]
质量评价单元640，用于基于声学相似度，确定标注质量评价结果。
[0147]
本发明实施例提供的装置，通过根据标注文本进行语音合成得到合成语音，并根据样本语音和合成语音分别提取得到的声学特征，确定样本语音与合成语音之间的声学相似度，再根据声学相似度确定标注质量评价结果，从而可以实现标注文本的准确质量评价，进而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。
[0148]
基于上述任一实施例，相似度确定单元630包括：
[0149]
样本语音分析单元，用于基于高斯混合模型，确定样本语音对应的声学特征的声学分布向量，高斯混合模型基于训练语音对应的训练声学特征训练得到；
[0150]
合成语音分析单元，用于基于高斯混合模型，确定合成语音对应的声学特征的声学分布向量；
[0151]
声学相似度确定单元，用于基于样本语音和合成语音分别对应的声学分布向量，确定样本语音与合成语音之间的声学相似度。
[0152]
基于上述任一实施例，样本语音分析单元包括：
[0153]
混合系数确定单元，用于基于样本语音对应的声学特征，确定高斯混合模型中的各个高斯分量的混合系数；
[0154]
声学分布向量确定单元，用于基于各个高斯分量的混合系数，确定样本语音对应的声学分布向量。
[0155]
基于上述任一实施例，声学分布向量确定单元用于：
[0156]
将高斯混合模型中的各个高斯分量按照对应的概率从大到小的顺序进行排序，并选取排在前列的预设数量的高斯分量组成更新后的高斯混合模型，对应的概率为样本语音对应的声学特征属于各个高斯分量的概率；
[0157]
基于更新后的高斯混合模型的各个高斯分量的混合系数，确定样本语音对应的声学分布向量。
[0158]
基于上述任一实施例，质量评价单元640用于：
[0159]
基于声学相似度，以及标注文本的语法评价结果，确定标注质量评价结果。
[0160]
基于上述任一实施例，标注文本的语法评价结果基于如下步骤确定：
[0161]
基于语言模型，确定标注文本的混淆度；
[0162]
基于标注文本的混淆度，确定标注文本的语法评价结果。
[0163]
基于上述任一实施例，合成语音包括多个预设倍速的语音。
[0164]
图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行语音标注质量评价方法，该方法包括：确定样本语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；基于所述声学相似度，确定标注质量评价结果。
[0165]
此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0166]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机
程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音标注质量评价方法，该方法包括：确定样本语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；基于所述声学相似度，确定标注质量评价结果。
[0167]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音标注质量评价方法，该方法包括：确定样本语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；基于所述声学相似度，确定标注质量评价结果。
[0168]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0169]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0170]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种语音标注质量评价方法，其特征在于，包括：确定样本语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；基于所述声学相似度，确定标注质量评价结果。2.根据权利要求1所述的语音标注质量评价方法，其特征在于，所述基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度，包括：基于高斯混合模型，确定所述样本语音对应的声学特征的声学分布向量，所述高斯混合模型基于训练语音对应的训练声学特征训练得到；基于所述高斯混合模型，确定所述合成语音对应的声学特征的声学分布向量；基于所述样本语音和所述合成语音分别对应的声学分布向量，确定所述样本语音与所述合成语音之间的声学相似度。3.根据权利要求2所述的语音标注质量评价方法，其特征在于，所述基于高斯混合模型，确定所述样本语音对应的声学特征的声学分布向量，包括：基于所述样本语音对应的声学特征，确定所述高斯混合模型中的各个高斯分量的混合系数；基于所述各个高斯分量的混合系数，确定所述样本语音对应的声学分布向量。4.根据权利要求3所述的语音标注质量评价方法，其特征在于，所述基于所述各个高斯分量的混合系数，确定所述样本语音对应的声学分布向量，包括：将所述高斯混合模型中的各个高斯分量按照对应的概率从大到小的顺序进行排序，并选取排在前列的预设数量的高斯分量组成更新后的高斯混合模型，所述对应的概率为所述样本语音对应的声学特征属于所述各个高斯分量的概率；基于所述更新后的高斯混合模型的各个高斯分量的混合系数，确定所述样本语音对应的声学分布向量。5.根据权利要求1所述的语音标注质量评价方法，其特征在于，所述基于所述声学相似度，确定标注质量评价结果，包括：基于所述声学相似度，以及所述标注文本的语法评价结果，确定所述标注质量评价结果。6.根据权利要求5所述的语音标注质量评价方法，其特征在于，所述标注文本的语法评价结果基于如下步骤确定：基于语言模型，确定所述标注文本的混淆度；基于所述标注文本的混淆度，确定所述标注文本的语法评价结果。7.根据权利要求1至6中任一项所述的语音标注质量评价方法，其特征在于，所述合成语音包括多个预设倍速的语音。8.一种语音标注质量评价装置，其特征在于，包括：文本确定单元，用于确定样本语音的标注文本；语音合成单元，用于基于所述标注文本进行语音合成，得到合成语音；
相似度确定单元，用于基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；质量评价单元，用于基于所述声学相似度，确定标注质量评价结果。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音标注质量评价方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音标注质量评价方法。

技术总结

本发明提供一种语音标注质量评价方法、装置、电子设备与存储介质，其中方法包括：确定样本语音的标注文本；基于所述标注文本进行语音合成，得到合成语音；基于所述样本语音和所述合成语音分别对应的声学特征，确定所述样本语音与所述合成语音之间的声学相似度；基于所述声学相似度，确定标注质量评价结果。本发明提供的方法、装置、电子设备与存储介质，通过根据样本语音和合成语音分别提取得到的声学特征，确定样本语音与合成语音之间的声学相似度，再根据声学相似度确定标注质量评价结果，从而可以实现标注文本的准确质量评价，进而可以快速筛选出不合格的标注文本，极大提升了标注文本的核查效率，同时极大节省了人力及时间成本。同时极大节省了人力及时间成本。同时极大节省了人力及时间成本。