一种语音识别中快速标注声学模型训练数据的方法与流程

1.本技术涉及语音识别技术领域，具体涉及一种语音识别中声学模型的训练数据快速准备方法。

背景技术：

2.语音识别技术已成为当前人工智能应用的主要技术，其主要解决的问题是通过计算机将语音转化为文本，对给定的波形序列得到相应的单词或字符序列。一般来讲，语音识别系统主要由前端处理、声学模型、语言模型和解码器四个模块组成。其中前端处理主要包括：端点检测、降噪、特征提取三个方面的操作。声学模型、语言模型和解码器属于后端处理，声学模型主要用来构建语音和输出声学单元之间的概率映射关系，语言模型主要用来描述不同字词之间的概率搭配关系，使识别出的句子更通顺自然。
3.语音识别系统构建的过程整体上包括：训练和识别两部分，训练具体是指对声学模型和语言模型的训练，一般离线进行。识别为将用户的语音识别为文本的实际工作过程，一般在线进行。
4.在对声学模型的训练中，需要大量的样本标注音频数据，该数据的获取主要通过人工完成，耗时耗力，成本高昂。而若直接采用语音识别后的标注音频数据作为声学模型的训练样本，会由于语音识别出的标注音频数据质量不稳定，导致使用其作为样本训练基础的声学模型的准确率不高。
5.另外，得到基础的声学模型之后，可能由于某些类别的词语的训练数据不足，引起识别错误。所以，可继续添加合适的易错样本作为训练数据，在已有的语音识别模型的基础上继续微调以提高识别效果。易错样本的准备，通常也只是手动收集，因而准备此类训练数据的过程较慢，影响模型快速迭代优化，导致难以高效提高语音识别的准确率。

技术实现要素：

6.基于此，针对上述技术问题，本发明提供一种语音识别中快速标注声学模型训练数据的方法。
7.第一方面，一种语音识别中快速标注声学模型训练数据的方法，包括：
8.运用已训练的基础的声学模型进行语音识别工作，其中会出现识别错误的词语和句子；
9.对记录的识别错误的词语和句子，使用音频切割工具进行切割，得到识别错误的音频文件，记为wrongpart，wrongpart包含识别的一个或多个词语；
10.将预先准备的正确原始文本句子中对应于所述wrongpart的词语删除，并标记删除位置；删除后得到的原始文本中剩余的文本，记为residuescript；
11.利用语音合成系统将所述residuescript转换为音频文件，记为residuewav，将residuewav与wrongpart按照原始文字位置进行组合，使wrongpart填补所述删除位置，得到一条声学模型的标注数据，记为trainfile；
12.多条不同的trainfile组成用于声学模型微调的训练集trainfiles。
13.上述方案中，可选地，所述预先准备的正确原始文本句子，来自按照以下方式准备的文本句子集：
14.根据设定行业的业务预先进行业务分类，建立常见的业务类型，每种业务类型下获取对应的文本句子集合备用；
15.对于不同业务类型的文本句子，进行切割和再组合，每个业务类型得到扩增后的文本句子，共同组成该业务类型下的文本句子集。
16.上述方案中，可选地，所述已训练的基础的声学模型，按照以下方式得到：
17.获取设定行业批量的待标注音频数据，并按照语音主体身份类型进行划分；
18.对于确定语音主体身份类型的待标注音频数据，调用已有的两种语音识别工具分别进行识别，相应得到第一初步识别结果数据集和第二初步识别结果数据集；
19.使用文本编辑距离算法计算第一初步识别结果数据集与第二初步识别结果数据集之间的文本编辑距离，保留编辑距离小于预设阈值的识别结果及对应的原始音频作为主体数据加入到预标注集，对于编辑距离大于以及等于预设阈值的识别结果，提取部分识别结果及对应的原始音频作为附加数据也加入到预标注集；所述主体数据的音频总时长远大于所述附加数据的源数据的音频总时长；
20.所述预标注集经过校验后作为用于训练声学模型的基础训练集；利用所述基础训练集训练得到基础的声学模型。
21.上述方案中，可选地，所述设定行业为客服领域涉及的行业，所述语音主体身份类型分为客服和客户；相应的，所述按照语音主体身份类型进行划分，具体是按照左右通道进行音频数据的通道分离。
22.上述方案中，可选地，在所述调用已有的两种语音识别工具分别进行识别之前，先使用vad切割音频，得到单独的语句音频。
23.上述方案中，可选地，所述已有的两种语音识别工具，采用腾讯语音识别asr接口和阿里语音识别asr接口。
24.上述方案中，可选地，编辑距离大于以及等于预设阈值的音频总时长，为编辑距离小于预设阈值的音频总时长的20％～40％。
25.上述方案中，可选地，所述附加数据按照以下方式确定：
26.将文本编辑距离大于以及等于预设阈值的数据，进一步细分编辑距离划分为高、中、低三部分，再从三个部分中按等比例随机抽取部分数据，组合得到所述附加数据。
27.第二方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的方法的步骤。
28.第三方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的方法的步骤。
29.本发明至少具有以下有益效果：
30.运用基础的声学模型进行语音识别工作时，常常出现某些词语总是识别错误，可准备此类易错词语的训练数据，从而提高语音识别在此类易错词上的识别准确率；本发明将记录的识别错误的词语和句子使用音频切割工具进行切割，得到识别错误的音频文件wrongpart；将预先准备的正确原始文本句子中对应于wrongpart的词语删除，并标记删除
位置；利用语音合成系统将删除后得到的剩余的文本转换为音频文件residuewav，与wrongpart按照原始文字位置进行组合，得到一条声学模型的标注数据trainfile作为训练样本用于声学模型的微调(fine-tune)，从而高效地达到修正asr易错部分的目的。
31.本发明通过调用已有的两种语音识别工具对待标注音频数据分别进行识别，相应得到两个版本的识别结果数据集，使用文本编辑距离算法计算二者的文本编辑距离，保留编辑距离小于预设阈值的识别结果及对应的原始音频作为主体数据加入到预标注集，对于编辑距离大于以及等于预设阈值的识别结果，提取部分识别结果及对应的原始音频作为附加数据也加入到预标注集；这样，文本编辑距离差异小的数据取的多，人工校验成本低，训练样本集的组建更为高效，同时文本编辑距离大的也会抽取部分，保证了训练数据特征的多样性。
附图说明
32.图1为本发明一个实施例提供的一种语音识别中快速标注声学模型训练数据的方法流程示意图；
33.图2为本发明图1所示实施例中获得已训练的基础的声学模型的流程示意图；
34.图3为本发明应用于客服领域一个实施例提供的第一阶段(基础训练集的数据获取)的流程示意图；
35.图4为本发明应用于客服领域一个实施例提供的第二阶段(关于易错词语的补充训练集的数据获取)的流程示意图。
具体实施方式
36.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
37.在一个实施例中，如图1所示，提供了一种语音识别中快速标注声学模型训练数据的方法，包括以下步骤：
38.s1：运用已训练的基础的声学模型进行语音识别工作，其中会出现识别错误的词语和句子；
39.s2：对记录的识别错误的词语和句子，使用音频切割工具进行切割，得到识别错误的音频文件，记为wrongpart，wrongpart包含识别的一个或多个词语；
40.s3：将预先准备的正确原始文本句子中对应于所述wrongpart的词语删除，并标记删除位置；删除后得到的原始文本中剩余的文本，记为residuescript；
41.s4：利用语音合成系统将所述residuescript转换为音频文件，记为residuewav，将residuewav与wrongpart按照原始文字位置进行组合，使wrongpart填补所述删除位置，得到一条声学模型的标注数据，记为trainfile；
42.s5：多条不同的trainfile组成用于声学模型微调的训练集trainfiles。
43.对于上述步骤s1中提到的已训练的基础的声学模型，其具体可以使用目前开源的声学模型，也可以重新构建，例如，如图2所示，包括以下步骤：
44.获取设定行业批量的待标注音频数据，并按照语音主体身份类型进行划分；
45.对于确定语音主体身份类型的待标注音频数据，调用已有的两种语音识别工具分别进行识别，相应得到第一初步识别结果数据集和第二初步识别结果数据集；
46.使用文本编辑距离算法计算第一初步识别结果数据集与第二初步识别结果数据集之间的文本编辑距离，保留编辑距离小于预设阈值的识别结果及对应的原始音频作为主体数据加入到预标注集，对于编辑距离大于以及等于预设阈值的识别结果，提取部分识别结果及对应的原始音频作为附加数据也加入到预标注集；所述主体数据的音频总时长远大于所述附加数据的源数据(通过编辑距离选择候选，在这个基础上运用上面的方法来构造最终文本答案)的音频总时长；
47.所述预标注集经过校验后作为用于训练声学模型的基础训练集；利用所述基础训练集训练得到基础的声学模型。
48.示例性地，本发明实施例具体应用于客服领域，语音识别中声学模型的训练数据标注，主要有两个阶段的需求：第一阶段为大批量的标注音频数据，一般需要不低于1000小时的最终标注好的音频文件，才能获得基础的声学模型的训练效果；第二阶段为特定错误类型的音频标注，也即当有基础的声学模型之后，使用语音识别模型进行识别时，常常出现某些词语总是识别错误，需要再次准备此类易错词语的训练数据，从而提高语音识别在此类易错词上的识别准确率。以下具体说明。
49.一、如图3所示，第一阶段的大批量训练数据标注
50.1.获取一个行业的待标注音频数据，时长不低于3000小时；
51.以教育行业为例，获取智能领域教育行业的音频数据，选取原始音频比如2万小时。
52.2.获取的音频数据，进行通道分离，客服领域的音频数据，一般右通道为客服，则左通道为客户的音频。使用语音活动检测技术(voice activity detection,vad)切割通道分离后的音频，vad切割后得到的音频调用腾讯语音识别接口和阿里语音识别asr接口，分别识别后得到aliscript和tencentscript；
53.对于客服音频和客户音频分别保存，并分别下述相同的处理。区别仅在于最终选取入训练数据集时，可保留例如1:4的客服和客户的音频数据，也即1000小时的训练集中，有200小时为客服音频，800小时为客户音频。主要考虑到客服领域中，客服角的音频发音多为相对标准的普通话，而客户角的音频往往发音差异大，且识别不好的可能性更高，所以训练数据中占比更高。
54.以客户音频为例，使用vad切割通道分离后的音频，得到切割音频集，切割音频集分别调用腾讯语音识别接口和阿里语音识别接口，接口识别后每个切割音频得到2个对应的识别文本分别为aliscript和tencentscript。
55.3.使用文本编辑距离算法计算aliscript和tencentscript之间的leveinshtein距离(即文本编辑距离)，保留编辑距离小于预设阈值的识别结果及对应的原始音频加入到预标注集。同时，在文本编辑距离大于预设阈值的部分，分成编辑句子高、中、低三部分，再从三个部分中按等比的比例随机抽取部分数据加入到预标注集。例如，编辑距离阈值可设为5，在编辑距离大于5小于10时，作为编辑距离的低的部分；在编辑距离在10到20之间作为编辑距离为中的部分，大于20则为编辑距离高的部分。其中的编辑距离大于预设阈值的的高中低三部分数据的总时长，不低于直接保留的编辑距离小于预设阈值的音频总时长的
20％(不超过40％)；对于这部分aliscript和tencentscript识别有差异的语音的抽取，具体可将阿里和腾讯的识别文本对齐，比如:
56.ali:a b c
57.tx:y_c
58.类似于beam search；1)可先选(a)和(y)；2)可选ab,a_,yb,y_,然后选取ppl最小的。
59.这样做的好处是，当阿里和腾讯的asr识别后文本编辑距离差异小的数据取的多，人工校验成本低；文本编辑距离大的也会抽取部分，以保证训练数据特征的多样性；
60.此类音频(预标注集)在后续标注中根据参考文本可进行人工校验的快速标注。同时对于文本编辑距离较大的音频也按比例选取少量数据，比如1/10的数量加入预标注集，此类音频在后续人工校验过程中需要花费一定时间进行标注，选取少量此类音频可使得最终的音频训练集具有更加丰富的特征。
61.4.统计预标注集中的总音频时长，根据训练集时长的1000小时需求，选取不低于1000的音频组成待校验集，对待校验集进行人工校验即可得到最终的不低于1000小时的训练集。其中调用接口识别不准的进行更正处理，通过人工校验更正后的即为声学模型的训练数据集。
62.特别地，待校验集的选取，是从预标注集中使用聚类的方式将预标注集分为不同的业务类别，在每个业务类别中按照数据原始数据比例选取一定量的该业务类别的音频和对应的识别结果加入到待校验集，从而做到训练数据在不同业务类别上的均衡。
63.将预标注集中音频对应的文本，使用聚类和分类的方式分成多个不同的业务类别，其中的聚类和分类都为无监督的方式，将文本数据分为多个类别，分类为包含特定业务词的可作为通过业务类别，从而将预标注集分到多个业务类别中。在不同的业务类别中根据业务类别中音频时长按比例随机抽取部分，加入到待校验集。对于待校验集中的所有音频数据，需要一一校验其对应的识别文本，最终的校验结果组成了语音识别中声学模型的训练数据集，训练后即可得到基础的声学模型可用于语音识别。
64.通过此第一阶段的训练数据准备，可以得到用于训练声学模型的基础训练集，并训练得到基础的声学模型。通过结合语言模型、发音词典和解码器即可进行语音识别。该方法标注得到的训练数据覆盖业务更广泛，且训练数据减少了人力成本。使用该语音识别模型识别句子的过程中，识别遇到经常出错的音频时，往往需要进行声学模型训练语料的扩充，即可通过如下的少量易错词语的训练数据标注的方式来扩充。
65.二、如图4所示，第二阶段的少量易错词语的训练数据标注
66.使用语音识别模型识别句子的过程中，识别遇到常出错的词语时，经判断是声学模型缺少的训练数据的，则需要对声学模型训练语料进行针对性地扩充。扩充语料的选取来源往往有限，这就影响了声学模型的快速迭代。本发明实施例可通过以下步骤快速获取一定量的语料用来扩充训练数据，声学模型可在此基础上进行微调，从而快速迭代提升效果。
67.1.业务分类模块，根据特定行业的业务预先进行业务分类，建立常见的业务类型，每种业务类型下获取对应的句子集合备用。例如家电行业的语料，可以按照具体的商品进行分类，如分为彩电、冰箱、手机等业务，包含“彩电”或其同类词语的句子组成同一个业务
类别，组成句子集。该业务类别下可能包含的句子如：“你们tcl的清晰度不够高，看不太清楚”、“买的你们家彩电的屏幕有点花了，售后怎么联系呢”、“电视机的遥控器丢了，需要重新配一下”。“电视能够以旧换新吗，这台用了好多年了，想买个新的”。
68.对特定行业如教育行业的业务使用文本数据进行细分类，得到教育行业预先分类好的业务类别，如图4所示，编程课业务类别下包含了“少儿编程课”，英语培训课业务类别下包含“3至7岁英语培训课”，每种业务类别下有大量常见的对话文本句子。
69.2.对于不同业务类别的文本句子，进行切割和再组合，每个业务类别得到扩增后的文本句子，该文本句子组成该业务类型下的文本句子集。例如彩电这个业务类别下有文本句子：“你们tcl的清晰度不够高，看不太清楚”、“买的你们家彩电的屏幕有点花了，售后怎么联系呢”、“电视机的遥控器丢了，需要重新配一下”。“电视能够以旧换新吗，这台用了好多年了，想买个新的”。由于“tcl”、“彩电”、“电视机”、“电视”这4个词语表达的是相同的业务，所以这4个词语可以相互替换，原本的4个句子可以扩增得到16个句子。可从“你们tcl的清晰度不够高，看不太清楚”扩增出“你们彩电的清晰度不够高，看不太清楚”、“你们电视机的清晰度不够高，看不太清楚”、“你们电视的清晰度不够高，看不太清楚”。极可能使用同类词语多替换原始句子，从而得到更多的扩增句子。
70.如图4所示，对于每种业务类别下的大量文本句子，使用切割和再组合的方式，可得到更多组合后的句子，通过此种方式扩增后的句子依旧属于该业务类别，和原始对话文本句子一起组成了常见业务句子集busisents。
71.3.对于语音识别错误的句子和词语，使用音频切割工具进行切割；得到识别错误的音频文件，该音频文件一般包含识别的一个或多个词语，统称为识别错误音频wrongpart。
72.4.对于识别错误的音频词语，根据预先的业务分类得到其所属的业务分类类别，从对应的业务分类类别中，得到该业务类别下的原始文本句子，将该业务类别下的原始文本句子中与识别错误音频对应的相同或相近业务的词语删除，并标记删除位置为p。如图4所示，从该业务类别下得到大量的业务句子集busisents。并将busisents集的每个句子中与识别错误音频相同或相近的词语删除，并标记删除位置为p。如果删除位置有多个，则分别标记为p1、p2、p3等，删除后得到的原始文本中剩余的文本为residuescript，对于剩余文本residuescript，可使用tts语音合成系统tacotron2_lpcnet(此为业内开源的语音合成系统)进行合成得到residuewav；并将合成后的音频文件residuewav与识别错误音频文件wrongpart按照原始文字位置进行组合，即识别错误位置的音频占据了被删除的词语在原始句子中的位置p，如果有多个错误词语被删除则分别占据p1、p2、p3等，组合后得到一条声学模型的标注数据trainfile，该条标注数据即为训练声学模型用的音频文件，并且对应着文字标注。
73.如图4所示，识别错误音频wrongpart包括的词语有“口语课”、“孩子”等，因此将原始文本句子“英语口语课上课的辅材免费”中的“口语课”一词删除并标记删除位置p，该文本句子变为“英语p上课的辅材免费”，将该句子合成音频residuewav，与“口语课”的音频按照原始文字位置进行组合，得到包含有易识别错“口语课”发音的“英语口语课上课的辅材免费”的完整音频。
74.5.通过同样操作得到大量的trainfile组合为声学模型微调的训练集
trainfiles。
75.这样合成后的音频，包含了asr容易出错的部分，用来进行模型微调的训练数据，通过模型微调即fine-tune，从而达到修正asr易错部分的目的。
76.应该理解的是，虽然以上流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然完全按照箭头指示的顺序依次执行。而且，至少一部分步骤可以包括多个具体步骤，这些具体步骤有可能在同一时刻执行完成，也有可能在不同的时刻执行，这些具体步骤的执行顺序也不必然是依次进行，而是还可能与其它步骤或者其它步骤中的具体步骤的至少一部分轮流或者交替地执行。
77.在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中存储器中存储有计算机程序，涉及上述实施例方法中的全部或部分流程。
78.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。
79.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
80.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：

1.一种语音识别中快速标注声学模型训练数据的方法，其特征在于，包括：运用已训练的基础的声学模型进行语音识别工作，其中会出现识别错误的词语和句子；对记录的识别错误的词语和句子，使用音频切割工具进行切割，得到识别错误的音频文件，记为wrongpart，wrongpart包含识别的一个或多个词语；将预先准备的正确原始文本句子中对应于所述wrongpart的词语删除，并标记删除位置；删除后得到的原始文本中剩余的文本，记为residuescript；利用语音合成系统将所述residuescript转换为音频文件，记为residuewav，将residuewav与wrongpart按照原始文字位置进行组合，使wrongpart填补所述删除位置，得到一条声学模型的标注数据，记为trainfile；多条不同的trainfile组成用于声学模型微调的训练集trainfiles。2.根据权利要求1所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，所述预先准备的正确原始文本句子，来自按照以下方式准备的文本句子集：根据设定行业的业务预先进行业务分类，建立常见的业务类型，每种业务类型下获取对应的文本句子集合备用；对于不同业务类型的文本句子，进行切割和再组合，每个业务类型得到扩增后的文本句子，共同组成该业务类型下的文本句子集。3.根据权利要求1所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，所述已训练的基础的声学模型，按照以下方式得到：获取设定行业批量的待标注音频数据，并按照语音主体身份类型进行划分；对于确定语音主体身份类型的待标注音频数据，调用已有的两种语音识别工具分别进行识别，相应得到第一初步识别结果数据集和第二初步识别结果数据集；使用文本编辑距离算法计算第一初步识别结果数据集与第二初步识别结果数据集之间的文本编辑距离，保留编辑距离小于预设阈值的识别结果及对应的原始音频作为主体数据加入到预标注集，对于编辑距离大于以及等于预设阈值的识别结果，提取部分识别结果及对应的原始音频作为附加数据也加入到预标注集；所述主体数据的音频总时长远大于所述附加数据的源数据的音频总时长；所述预标注集经过校验后作为用于训练声学模型的基础训练集；利用所述基础训练集训练得到基础的声学模型。4.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，所述设定行业为客服领域涉及的行业，所述语音主体身份类型分为客服和客户；相应的，所述按照语音主体身份类型进行划分，具体是按照左右通道进行音频数据的通道分离。5.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，在所述调用已有的两种语音识别工具分别进行识别之前，先使用vad切割音频，得到单独的语句音频。6.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，所述已有的两种语音识别工具，采用腾讯语音识别asr接口和阿里语音识别asr接口。7.根据权利要求3所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，编辑距离大于以及等于预设阈值的音频总时长，为编辑距离小于预设阈值的音频总时长的
20％～40％。8.根据权利要求7所述的语音识别中快速标注声学模型训练数据的方法，其特征在于，所述附加数据按照以下方式确定：将文本编辑距离大于以及等于预设阈值的数据，进一步细分编辑距离划分为高、中、低三部分，再从三个部分中按等比例随机抽取部分数据，组合得到所述附加数据。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结

本发明公开了一种语音识别中快速标注声学模型训练数据的方法。该方法运用已训练的基础的声学模型进行语音识别工作；对记录的识别错误的词语和句子，使用音频切割工具进行切割，得到识别错误的音频文件WrongPart；将预先准备的正确原始文本句子中对应于所述WrongPart的词语删除后得到原始文本中剩余的文本ResidueScript，并标记删除位置；将相应的音频文件ResidueWav与WrongPart按照原始文字位置进行组合，得到一条声学模型的标注数据，最终多条不同的TrainFile组成用于声学模型微调的训练集，用于声学模型的微调，从而高效地达到修正ASR易错部分的目的。达到修正ASR易错部分的目的。达到修正ASR易错部分的目的。