语音识别系统训练方法、电子设备和存储介质与流程

1.本技术实施例涉及语音识别

技术领域

：
：，特别是涉及一种语音识别系统训练方法、电子设备和存储介质。

背景技术

：
：：2.现有技术中，一般训练用于生成语音数据的语音合成系统，先在构建此系统的过程中加入各种改进技术，使得得到的语音合成系统更适合后续的语音识别任务，通常出于模型鲁棒性和后续识别应用的考虑，该系统是一个多说话人的语音合成系统；然后选取希望合成的目标场景数据对应的文本；之后将文本输入到中训练完成的语音合成系统，生成语音，此时得到了语音-文本数据对；最后4得到的语音-文本数据对输入待训练/优化的语音识别系统，单独训练或与真实语音-文本数据联合训练，得到优化后的语音识别系统。3.缺陷是训练语音合成系统通常需要音素级别的音频标注，此类数据的标注成本较高，通常难以获得大量数据，因此用于合成系统训练的数据量通常不大，由此训练出的语音合成系统在合成语音的效果上通常与真实音频有一定的差距；而且由于合成出的数据与真实数据仍有一定差距，所以最终带来的识别准确率提升有限，特别是当有一定的真实数据与合成数据一起进行联合训练时，相比于只使用真实数据，很多时候观察不到准确率的提升。这就极大的制约来该项技术在真实场景中的应用，因为真实场景中通常是有一定量(例如几百小时)的真实数据，希望能在此条件下，通过语音合成技术产生更多(例如上千或上万小时)的合成数据，然后联合训练，提升语音识别效果。技术实现要素：4.本发明实施例提供了一种语音识别系统训练方法、装置和电子设备，用于至少解决上述技术问题之一。5.第一方面，本发明实施例提供了一种语音识别系统训练方法，所述语音识别系统包括音素分类模型、语音合成模型和语音识别模型，包括：针对所述语音合成模型要合成的语音场景，使用与所述语音场景同源的真实语音-文本数据对训练所述音素分类模型；将真实语音数据输入至训练好的音素分类模型得到所述语音合成模型的训练数据，利用所述训练数据对所述语音合成模型进行训练；至少将文本数据输入至训练好的语音合成模型中得到合成语音，将所述文本数据和所述合成语音组成合成语音-文本数据对；至少将所述合成语音-文本数据对用于所述语音识别模型的训练。6.第二方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音识别系统训练方法。7.第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别系统训练方法。8.第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别系统训练方法。9.本技术的方法通过训练音素语音识别分类器，来对语音识别数据进行标注，得到可以用于语音合成模型训练的数据，然后直接使用这些真实的语音识别数据用于语音合成系统的自动化建模，能够让用于语音合成模型训练的数据可以获得数量级的提升，从而可以实现通过数据驱动的方式来减小合成语音数据与真实数据之间的差异，之后通过迁移学习的方法，针对每一个发音人迁移学习得到其自己的语音合成模型，从而可以更适合用于语音识别任务；最后引入了自适应建模方法，针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，使得模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性；进一步地，还可以使得在建模真实语音时不引入额外的独立可调参数，与不使用合成数据联合训练保持一样的模型结构，从而避免了在语音识别解码时引入额外的计算量。附图说明10.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。11.图1为本发明一实施例提供的一种语音识别系统训练方法的流程图；12.图2为本发明一实施例提供的另一种语音识别系统训练方法的流程图；13.图3为本发明一实施例提供的语音识别系统训练方法的一个具体示例的基于语音合成和自适应建模的语音识别系统训练方法系统流程图；14.图4为本发明一实施例提供的语音识别系统训练方法的一个具体示例的音素分类模型和语音合成流程图；15.图5为本发明一实施例提供的语音识别系统训练方法的一个具体示例的自适应建模语音识别模型结构图；16.图6为本发明一实施例提供的语音识别系统训练方法的一个具体示例的语音识别模型中的自适应残差连接层和自适应模块图；17.图7是本发明一实施例提供的电子设备的结构示意图。具体实施方式18.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。19.请参考图1，其示出了本发明一实施例提供的一种语音识别系统训练方法的流程图，其中，所述语音识别系统包括音素分类模型、语音合成模型和语音识别模型。20.如图1所示，在步骤101中，针对所述语音合成模型要合成的语音场景，使用与所述语音场景同源的真实语音-文本数据对训练所述音素分类模型；21.在步骤102中，将真实语音数据输入至训练好的音素分类模型得到所述语音合成模型的训练数据，利用所述训练数据对所述语音合成模型进行训练；22.在步骤103中，至少将文本数据输入至训练好的语音合成模型中得到合成语音，将所述文本数据和所述合成语音组成合成语音-文本数据对；23.在步骤104中，至少将所述合成语音-文本数据对用于所述语音识别模型的训练。24.在本实施例中，对于本步骤101，语音识别系统训练装置针对所述语音合成模型要合成的语音场景，使用收集到的与语音场景同源的真实语音-文本数据对训练所述音素分类模型，例如，目标要合成粤语，就使用能收集到的一定数量粤语语音识别数据来训练音素分类模型。25.然后，对于步骤102，语音识别系统训练装置将真实语音数据输入至训练好的音素分类模型得到语音合成模型的训练数据，利用训练数据对语音合成模型进行训练，例如，将通过各类手段收集到的几千甚至上万小时的无文本标注粤语语音数据送入到音素分类模型中，得到识别的音素序列及其对应时间戳信息，这些数据可以被称为可用于合成模型训练的语音-标注数据，然后用可用于合成模型训练的语音-标注数据训练一个多说话人的语音合成系统。26.之后，对于步骤103，语音识别系统训练装置至少将文本数据输入至训练好的语音合成模型中得到合成语音，将文本数据和合成语音组成合成语音-文本数据对，例如，在将文本数据输入至训练好的语音合成模型中得到合成语音时，还会使用参考语音数据输入至训练好的语音合成模型中，可以使合成出的音频中包含文本内容外，还包含参考音频的特性，例如情绪，环境噪声等。27.最后，对于步骤104，语音识别系统训练装置至少将合成语音-文本数据对用于语音识别模型的训练，在一具体实施例中，可以将合成语音-文本数据和收集到的与语音场景同源的真实语音-文本数据对联合用于自适应建模的语音识别模型训练，例如，针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，使得模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性。28.本实施例的方法通过训练音素语音识别分类器，来对语音识别数据进行标注，得到可以用于语音合成模型训练的数据，而后直接使用这些真实的语音识别数据用于语音合成系统建模，从而可以实现减小合成语音数据与真实语音数据之间的差异。29.进一步请参考图2，其示出了本发明一实施例提供的另一种语音识别系统训练方法，该流程图主要是对流程图1“利用所述训练数据对所述语音合成模型进行训练”的流程进一步限定的步骤的流程图。30.如图2所述，在步骤201中，利用所述训练数据训练多说话人语音合成模型；31.在步骤202中，分别使用多个特定说话人的训练数据，利用迁移学习方法对所述多说话人语音合成模型进行迭代，得到对应的多个特定说话人语音合成模型。32.在本实施例中，对于步骤201，语音识别系统训练装置利用训练数据训练多说话人语音合成模型，在一具体实施例中，说话人信息会被表征为一些矢量，然后通过模型融合的方法将这些信息加入到语音合成模型中，这样一个多说话人的语音合成模型在合成特定说话人语音时，在听感上已与一个特定说话人语音合成模型差异不大。33.然后，对于步骤202，语音识别系统训练装置分别使用多个特定说话人的训练数据，利用迁移学习方法对多说话人语音合成模型进行迭代，得到对应的多个特定说话人语音合成模型，在具体实施例中，多说话人合成模型产生的语音用于识别模型训练的效果与特定说话人语音合成模型产生的语音存在一定的差距，进一步地，在多说话人语音合成模型的基础上，使用少量的真实数据，利用迁移学习的方法对多说话人合成模型进行迭代，得到针对特定说话人的语音合成系统，重复该步骤可以生成多个独立的特定说话人语音合成系统，其中，特定说话人语音合成模型能够产生与该说话人真实音频分布更拟合的数据，而分布更拟合的数据训练语音识别模型的效果更好，从而更适合用于语音识别任务。34.本实施例的方法通过迁移学习的方法，针对每一个说话人迁移学习得到其自己的语音合成模型，从而可以实现特定说话人语音合成产生的语音合成数据相比直接使用多发音人的语音合成系统，更适合用于语音识别任务。35.在一些可选的实施例中，所述至少将文本数据输入至训练好的语音合成模型中得到合成语音包括：36.语音识别系统训练装置将文本数据和参考语音数据输入至训练好的语音合成模型中得到合成语音以使合成音频包含参考语音的特性，例如，可以使得合成出的音频中包含文本内容和特定说话人的特性外，还包含情绪、环境噪声等参考语音的特性。37.本实施例的方法通过使用参考语音数据输入到语音合成模型，从而可以实现合成音频中包含参考语音的特性。38.在一些可选的实施例中，所述至少将所述合成语音-文本数据对用于所述语音识别模型的训练包括：39.语音识别系统训练装置将真实语音-文本数据对和所述合成语音-文本数据对联合用于自适应建模的语音识别模型的训练，其中，自适应建模的语音识别模型通过自适应建模方法针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，使得模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性。40.在一些可选的实施例中，真实语音和合成语音会通过自适应编码层，形成不同的矢量编码表示，所有的真实语音共享相同的矢量编码，所有的合成语音共享相同的矢量编码。41.在一些可选的实施例中，自适应建模的语音识别模型的改进包括：将所述语音识别模型中所有的网络层改进为自适应残差连接层，其中，将模型层表示为网络权重，每一层都引入自适应模块，所述自适应模块的输入为上一层的输出和真实语音和/或合成语音的自适应矢量编码，所述自适应矢量编码经过网络变换、层规整和sigmoid激活函数后，与正常的输入经过网络变换的结果相乘，得到所述自适应模块的输出结果，所述自适应模块的输出与经过网络权重变换的输出、输入相加形成最终的自适应残差连接层的输出，在具体实施例中，模型层是模型中被选择为自适应层的部分，可以是所有的层，也可以根据情况选择部分，本技术在此没有限制。42.本实施例的方法通过针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，从而可以实现使模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性。43.在一些可选的实施例中，所述方法还包括：将真实数据的自适应矢量编码固定设置为全0矢量以在实际推理解码过程中不引入额外的计算量，例如，通过人为设定的方式将真实数据的自适应矢量编码固定设置为全0矢量，这样经过网络变换、层规整和sigmoid激活函数后的结果保持为全0矢量，全0矢量与任何矢量点积的结果也都为全0矢量，由此真实数据对应的自适应模块输出为全0矢量，与原有模型结构相同，在实际推理解码过程中不会引入额外的计算量。44.在上述任一实施例中，所述音素模型能够获取语音中含有的音素序列和与所述音素序列对应的时间戳信息，在具体实施例中，音素序列和音素时间戳信息可以通过语音合成系统的前端处理以后可以被用于训练语音合成系统的声学模型和声码器。45.请参考图3，其示出了本发明一实施例提供的语音识别系统训练方法的一个具体示例的基于语音合成和自适应建模的语音识别系统训练方法系统流程图。46.如图3所示，步骤1：针对要合成的语音场景，使用能收集到的同源语音-文本语音识别数据对(例如要目标要合成粤语，就使用能收集到的一定数量粤语语音识别数据)训练音素分类模型，通过该模型可以实现获取语音中含有的音素序列及其对应时间戳信息的目的，这些信息可被用来训练语音合成系统。47.步骤2：完成步骤1的训练后，将通过各类手段收集到的海量真实语音数据(例如几千甚至上万小时的无文本标注粤语语音数据)，送入到音素分类模型中，得到识别的音素序列及其对应时间戳信息，这些数据被称为“可用于合成模型训练的语音-标注数据”。48.步骤3：利用步骤2中获得的大量数据训练一个多说话人的语音合成系统，通常在该系统中说话人信息会被表征为一些矢量，然后通过模型融合的方法将这些信息加入到语音合成模型中，这样一个多说话人的语音合成系统在合成特定说话人语音时，在听感上已与一个特定说话人语音合成系统差异不大，但是我们发现对于语音识别任务，多说话人合成系统产生的语音用于识别模型训练的效果与特定说话人语音合成系统产生的语音存在一定的差距。49.步骤4：步骤在3中得到的多说话人语音合成系统基础上，使用特定说话人的训练数据(少量真实数据)，利用迁移学习的方法对多说话人合成系统进行迭代，得到针对特定说话人的语音合成系统，重复该步骤可以生成多个独立的特定说话人语音合成系统。50.步骤5：选取一个特定说话人语音合成系统，使用待合成文本数据经过系统产生合成语音。51.步骤6：此过程中常常还会使用参考语音数据输入到语音合成系统，使得合成出的音频中包含文本内容和特定说话人的特性外，还包含参考音频的特性(如情绪，环境噪声等)。重复该步骤可以得到多说话人的语音合成数据，其与对应文本一起被称为“可用于识别模型训练的合成语音-文本数据”。52.步骤7：将上一步得到的“可用于识别模型训练的合成语音-文本数据”与收集到的目标场景真实语音-文本数据联合用于自适应建模的语音识别模型训练，该语音识别模型引入了自适应建模方法，针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，使得模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性。53.请参考图4，其示出了本发明一实施例提供的语音识别系统训练方法的一个具体示例的音素分类模型和语音合成流程图。54.如图4所示，训练好音素分类模型以后，通过该模型的语音数据会得到其音素序列和音素时间戳信息，这些信息通过语音合成系统的前端处理以后可以被用于训练语音合成系统的声学模型和声码器。55.请参考图5，其示出了本发明一实施例提供的语音识别系统训练方法的一个具体示例的自适应建模语音识别模型结构图。56.如图5所述，真实数据和合成数据会通过自适应编码层，形成不同的矢量编码表示，所有的真实数据共享相同的矢量编码，同样所有的合成数据共享相同的矢量编码。之后改进了语音识别模型中原本的模型结构，将所有的网络层，改进为自适应残差连接层。57.请参考图6，其示出了本发明一实施例提供的语音识别系统训练方法的一个具体示例的语音识别模型中的自适应残差连接层和自适应模块图。58.如图6所示，原本的模型层表示为网络权重，每一层都会引入自适应模块，模型层是模型中被选择为自适应层的部分，可以是所有的层，也可以根据情况选择部分层，本技术在此没有限制。该自适应模块有两个输入，第一个是上一层的输出(第一层为输入的特征数据)，第二个是真实数据/合成数据自适应矢量编码，自适应矢量编码经过网络变换、层规整和sigmoid激活函数后，与正常的输入经过网络变换的结果相乘，得到自适应模块的输出结果，自适应模块的输出与经过网络权重变换的输出、输入相加形成最终的自适应残差连接层的输出。通过这种方式，针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，使得模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性。其中，layernorm是通过对hiddensize这个维度归一化来让某层的分布稳定。定义参考：59.https://pytorch.org/docs/stable/generated/torch.nn.layernorm.html。60.进一步通过人为设定的方式将真实数据的自适应矢量编码固定设置为全0矢量，这样经过网络变换、层规整和sigmoid激活函数后的结果保持为全0矢量，全0矢量与任何矢量点积的结果也都为全0矢量，由此真实数据对应的自适应模块输出为全0矢量，与原有模型结构相同，在实际推理解码过程中不会引入额外的计算量。[0061][0062]表1[0063]如表1所示，在开源语音识别数据任务aishell-1(中文普通话)上对比是否通过训练音素语音识别分类器，对语音识别数据进行标注，扩展用于语音合成模型训练数据量的实验，可以看到仅使用180小时的aishell-1数据训练语音合成模型，之后生成合成的语音识别训练数据，进行模型训练，在开发集合和测试集合上分别得到18.3％和23.5％的字错误率；而使用该方法扩展aishell-2(1000小时中文普通话数据)数据加入到语音合成模型训练中，再生成合成的语音识别训练数据，进行模型训练，在开发集合和测试集合上分别得到15.7％和20.1％的字错误率，可以获得明显的准确率提升。[0064][0065]表2[0066]如表2所示，在开源语音识别数据任务aishell-1(中文普通话)上对比是否使用迁移学习将多说话人合成系统迁移成为多个特定人合成系统后，再合成用于语音识别任务训练的语音数据，并进行语音识别模型训练。可以看到与无迁移学习的版本相比，使用迁移学习后字错误率下降明显。[0067][0068]表3[0069]如表3所示，在开源语音识别数据任务aishell-1(中文普通话)上对比在联合使用合成数据和真实数据情况下与只使用真实数据情况下的语音识别效果对比。可以看到相比与只使用真实数据情况下的字错误率，通过自适应建模的方式，联合使用真实数据和合成数据的建模方式可以取得更好的识别效果，识别字错误率有较为明显的下降。[0070]在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音识别系统训练方法；[0071]作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：[0072]针对所述语音合成模型要合成的语音场景，使用与所述语音场景同源的真实语音-文本数据对训练所述音素分类模型；[0073]将真实语音数据输入至训练好的音素分类模型得到所述语音合成模型的训练数据，利用所述训练数据对所述语音合成模型进行训练；[0074]至少将文本数据输入至训练好的语音合成模型中得到合成语音，将所述文本数据和所述合成语音组成合成语音-文本数据对；[0075]至少将所述合成语音-文本数据对用于所述语音识别模型的训练。[0076]非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别系统训练装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音识别系统训练装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。[0077]本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音识别系统训练方法。[0078]图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。语音识别系统训练方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别系统训练方法。输入装置730可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。[0079]上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。[0080]作为一种实施方式，上述电子设备应用于语音识别系统训练装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：[0081]针对所述语音合成模型要合成的语音场景，使用与所述语音场景同源的真实语音-文本数据对训练所述音素分类模型；[0082]将真实语音数据输入至训练好的音素分类模型得到所述语音合成模型的训练数据，利用所述训练数据对所述语音合成模型进行训练；[0083]至少将文本数据输入至训练好的语音合成模型中得到合成语音，将所述文本数据和所述合成语音组成合成语音-文本数据对；[0084]至少将所述合成语音-文本数据对用于所述语音识别模型的训练。[0085]本技术实施例的电子设备以多种形式存在，包括但不限于：[0086](1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。[0087](2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。[0088](3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。[0089](4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。[0090](5)其他具有数据交互功能的电子装置。[0091]以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。[0092]通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。[0093]最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12

技术特征：

1.一种语音识别系统训练方法，所述语音识别系统包括音素分类模型、语音合成模型和语音识别模型，包括：针对所述语音合成模型要合成的语音场景，使用与所述语音场景同源的真实语音-文本数据对训练所述音素分类模型；将真实语音数据输入至训练好的音素分类模型得到所述语音合成模型的训练数据，利用所述训练数据对所述语音合成模型进行训练；至少将文本数据输入至训练好的语音合成模型中得到合成语音，将所述文本数据和所述合成语音组成合成语音-文本数据对；至少将所述合成语音-文本数据对用于所述语音识别模型的训练。2.根据权利要求1所述的方法，其中，所述利用所述训练数据对所述语音合成模型进行训练包括：利用所述训练数据训练多说话人语音合成模型；分别使用多个特定说话人的训练数据，利用迁移学习方法对所述多说话人语音合成模型进行迭代，得到对应的多个特定说话人语音合成模型。3.根据权利要求2所述的方法，其中，所述至少将文本数据输入至训练好的语音合成模型中得到合成语音包括：将文本数据和参考语音数据输入至训练好的语音合成模型中得到合成语音以使所述合成音频包含参考语音的特性。4.根据权利要求1所述的方法，其中，所述至少将所述合成语音-文本数据对用于所述语音识别模型的训练包括：将所述真实语音-文本数据对和所述合成语音-文本数据对联合用于自适应建模的语音识别模型的训练，其中，所述自适应建模的语音识别模型通过自适应建模方法针对真实语音和合成语音进行建模，在保持主要参数共享的同时，引入了一定量的独立可调参数，使得模型既可以学习到两种音频中共性的文本信息，又可以学习到两种音频的差异性。5.根据权利要求4所述的方法，其中，真实语音和合成语音会通过自适应编码层，形成不同的矢量编码表示，所有的真实语音共享相同的矢量编码，所有的合成语音共享相同的矢量编码。6.根据权利要求5所述的方法，其中，自适应建模的语音识别模型的改进包括：将所述语音识别模型中所有的网络层改进为自适应残差连接层，其中，将模型层表示为网络权重，每一层都引入自适应模块，所述自适应模块的输入为上一层的输出和真实语音和/或合成语音的自适应矢量编码，所述自适应矢量编码经过网络变换、层规整和sigmoid激活函数后，与正常的输入经过网络变换的结果相乘，得到所述自适应模块的输出结果，所述自适应模块的输出与经过网络权重变换的输出、输入相加形成最终的自适应残差连接层的输出。7.根据权利要求6所述的方法，其中，所述方法还包括：将真实数据的自适应矢量编码固定设置为全0矢量以在实际推理解码过程中不引入额外的计算量。8.根据权利要求1-7所述的方法，其中，所述音素模型能够获取语音中含有的音素序列和与所述音素序列对应的时间戳信息。9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存
储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步骤。10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

技术总结

本发明公开语音识别系统训练方法、电子设备和存储介质，其中，一种语音识别系统训练方法，包括：针对所述语音合成模型要合成的语音场景，使用与所述语音场景同源的真实语音-文本数据对训练所述音素分类模型；将真实语音数据输入至训练好的音素分类模型得到所述语音合成模型的训练数据，利用所述训练数据对所述语音合成模型进行训练；至少将文本数据输入至训练好的语音合成模型中得到合成语音，将所述文本数据和所述合成语音组成合成语音-文本数据对；至少将所述合成语音-文本数据对用于所述语音识别模型的训练。通过训练音素语音识别分类器对语音识别数据进行标注，从而可以实现减小合成语音数据与真实语音数据之间的差异。减小合成语音数据与真实语音数据之间的差异。减小合成语音数据与真实语音数据之间的差异。