基于自监督预训练声学模型的普通话发音错误检测模型

1.本发明涉及信息技术领域，特别涉及一种基于自监督预训练声学模型的普通话发音错误检测模型。

背景技术：

2.普通话发音错误检测研究面临着相关数据匮乏的问题，属于典型的低资源场景。近年来自监督预训练技术得到快速发展，利用该技术可以直接从原始音频信号中提取更加丰富的特征，在低资源语音识别场景中取得了显著的性能提升。基于gop的发音评测算法只能给出发音正确与错误的判断，但是难以给出更具体的发音错误诊断分析。绝大多数发音评测系统的实现需要语音识别系统作为上游系统进行文本识别与强制对齐，同时给出gop分数。这些依赖语音识别系统的评测方法，在对不标准的语音进行评测时，一旦上游的语音识别系统出现较高的识别错误率，下游的发音评测任务就会受到严重影响，故需要大量的语音数据来训练一个准确率高的语音识别系统。对语音识别系统与强制对齐过程的依赖，使得发音评测系统难以实现为端到端的模型。随着深度学习的发展，也出现了一些针对不依赖语音识别系统的发音错误检测技术的研究。diment等人将发音错误检测定义为检测错误是否出现的二分类任务，实现了基于cnn-bigru的端到端错误检测模型，但是该方法需要针对每一类发音错误单独训练模型，且只能给出粗粒度的发音错误检测结果。

技术实现要素：

3.本发明所要解决的技术问题是提供一种基于自监督预训练声学模型的普通话发音错误检测模型，在低资源的发音错误检测任务中使用无监督预训练声学表示模型进行特征提取，可以有效提升模型性能，缓解训练数据不足的问题。
4.为实现上述目的，本发明提供以下的技术方案：
5.该基于自监督预训练声学模型的普通话发音错误检测模型包括使用无监督预训练声学模型f
sslmodel
代替传统前端f
fbank
提取语音特征的过程就可以表示为：
6.z
sslmodel
＝f
sslmodel
(x)#(5-2)
7.随后通过基于transformer与ctc/attention的发音错误检测模型lasmodel，得到音素识别结果序列y＝y1，y2，...，ym：
8.y＝lasmodel(z
sslmodel
)#(5-3)
9.最后通过needleman-wunsch对齐算法将y与参考音素序列y
canonical
进行比较，即可得到最终的发音错误检测结果；
10.模型搭建及训练基于speechbrain框架。wav2vec 2.0模型(包括xls-r模型)及wavlm模型使用huggingface开源的transformers库中提供的实现，使用的transformers库的版本为4.15。实验使用的预训练模型权重来自于huggingface model hub托管的官方权重文件，详细步骤如下：
11.(1)wav2vec 2.0模型使用了wav2vec2-large-voxpopuli预训练模型。该模型在
relative position bias)实现更好的局部信息建模。wavlm的模型结构见图3。
24.如图1所示，该基于自监督预训练声学模型的普通话发音错误检测模型包括使用无监督预训练声学模型f
sslmodel
代替传统前端ffbank提取语音特征的过程就可以表示为：
25.z
sslmodel
＝f
sslmodel
(x)#(5-2)
26.随后通过基于transformer与ctc/attention的发音错误检测模型lasmodel，得到音素识别结果序列y＝y1，y2，...，ym：
27.y＝lasmodel(z
sslmodel
)#(5-3)
28.最后通过needleman-wunsch对齐算法将y与参考音素序列y
canonical
进行比较，即可得到最终的发音错误检测结果；
29.模型搭建及训练基于speechbrain框架。wav2vec 2.0模型(包括xls-r模型)及wavlm模型使用huggingface开源的transformers库中提供的实现，使用的transformers库的版本为4.15。实验使用的预训练模型权重来自于huggingface model hub托管的官方权重文件，详细步骤如下：
30.(1)wav2vec 2.0模型使用了wav2vec2-large-voxpopuli预训练模型。该模型在voxpopuli v1数据集的10万小时未标注数据子集上进行了预训练，这个子集包括了英语在内的23种欧洲语言的数据。模型包括24层transformer编码器。
31.(2)xls-r模型使用了wav2vec2-xls-r-300m预训练模型。该模型在长达43.6万小时的多语言未标注音频上预训练，包括了英语及汉语在内的128种语言。模型包括24层transformer编码器。
32.(3)wavlm模型使用了wavlm-large预训练模型。该模型在9.4万小时的未标注音频数据集上进行了预训练，全部为英语音频。模型包括24层transformer编码器。
33.实验结果如表1所示。由结果可见，采样了预训练声学模型作为特征提取器的三种发音错误检测模型，它们的f1指标相对于作为基线的cnn-rnn-ctc模型及作为对比的transformer-ctc/att模型均有大幅的提升，其中基于xls-r与wavlm的模型的per指标也相对有了一定的降低，这说明在普通话发音错误检测这样的低资源类任务中，采用预训练模型可以在不额外标注数据的前提下，有效提升模型性能。
34.表1基于自监督预训练声学模型的普通话发音错误检测模型实验结果
35.36.接下来结合表2中的发音错误检测模型对测试集数据的检测细节，进一步对比分析不同模型的特点。cnn-rnn-ctc模型的正确发音错误检测比例高于transformer-ctc/att模型，但是同时发音错误类型判断错误的比例也高于其他所有模型，其per最高、dar也是最低的。预训练模型同为wav2vec 2.0结构，wav2vec2-transformer-ctc/att的性能差于xls-r-transformer-ctc/att，说明在更大规模、语言种类更多样的预训练数据上预训练声学模型，可以有效提升其在下游任务的泛化性能。同时，wavlm-transformer-ctc/att使用的wavlm模型仅仅在9万4千小时的纯英语数据上预训练，但是微调后的模型性能综合最佳，整体略优于在43.6万小时的包括汉语在内的数据集上预训练的xls-r模型，这说明wavlm模型相对于wav2vec 2.0的改进是有效的。可以推测，如果使用大量未标注汉语数据或者与xls-r一致的大规模跨语言数据集预训练wavlm模型，wavlm-transformer-ctc/att的性能可以进一步提升。
37.表2不同模型对发音错误类型的检测结果
[0038][0039]
总而言之，实验结果显示，基于wavlm的wavlm-transformer-ctc/att模型在psc朗读发音错误检测任务上具有最佳的性能，它的f1指标达到了0.4060，相对于作为基线的cnn-rnn-ctc模型提升了27.8％。
[0040]
以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保
护范围。

技术特征：

1.一种基于自监督预训练声学模型的普通话发音错误检测模型，其特征在于：所述基于自监督预训练声学模型的普通话发音错误检测模型包括使用无监督预训练声学模型f
sslmodel
代替传统前端f
fbank
提取语音特征的过程就可以表示为：z
sslmodel
＝f
sslmodel
(x)#(5-2)随后通过基于transformer与ctc/attention的发音错误检测模型lasmodel，得到音素识别结果序列y＝y1，y2，...，y
m
：y＝lasmodel(z
sslmodel
)#(5-3)最后通过needleman-wunsch对齐算法将y与参考音素序列y
canonical
进行比较，即可得到最终的发音错误检测结果；模型搭建及训练基于speechbrain框架，wav2vec 2.0模型(包括xls-r模型)及wavlm模型使用huggingface开源的transformers库中提供的实现，使用的transformers库的版本为4.15，实验使用的预训练模型权重来自于huggingface model hub托管的官方权重文件，详细步骤如下：(1)wav2vec 2.0模型使用了wav2vec2-large-voxpopuli预训练模型，该模型在voxpopuli v1数据集的10万小时未标注数据子集上进行了预训练，这个子集包括了英语在内的23种欧洲语言的数据，模型包括24层transformer编码器；(2)xls-r模型使用了wav2vec2-xls-r-300m预训练模型，该模型在长达43.6万小时的多语言未标注音频上预训练，包括了英语及汉语在内的128种语言，模型包括24层transformer编码器；(3)wavlm模型使用了wavlm-large预训练模型，该模型在9.4万小时的未标注音频数据集上进行了预训练，全部为英语音频，模型包括24层transformer编码器。

技术总结

本发明公开了一种基于自监督预训练声学模型的普通话发音错误检测模型，涉及信息技术领域，该于自监督预训练声学模型的普通话发音错误检测模型搭建及训练基于SpeechBrain框架。Wav2Vec 2.0模型(包括XLS-R模型)及WavLM模型使用HuggingFace开源的Transformers库中提供的实现，使用的Transformers库的版本为4.15。实验使用的预训练模型权重来自于HuggingFace Model Hub托管的官方权重文件。Hub托管的官方权重文件。Hub托管的官方权重文件。