一种基于对比预测编码的语音识别方法及系统与流程

1.本发明属于声纹识别技术领域，特别是涉及一种基于对比预测编码的语音识别方法及系统。

背景技术：

2.众所周知，语音识别往往需要采集大量的语音数据，即在各种背景环境下，需识别语音的各种语义（含各种语音、方言）条件下数据条数都需要比较充分。若某一特别背景下使用某个特别方言（或文本语义）所发出语音未能采集到足够的数据，则语音识别模型在该条件下使用时，将有可能出现检测精度下降、不能识别等模型失效现象。传统技术解决此类问题的方法是：大多需要进行类似于mfcc特征提取等各种特征提取方法，进而对特征进行分类操作，最终得到分类结果。此时，各类别中数据是否充分且具有代表性就相当的重要，若是数据不充分、不典型，则与具体类别相关的部分特征将出现缺失、扭曲的现象，影响最终的分类结果。

技术实现要素：

3.技术目的：本发明提供一种基于对比预测编码的语音识别方法及系统；充分利用后台获取的大量不充分的语音数据，将语音数据视为时间序列数据，直接端到端进行转换，不需要中间的语谱特征的提取，每条语音随机提取时间定长的一定数量的片段，每个片段划分为前面数据和后面数据，当前面数据作为输入时，通过第一变换器实现后面时序数据的编码预测，当后面数据作为输入时，通过第二变换器实现前面数据的时序预测，将预测的数据组合后，与同类（或异类）待测数据直接进行端到端的成对数据比较，最终按照语音类别标签要求，实现端到端的语音识别。
4.技术方案本发明的第一目的是提供一种基于对比预测编码的语音识别方法，包括如下步骤：s1、采集每个语音类别的a个语音文件，对每个语音文件进行预处理，得到pcm编码的语音时序数据；a为大于1的自然数；s2、构建所述语音时序数据的配对数据集；所述配对数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据，同类配对时标签y定义为0，异类配对时标签y定义为1；同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成；所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据；所述异类配对集每个数据的两条语音时序数据为不同语音类别的语音时序数据；s3、构建配对片段数据集；具体为：对于配对数据集中的第一条语音时序数据x1，首先按照定长m，从中随机截取m个片段s，每个片段s保持定长m；然后将所有定长为m的片段s，取出前半部分定义为片段的前
部数据，记为s
p
，取出剩余部分，定义为片段的后部数据，记为ss；最后针对每个片段s，复制每个片段s对应的第一条语音时序数据x1、第二条语音时序数据x2和标签y，将第二条语音时序数据x2换名为待比较片段s’，得到由n*m个四元组(s
p
，ss，s’，y)组成的n*m条配对片段数据集；s4、构建人工神经网络；具体为：s401、建立结合有变分自编码条件的对抗生成模型，用于提取语音时序数据隐含特征；s4011、将片段的前部数据sp通过第一变换器处理得到s
ps
，将片段的后部数据ss通过第二变换器处理得到s
sp
；s4012、将(s
ps
，s
sp
)组合成一个完整片段sf；s4013、创建一维卷积神经网络，接收任一片段作为输入，当输入为完整片段sf时，输出记为z，当输入为待比较片段s’时，输出记为z’；每输入一个完整片段sf，必紧随输入一个待比较片段s’；s4014、由（z，z’）计算距离d:d=‖z’－z‖2；s4015、根据距离d及标签y，计算损失：；margin为用户自定义的一个大于0的实数，通常设定为1；s5、训练由所述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络；s6、通过语音识别网络进行语音识别。
5.优选地，m0为128或256。
6.优选地，s5具体为：s501、初始化第一变换器、第二变换器和一维卷积神经网络；s502、训练数据为m*n条配对数据片段及标签；s503、将训练数据逐条作为输入导入语音识别网络；s504、以l为损失函数，计算损失；s505、用adam优化方法更新语音识别网络的权值；s506、每处理m0条数据，计为一个批次，所有训练数据处理完毕一次，计为一个epoch；s507、训练k个epoch；k为自然数。
7.优选地，s6具体为：从各类别基准语音库中，每类别取一条基准语音构成s
’’
，从用户中取一条待识别语音并进行切片得到切片sw，将切片sw替换s4013中的待比较片段s’，按这种方式组成一对多配对，输入到所述语音识别网络，利用每个配对计算得到z和z’，通过z和z’，继而得到距离d，最后形成列表{dw}，从列表中得最小值所对应的下标，即为语音类别号。
8.本发明的第二目的是提供一种基于对比预测编码的语音识别系统，包括：
预处理模块，采集每个语音类别的a个语音文件，对每个语音文件进行预处理，得到pcm编码的语音时序数据；a为大于1的自然数；配对数据集构建模块，构建所述语音时序数据的配对数据集；所述配对数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据，同类配对时标签y定义为0，异类配对时标签y定义为1；同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成；所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据；所述异类配对集每个数据的两条语音时序数据为不同语音类别的语音时序数据；配对片段数据集构建模块，构建配对片段数据集；具体为：对于配对数据集中的第一条语音时序数据x1，首先按照定长m，从中随机截取m个片段s，每个片段s保持定长m；然后将所有定长为m的片段s，取出前半部分定义为片段的前部数据，记为s
p
，取出剩余部分，定义为片段的后部数据，记为ss；最后针对每个片段s，复制每个片段s对应的第一条语音时序数据x1、第二条语音时序数据x2和标签y，将第二条语音时序数据x2换名为待比较片段s’，得到由n*m个四元组(s
p
，ss，s’，y)组成的n*m条配对片段数据集；人工神经网络构建模块；构建过程为：s401、建立结合有变分自编码条件的对抗生成模型，用于提取语音时序数据隐含特征；s4011、将片段的前部数据sp通过第一变换器处理得到s
ps
，将片段的后部数据ss通过第二变换器处理得到s
sp
；s4012、将(s
ps
，s
sp
)组合成一个完整片段sf；s4013、创建一维卷积神经网络，接收任一片段作为输入，当输入为完整片段sf时，输出记为z，当输入为待比较片段s’时，输出记为z’；每输入一个完整片段sf，必紧随输入一个待比较片段s’；s4014、由（z，z’）计算距离d:d=‖z’－z‖2；s4015、根据距离d及标签y，计算损失：；margin为用户自定义的一个大于0的实数，通常设定为1；训练模块，训练由所述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络；识别模块，通过语音识别网络进行语音识别。
9.优选地，m0为128或256。
10.优选地，训练模块的训练过程为：s501、初始化第一变换器、第二变换器和一维卷积神经网络；s502、训练数据为m*n条配对数据片段及标签；s503、将训练数据逐条作为输入导入语音识别网络；
s504、以l为损失函数，计算损失；s505、用adam优化方法更新语音识别网络的权值；s506、每处理m0条数据，计为一个批次，所有训练数据处理完毕一次，计为一个epoch；s507、训练k个epoch；k为自然数。
11.优选地，识别模块的识别过程为：从各类别基准语音库中，每类别取一条基准语音构成s
’’
，从用户中取一条待识别语音并进行切片得到切片sw，将切片sw替换s4013中的待比较片段s’，按这种方式组成一对多配对，输入到所述语音识别网络，利用每个配对计算得到z和z’，通过z和z’，继而得到距离d，最后形成列表{dw}，从列表中得最小值所对应的下标，即为语音类别号。
12.本发明的第三目的是提供一种信息数据处理终端，用于实现上述基于对比预测编码的语音识别方法。
13.本发明的第四目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述基于对比预测编码的语音识别方法。
14.本发明的优点及积极效果为：本发明充分利用后台获取的大量不充分的语音数据，将语音数据视为时间序列数据，直接端到端进行转换，不需要中间的语音时序数据特征的提取，每条语音随机提取时间定长的一定数量的片段，每个片段划分前面部分数据和后面数据，当前面数据作为输入时，通过第一变换器实现后面时序数据的编码预测，当后面数据作为输入时，通过第二变换器实现前面数据的时序预测，将预测的数据组合后，与同类（或异类）待测数据直接进行端到端的成对数据比较，最终按照语音类别标签要求，实现端到端的语音识别。
附图说明
15.图1是本发明优选实施例中构建数据集的流程图；图2是本发明优选实施例中构建人工神经网络的流程图；图3是本发明优选实施例中变换器（transformer）的流程图；图4是本发明优选实施例中语音识别的流程图。
具体实施方式
16.为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并结合附图详细说明如下。
17.请参阅图1至图4，一种基于对比预测编码的语音识别方法，包括：s1、采集每个语音类别的a个语音文件，对每个语音文件进行预处理，得到pcm编码的语音时序数据；a为大于1的自然数；s2、构建所述语音时序数据的配对数据集；所述配对数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据，同类配对时标签y定义为0，异类配对时标签y定义为1；同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成；所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据；所述异类配对集每个数据的两条语音时序数据为不同语音类别
的语音时序数据；请参阅图1，配对数据集的构建过程具体为：在图1中，为了说明问题，以三个语音类别为例进行详细说明，左侧的原始语音时序数据样本包括三个语音类别的语音时序数据样本，每个语音类别的语音时序数据分别用不同的填充进行区分；首先从同一语音类别的语音时序数据中抽取两条语音时序数据进行配对，得到同类配对，将同类配对的标签y定义为0；从两个不同语音类别的语音时序数据中各抽取一条语音时序数据进行配对，得到异类配对，将异类配对的标签y定义为1；然后根据总配对数量n，定义语音类别的数量为类数k，同异类采样比为α，为了满足公平取样的目的，即每个语音类别被抽取的概率相同，设置如下的限定条件：s1+s
2 =n/k，计算每类需抽取的同类配对数s1和异类配对数s2：；最后将同类配对、异类配对和标签y组成数据集，所述数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据；y为标签。
18.本发明对于这些语音时序数据使用有放回抽样配对来构建数据集：同一语音类别语音时序数据样本中，每次抽取两条，完成一次配对，对其标注为y＝0。
19.不同语音类别语音时序数据样本中，某一语音类别随机抽取一条，在其他类语音时序数据中随机抽取一条，完成一次配对，对其标注y=1。
20.如此同类配对抽取s1轮，异类配对抽取s2轮，即得到s1+s2个配对，将其组成数据集，即可进行训练和测试。有放回抽样不存在各类语音时序数据中语音时序数据数不足的问题。
21.s3、构建配对片段数据集；具体为：对于配对数据集中的第一条语音时序数据x1，首先按照定长m，从中随机截取m个片段s，每个片段s保持定长m；然后将所有定长为m的片段，取出前半部分定义为片段的前部数据，记为s
p
，取出剩余部分，定义为片段的后部数据，记为ss；最后针对每个片段s，复制每个片段s对应的第一条语音时序数据x1、第二条语音时序数据x2和标签y，将第二条语音时序数据x2换名为待比较片段s’，得到由n*m个四元组(s
p
，ss，s’，y)组成的n*m条配对片段数据集；s4、构建人工神经网络；具体为：s401、建立结合有变分自编码条件的对抗生成模型，用于提取语音时序数据隐含特征；s4011、建立片段的前部数据s
p
对应的第一变换器，处理后结果为s
ps
，片段的后部数据ss对应的第二变换器，处理后结果为s
sp
；
s4012、将片段前后部分(s
ps
，s
sp
)组合成一个完整片段sf；s4013、创建一个一维卷积神经网络，接收任一片段作为输入，当输入为完整片段sf时，输出记为z，当输入为待比较片段s’时，输出记为z’；每输入一个完整片段sf，必紧随输入一个待比较片段s’；s4014、根据配对片段（s，s’），对于片段s，则划分前后部分后，经第一变换器和第二变换器输出s
sp
、s
ps
，经组合成片段sf后，经一维卷积神经网络输出z；对于待比较片段s’，则直接经一维卷积神经网络后输出z’，由（z，z’）计算距离d:d=‖z’－z‖2；s4015、根据距离d及标签y，计算损失：；margin为用户自定义的一个大于0的实数，通常设定为1；s5、训练由前述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络；具体为：s501、初始化第一变换器、第二变换器和一维卷积神经网络；s502、训练数据为m*n条配对数据片段及标签；s503、将训练数据逐条作为输入导入语音识别网络；s504、以l为损失函数，计算损失；s505、用adam优化方法更新语音识别网络的权值；s506、每处理m0条数据（m0为由用户自定义的自然数，建议为128或256），计为一个批次，所有训练数据处理完毕一次，计为一个epoch；s507、训练k个epoch；k为自然数；ss6、通过语音识别网络进行语音识别；从各类别基准语音库中，每类别取一条基准语音构成s
’’
，从用户中取一条待识别语音并进行切片得到切片sw，代替s4013中的待比较片段s’，按上述方式可组成一对多配对，输入到s5已训练完成的所述语音识别网络，利用每个配对计算得到z和z’，通过z和z’，继而得到距离d，最后形成列表{dw}，从列表中得最小值所对应的下标，即为语音类别号。
22.一种基于对比预测编码的语音识别系统，包括：预处理模块，采集每个语音类别的a个语音文件，对每个语音文件进行预处理，得到pcm编码的语音时序数据；a为大于1的自然数；配对数据集构建模块，构建所述语音时序数据的配对数据集；所述配对数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据，同类配对时标签y定义为0，异类配对时标签y定义为1；同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成；所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据；所述异类配对集每个数据的两条语音时序数据为不同语音类别的语音时序数据；请参阅图1，配对数据集的构建过程具体为：在图1中，为了说明问题，以三个语音类别为例进行详细说明，左侧的原始语音时序数据样本包括三个语音类别的语音时序数据样本，每个语音类别的语音时序数据分别用
不同的填充进行区分；首先从同一语音类别的语音时序数据中抽取两条语音时序数据进行配对，得到同类配对，将同类配对的标签y定义为0；从两个不同语音类别的语音时序数据中各抽取一条语音时序数据进行配对，得到异类配对，将异类配对的标签y定义为1；然后根据总配对数量n，定义语音类别的数量为类数k，同异类采样比为α，为例满足公平取样的目的，即每个语音类别被抽取的概率相同，设置如下的限定条件：s1+s2=n/k，计算每类需抽取的同类配对数s1和异类配对数s2：；最后将同类配对、异类配对和标签y组成数据集，所述数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据；y为标签。
23.本发明对于这些语音时序数据使用有放回抽样配对来构建数据集：同一语音类别语音时序数据样本中，每次抽取两条，完成一次配对，对其标注为y＝0。
24.不同语音类别语音时序数据样本中，某一语音类别随机抽取一条，在其他类语音时序数据中随机抽取一条，完成一次配对，对其标注y=1。
25.如此同类配对抽取s1轮，异类配对抽取s2轮，即得到s1+s2个配对，将其组成数据集，即可进行训练和测试。有放回抽样不存在各类语音时序数据中语音时序数据数不足的问题。
26.配对片段数据集构建模块，构建配对片段数据集；具体为：对于配对数据集中的第一条语音时序数据x1，首先按照定长m，从中随机截取m个片段s，每个片段s保持定长m；然后将所有定长为m的片段，取出前半部分定义为片段的前部数据，记为s
p
，取出剩余部分，定义为片段的后部数据，记为ss；最后针对每个片段s，复制每个片段s对应的第一条语音时序数据x1、第二条语音时序数据x2和标签y，将第二条语音时序数据x2换名为待比较片段s’，得到由n*m个四元组(s
p
，ss，s’，y)组成的n*m条配对片段数据集；人工神经网络构建模块，构建人工神经网络；具体为：s401、建立结合有变分自编码条件的对抗生成模型，用于提取语音时序数据隐含特征；s4011、建立片段的前部数据s
p
对应的第一变换器，处理后结果为s
ps
，片段的后部数据ss对应的第二变换器，处理后结果为s
sp
；s4012、将片段前后部分(s
ps
，s
sp
)组合成一个完整片段sf；s4013、创建一个一维卷积神经网络，接收任一片段作为输入，当输入为完整片段sf时，输出记为z，当输入为待比较片段s’时，输出记为z’；每输入一个完整片段sf，必紧随输
state disk(ssd))等。
30.以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

技术特征：

1.一种基于对比预测编码的语音识别方法，其特征在于，包括如下步骤：s1、采集每个语音类别的a个语音文件，对每个语音文件进行预处理，得到pcm编码的语音时序数据；a为大于1的自然数；s2、构建所述语音时序数据的配对数据集；所述配对数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据，同类配对时标签y定义为0，异类配对时标签y定义为1；同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成；所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据；所述异类配对集每个数据的两条语音时序数据为不同语音类别的语音时序数据；s3、构建配对片段数据集；具体为：对于配对数据集中的第一条语音时序数据x1，首先按照定长m，从中随机截取m个片段s，每个片段s保持定长m；然后将所有定长为m的片段s，取出前半部分定义为片段的前部数据，记为s
p
，取出剩余部分，定义为片段的后部数据，记为s
s
；最后针对每个片段s，复制每个片段s对应的第一条语音时序数据x1、第二条语音时序数据x2和标签y，将第二条语音时序数据x2换名为待比较片段s’，得到由n*m个四元组(sp，ss，s’，y)组成的n*m条配对片段数据集；s4、构建人工神经网络；具体为：s401、建立结合有变分自编码条件的对抗生成模型，用于提取语音时序数据隐含特征；s4011、将片段的前部数据s
p
通过第一变换器处理得到s
ps
，将片段的后部数据s
s
通过第二变换器处理得到s
sp
；s4012、将(s
ps
，s
sp
)组合成一个完整片段s
f
；s4013、创建一维卷积神经网络，当输入为完整片段s
f
时，输出记为z，当输入为待比较片段s’时，输出记为z’；每输入一个完整片段s
f
，必紧随输入一个待比较片段s’；s4014、由（z，z’）计算距离d:d=‖z’－z‖2；s4015、根据距离d及标签y，计算损失：；margin为用户自定义的一个大于0的实数；s5、训练由所述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络；s6、通过语音识别网络进行语音识别。2.根据权利要求1所述基于对比预测编码的语音识别方法，其特征在于，m0为128或256。3.根据权利要求2所述基于对比预测编码的语音识别方法，其特征在于，s5具体为：s501、初始化第一变换器、第二变换器和一维卷积神经网络；s502、训练数据为m*n条配对数据片段及标签；s503、将训练数据逐条作为输入导入语音识别网络；s504、以l为损失函数，计算损失；s505、用adam优化方法更新语音识别网络的权值；s506、每处理m0条数据，计为一个批次，所有训练数据处理完毕一次，计为一个epoch；
s507、训练k个epoch；k为自然数。4.根据权利要求3所述基于对比预测编码的语音识别方法，其特征在于，s6具体为：从各类别基准语音库中，每类别取一条基准语音构成s
’’
，从用户中取一条待识别语音并进行切片得到切片s
w
，将切片s
w
替换s4013中的待比较片段s’，按这种方式组成一对多配对，输入到所述语音识别网络，利用每个配对计算得到z和z’，通过z和z’，继而得到距离d，最后形成列表{d
w
}，从列表中得最小值所对应的下标，即为语音类别号。5.一种基于对比预测编码的语音识别系统，其特征在于，包括：预处理模块，采集每个语音类别的a个语音文件，对每个语音文件进行预处理，得到pcm编码的语音时序数据；a为大于1的自然数；配对数据集构建模块，构建所述语音时序数据的配对数据集；所述配对数据集包括n个三元组（x1，x2，y）；其中：x1为三元组的第一条语音时序数据，x2为三元组的第二条语音时序数据，同类配对时标签y定义为0，异类配对时标签y定义为1；同类配对集的每个数据和异类配对集的每个数据均由两条语音时序数据组成；所述同类配对集每个数据的两条语音时序数据为同一个语音类别的语音时序数据；所述异类配对集每个数据的两条语音时序数据为不同语音类别的语音时序数据；配对片段数据集构建模块，构建配对片段数据集；具体为：对于配对数据集中的第一条语音时序数据x1，首先按照定长m，从中随机截取m个片段s，每个片段s保持定长m；然后将所有定长为m的片段s，取出前半部分定义为片段的前部数据，记为s
p
，取出剩余部分，定义为片段的后部数据，记为s
s
；最后针对每个片段s，复制每个片段s对应的第一条语音时序数据x1、第二条语音时序数据x2和标签y，将第二条语音时序数据x2换名为待比较片段s’，得到由n*m个四元组(sp，ss，s’，y)组成的n*m条配对片段数据集；人工神经网络构建模块；构建过程为：s401、建立结合有变分自编码条件的对抗生成模型，用于提取语音时序数据隐含特征；s4011、将片段的前部数据s
p
通过第一变换器处理得到s
ps
，将片段的后部数据s
s
通过第二变换器处理得到s
sp
；s4012、将(s
ps
，s
sp
)组合成一个完整片段s
f
；s4013、创建一维卷积神经网络，当输入为完整片段s
f
时，输出记为z，当输入为待比较片段s’时，输出记为z’；每输入一个完整片段s
f
，必紧随输入一个待比较片段s’；s4014、由（z，z’）计算距离d:d=‖z’－z‖2；s4015、根据距离d及标签y，计算损失：；margin为用户自定义的一个大于0的实数；训练模块，训练由所述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络；识别模块，通过语音识别网络进行语音识别。6.根据权利要求5所述基于对比预测编码的语音识别系统，其特征在于，m0为128或256。
7.根据权利要求6所述基于对比预测编码的语音识别系统，其特征在于，训练模块的训练过程为：s501、初始化第一变换器、第二变换器和一维卷积神经网络；s502、训练数据为m*n条配对数据片段及标签；s503、将训练数据逐条作为输入导入语音识别网络；s504、以l为损失函数，计算损失；s505、用adam优化方法更新语音识别网络的权值；s506、每处理m0条数据，计为一个批次，所有训练数据处理完毕一次，计为一个epoch；s507、训练k个epoch；k为自然数。8.根据权利要求7所述基于对比预测编码的语音识别系统，其特征在于，识别模块的识别过程为：从各类别基准语音库中，每类别取一条基准语音构成s
’’
，从用户中取一条待识别语音并进行切片得到切片s
w
，将切片s
w
替换s4013中的待比较片段s’，按这种方式组成一对多配对，输入到所述语音识别网络，利用每个配对计算得到z和z’，通过z和z’，继而得到距离d，最后形成列表{d
w
}，从列表中得最小值所对应的下标，即为语音类别号。9.一种信息数据处理终端，其特征在于，用于实现权利要求1至4任一项所述基于对比预测编码的语音识别方法。10.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至4任一项所述基于对比预测编码的语音识别方法。

技术总结

本发明公开了一种基于对比预测编码的语音识别方法及系统，属于声纹识别技术领域，其特征在于，包括如下步骤：S1、采集每个语音类别的A个语音文件，对每个语音文件进行预处理，得到PCM编码的语音时序数据；S2、构建所述语音时序数据的配对数据集；S3、构建配对片段数据集；S4、构建人工神经网络；S5、训练由所述第一变换器、第二变换器、一维卷积神经网络构成的语音识别网络；S6、通过语音识别网络进行语音识别。本发明充分利用后台获取的大量不充分的语音数据，将语音数据视为时间序列数据，直接实现端到端进行转换，不需要其间的语音时序数据特征的提取。征的提取。征的提取。