语音解码方法、系统、存储介质及终端与流程

1.本发明涉及语音识别技术领域，尤其涉及一种语音解码方法、系统、存储介质及终端。

背景技术：

2.在目前的语音识别技术中，现有的解码器主要是利用加权有限状态转换器将声学模型、上下文相关、发音词典、语言模型等文件经过一系列的最小化、确定化等算法组合而成的静态解码图，解码过程就是在解码图中寻最优路径的过程。但是上述的方法由于需要依赖声学模型得分的相对准确性，在一些复杂的语音环境下，当本身声学模型得分本身不太可靠时，很难得到正确的解码结果。
3.因此，有必要提供一种新型的语音解码方法、系统、存储介质及终端以解决现有技术中存在的上述问题。

技术实现要素：

4.本发明的目的在于提供一种语音解码方法、系统、存储介质及终端，提高了在复杂语音环境下对语音解码的准确性。
5.第一方面，为实现上述目的，本发明的所述一种语音解码方法，所述方法包括：
6.将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分；
7.将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息；
8.根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果以完成解码。
9.所述根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果，完成解码，包括：
10.获取每一组所述初始解码结果中的初始解码序列以及对应的所述初始似然度得分，其中，所述初始解码序列包括第二音节信息和第二时刻信息；
11.将每一个所述初始解码序列中的所述第二音节信息与所述第一音节信息进行比对以得到音节差异信息；
12.将每一个所述初始解码序列中的所述第二时刻信息与所述第一时刻信息进行比对以得到时刻差异信息；
13.根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述初始解码结果的加权得分；
14.将每一组初始解码结果的所述加权得分与所述初始似然度得分进行累加求和以得到加权似然度得分；
15.对每一个所述初始解码结果计算得到的所述加权似然度得分进行排序，并将所述
加权似然度得分最高的所述初始解码结果作为所述目标解码结果，完成解码。
16.可选的，所述根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述初始解码结果的加权得分，包括：
17.根据所述音节差异信息获取所述第二音节信息与所述第一音节信息中每一个音节的差异值，并根据每一个音节的差异值计算得到音节加权得分；
18.根据所述时刻差异信息获取所述第二时刻信息和所述第一时刻信息中每一个音节时刻的差异值，并根据每一个音节时刻的差异值计算得到时刻加权得分；
19.根据所述音节加权得分和所述时刻加权得分得到每一个解码结果的所述加权得分。
20.可选的，所述第一时刻信息为所述第一音节信息中每一个音节对应的时刻信息，所述第二时刻信息为所述第二音节信息中每一个音节对应的时刻信息。
21.可选的，所述通过所述声学模型获取若干组初始解码结果，包括：
22.根据基础发音词典规则对所述音频数据进行解析，以输出若干组初始解码结果。
23.可选的，所述清浊音分类模型的训练过程包括：
24.根据频谱图确定发音词典中各个音素的清浊音分类信息，确定每一个所述音素对应到清浊音的映射表；
25.根据所述映射表将所述声学模型的训练数据中的音素序列信息映射为清浊音训练信息；
26.选择神经网络模型作为初始模型，输入所述清浊音训练信息对所述初始模型进行训练；
27.在训练后的所述初始模型的输出结果与输入的所述清浊音训练信息对应的正确结果之间的重合程度达到预设阈值后，得到所述清浊音分类模型。
28.可选的，所述初始模型的输入维度根据所述清浊音训练信息确定，所述初始模型的输出维度根据所述清浊音分类信息确定。
29.第二方面，本发明还提供了一种语音解码系统，所述系统包括：
30.初始解码模块，用于将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分；
31.清浊音分类模块，用于将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息；
32.目标解码模块，用于根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果，完成解码。
33.第三方面，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音解码方法。
34.第四方面，本发明还提供了一种终端，包括：处理器及存储器；
35.所述存储器用于存储计算机程序；
36.所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上所述的语音解码方法。
附图说明
37.图1为本发明实施例的所述语音解码方法的整体流程示意图；
38.图2为本发明实施例的所述语音解码方法中清浊音分类模型的训练过程的流程示意图；
39.图3为本发明实施例的所述终端升级方法中步骤s103的流程示意图；
40.图4为本发明实施例的所述语音解码系统的结构框图；
41.图5为本发明实施例所述设备的结构框图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另外定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本文中使用的“包括”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。
43.针对现有技术存在的问题，本发明的实施例提供了一种语音解码方法，参考图1，所述方法包括如下步骤：
44.s101、将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分。
45.在一些实施例中，所述通过所述声学模型获取若干组初始解码结果，包括：
46.根据基础发音词典规则对所述音频数据进行解析，以输出若干组初始解码结果，而每一组初始解码结果中都包含一组初始解码序列和初始似然度得分，以便于后续对初始解码结果进行筛选处理。
47.在本实施例中，所述声学模型可以采用现有技术中直接训练得到的声学模型，以根据输入的音频数据进行解码得到初始解码结果，也可以采用搜集到的训练数据，根据基础发音词典的规则并按照一定的网络结构，采用训练数据对声学模型进行训练，以得到满足要求的声学模型，此处不再赘述。
48.其中，所述初始解码序列包括第二音节信息和第二时刻信息，第二音节信息包括每一个音节的组成和排序情况，而所述第二时刻信息为所述第二音节信息中每一个音节对应的时刻信息，以便于根据第二时刻信息确定所述第二音节信息中每一个音节的时间情况。
49.s102、将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息。
50.通过将待解码的音频数据输入到清浊音分类模型之后，通过清浊音分类模型对音频数据进行处理，以得到清浊音序列信息，其中，清浊音序列信息包括第一音节信息和第一时刻信息，第一音节信息包括每一个音节的组成和排序情况，第一时刻信息为所述第一音节信息中每一个音节对应的时刻信息，以便于根据第一时刻信息确定所述第一音节信息中每一个音节的时间情况。
51.在一些实施例中，参考图2，所述清浊音分类模型的训练过程包括如下步骤：
52.s201、根据频谱图确定发音词典中各个音素的清浊音分类信息，确定每一个所述音素对应到清浊音的映射表；
53.s202、根据所述映射表将所述声学模型的训练数据中的音素序列信息映射为清浊音训练信息；
54.s203、选择神经网络模型作为初始模型，输入所述清浊音训练信息对所述初始模型进行训练；
55.s204、在训练后的所述初始模型的输出结果与输入的所述清浊音训练信息对应的正确结果之间的重合程度达到预设阈值后，得到所述清浊音分类模型。
56.具体的，首先根据频谱图确定发音词典中清音和浊音的分类信息，以便于确定每一个音素对应到清音和浊音的映射表。之后获取训练数据中的音素序列信息，并根据映射表将音素序列信息映射为清浊音训练信息，并将清浊音训练信息输入到初始模型中进行训练，之后初始模型根据输入的信息产生对应的输出结果，将输出结果与清浊音训练信息对应的正确结果进行比对，以计算得到输出结果与输入的所述清浊音训练信息对应的正确结果之间的重合程度，并在重合程度达到预设阈值之后，就可以将初始模型输出作为最终的清浊音分类模型。
57.需要说明的是，所述预设阈值可以根据情况选择，所述预设阈值至少为90％，在本实施例中，所述预设阈值为90％，当所述初始模型的输出结果与输入的所述清浊音训练信息对应的正确结果之间的重合程度达到90％以上之后，则将初始模型作为最终的清浊音分类模型。
58.在一些实施例中，所述初始模型为前馈序列神经网络模型。
59.在另外一些实施例中，所述初始模型的输入维度根据所述清浊音训练信息确定，所述初始模型的输出维度根据所述清浊音分类信息确定，以保证在初始模型的输入维度和输出维度保持对应。
60.具体的，当选择声学模型的训练数据中的音素序列信息作为清浊音训练信息时，输入维度根据音素序列信息中的数据特征的组成来确定；而当选择声学模型的训练数据中的基频信息作为清浊音训练信息时，输入维度根据基频信息的数据特征组成来确定。而初始模型的输出维度则根据清浊音分类信息确定，以保证在不同的输入条件下也能够产生满足要求的输出结果。
61.s103、根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果以完成解码。
62.在一些实施例中，参考图3，上述过程包括如下步骤：
63.s301、获取每一组所述初始解码结果中的初始解码序列以及对应的所述初始似然度得分；
64.s302、将每一个所述初始解码序列中的所述第二音节信息与所述第一音节信息进行比对以得到音节差异信息；
65.s303、将每一个所述初始解码序列中的所述第二时刻信息与所述第一时刻信息进行比对以得到时刻差异信息；
66.s304、根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述
初始解码结果的加权得分；
67.s305、将每一组初始解码结果的所述加权得分与所述初始似然度得分进行累加求和以得到加权似然度得分；
68.s306、对每一个所述初始解码结果计算得到的所述加权似然度得分进行排序，并将所述加权似然度得分最高的所述初始解码结果作为所述目标解码结果，完成解码。
69.具体的，在得到初始解码结果和包含第一音节信息和第一时刻信息的清浊音序列信息之后，由于初始解码结果包括初始解码序列和初始似然度得分，而初始解码序列包括第二音节信息和第二时刻信息，在获取得到每一组初始解码结果中的初始解码序列以及对应的初始似然度得分之后，首先将每一个初始解码序列中的第二音节信息与第一音节信息进行比对，从而得到声学模型解码后的初始解码结果中的音节的组成排列情况与清浊音分类模型处理后得到的音节的组成排列情况之间的差异，也就是得到音节差异信息。同样的，将每一个所述初始解码序列中的所述第二时刻信息与所述第一时刻信息进行比对，从而得到声学模型解码后的初始解码结果中的音节的时刻跳转信息与清浊音分类模型处理后得到的音节的时刻跳转信息之间的差异，也就是得到时刻差异信息。
70.在得到音节差异信息和时刻差异信息之后，根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述初始解码结果的加权得分，其中，当音节差异信息越大，也就是初始解码结果与清浊音序列信息之间音节的组成和排列情况差异越大，则加权得分越低；相反的当音节差异信息越小，也就是初始解码结果与清浊音序列信息之间音节的组成和排列情况差异越小，则加权得分越高。
71.对应的，当时刻差异信息越大，也就是初始解码结果与清浊音序列信息之间的音节跳转时刻信息差异越大，则加权得分越低；相反的，当时刻差异信息越小，也就是初始解码结果与清浊音序列信息之间的音节跳转时刻信息差异越小，则加权得分越大，此处不再赘述。
72.需要说明的是，在本实施例中，所述音节差异信息和所述时刻差异信息对应加权得分的加权系数为设定值，可以根据情况进行选择，在本实施例中，加权系数为1。
73.而在得到加权得分之后，分别将每一组初始解码结果对应的加权得分与初始解码结果中的初始似然度得分进行累加计算，从而得到每一组初始解码结果对应的加权似然度得分，之后对每一个所述初始解码结果计算得到的所述加权似然度得分进行排序，并将所述加权似然度得分最高的所述初始解码结果作为所述目标解码结果，从而完成整个解码过程。
74.在上述解码过程中，根据音节的组成、排列以及跳变时刻，对声学模型的初始解码结果做对比，进行一定的筛选和加权，将不符合音节组成和排列的初始解码结果直接过滤掉，符合音节数目并且音素跳转时刻与清浊音分类模型的清浊音分类信息基本一致进行加权，这样就可以在减少计算量的同时，得到更准确的解码结果，完成解码过程。能够有效解决单独的声学模型在复杂语音环境下解码识别准确度低的问题。
75.在一些实施例中，所述根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述初始解码结果的加权得分，包括：
76.根据所述音节差异信息获取所述第二音节信息与所述第一音节信息中每一个音节的差异值，并根据每一个音节的差异值计算得到音节加权得分；
77.根据所述时刻差异信息获取所述第二时刻信息和所述第一时刻信息中每一个音节时刻的差异值，并根据每一个音节时刻的差异值计算得到时刻加权得分；
78.根据所述音节加权得分和所述时刻加权得分得到每一个解码结果的所述加权得分。
79.具体的，根据音节差异信息对第二音节信息和第一音节信息中的每一个音节对应进行比较，当初始解码结果中的音节与清浊音分类信息的音节完全对应时，得到当前的音节加权得分为a；反之当初始解码结果中的音节与清浊音分类信息的音节不对应时，得到当前的音节加权得分为b，其中，a＞b，且a、b均为正数。
80.根据时刻差异信息对第二时刻信息和第一时刻信息中的每一个音节跳转时刻进行比对，当初始解码结果中与清浊音分类信息中的音节跳转时刻之间的差异不超过差异阈值时，得到当前的时刻加权得分为c；反之当初始解码结果与清浊音分类信息的音节跳转时刻之间的差异超过差异阈值时，得到当前的音节加权得分为d，其中，c＞d，且c、d均为正数。其中差异阈值根据第一时刻信息和第二时刻信息进行设定，此处不再赘述。
81.在完成上述比对过程之后，就可以得到初始解码结果中每一个音节的音节加权得分以及每一个音节跳转时刻对应的时刻加权得分，将音节加权得分和时刻加权得分累加在一起，就可以得到最终的加权得分，以便于后续对初始解码结果进行筛选。
82.在上述的语音解码方法中，相对于传统的hlcg解码，能够在信噪比较低的环境下在声学模型解码结果不够可靠时，依靠清浊音分类模型给出的清浊音分类信息对初始解码结果进行联合推理，以得到更加准确的解码结果，提高解码结果的准确性。而且在信噪比较高的环境中时，声学模型和清浊音分类模型的可信度都比较高且一致，也基本不会影响原有性能。
83.本发明还提供了一种语音解码系统，参考图4，所述系统包括：
84.初始解码模块401，用于将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分；
85.清浊音分类模块402，用于将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息；
86.目标解码模块403，用于根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果，完成解码。
87.需要说明的是，上述语音解码系统的结构及原理与上述语音解码方法中的步骤一一对应，故在此不再赘述。
88.需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，选择模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软
件形式的指令完成。
89.例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，asic)，或，一个或多个数字信号处理器(digital signal processor，dsp)，或，一个或者多个现场可编程门阵列(field programmable gate array，fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(central processing unit，cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，soc)的形式实现。
90.在本技术的另一些实施例中，本技术实施例公开了一种设备，如图5所示，该设备500可以包括：一个或多个处理器501；存储器502；显示器503；一个或多个应用程序(未示出)；以及一个或多个计算机程序504，上述各器件可以通过一个或多个通信总线505连接。其中该一个或多个计算机程序504被存储在上述存储器502中并被配置为被该一个或多个处理器501执行，该一个或多个计算机程序504包括指令。
91.本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的语音解码方法。
92.本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的方法。所述存储介质包括：只读存储器(read-only memory，rom)、随机访问存储器(random access memory，ram)、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
93.在本发明公开的另一个实施例中，本发明还提供一种芯片系统，芯片系统与存储器耦合，用于读取并执行所述存储器中存储的程序指令，以执行上述语音解码方法的步骤。
94.通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
95.在本技术实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
96.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
97.以上所述，仅为本技术实施例的具体实施方式，但本技术实施例的保护范围并不局限于此，任何在本技术实施例揭露的技术范围内的变化或替换，都应涵盖在本技术实施例的保护范围之内。因此，本技术实施例的保护范围应以所述权利要求的保护范围为准。
98.虽然在上文中详细说明了本发明的实施方式，但是对于本领域的技术人员来说显而易见的是，能够对这些实施方式进行各种修改和变化。但是，应理解，这种修改和变化都属于权利要求书中所述的本发明的范围和精神之内。而且，在此说明的本发明可有其它的实施方式，并且可通过多种方式实施或实现。

技术特征：

1.一种语音解码方法，其特征在于，所述方法包括：将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分；将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息；根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果以完成解码。2.根据权利要求1所述的语音解码方法，其特征在于，所述根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果，完成解码，包括：获取每一组所述初始解码结果中的初始解码序列以及对应的所述初始似然度得分，其中，所述初始解码序列包括第二音节信息和第二时刻信息；将每一个所述初始解码序列中的所述第二音节信息与所述第一音节信息进行比对以得到音节差异信息；将每一个所述初始解码序列中的所述第二时刻信息与所述第一时刻信息进行比对以得到时刻差异信息；根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述初始解码结果的加权得分；将每一组初始解码结果的所述加权得分与所述初始似然度得分进行累加求和以得到加权似然度得分；对每一个所述初始解码结果计算得到的所述加权似然度得分进行排序，并将所述加权似然度得分最高的所述初始解码结果作为所述目标解码结果，完成解码。3.根据权利要求2所述的语音解码方法，其特征在于，所述根据所述音节差异信息和所述时刻差异信息进行加权计算得到每一组所述初始解码结果的加权得分，包括：根据所述音节差异信息获取所述第二音节信息与所述第一音节信息中每一个音节的差异值，并根据每一个音节的差异值计算得到音节加权得分；根据所述时刻差异信息获取所述第二时刻信息和所述第一时刻信息中每一个音节时刻的差异值，并根据每一个音节时刻的差异值计算得到时刻加权得分；根据所述音节加权得分和所述时刻加权得分得到每一个解码结果的所述加权得分。4.根据权利要求2所述的语音解码方法，其特征在于，所述第一时刻信息为所述第一音节信息中每一个音节对应的时刻信息，所述第二时刻信息为所述第二音节信息中每一个音节对应的时刻信息。5.根据权利要求1所述的语音解码方法，其特征在于，所述通过所述声学模型获取若干组初始解码结果，包括：根据基础发音词典规则对所述音频数据进行解析，以输出若干组初始解码结果。6.根据权利要求1至5所述的语音解码方法，其特征在于，所述清浊音分类模型的训练过程包括：根据频谱图确定发音词典中各个音素的清浊音分类信息，确定每一个所述音素对应到清浊音的映射表；
根据所述映射表将所述声学模型的训练数据中的音素序列信息映射为清浊音训练信息；选择神经网络模型作为初始模型，输入所述清浊音训练信息对所述初始模型进行训练；在训练后的所述初始模型的输出结果与输入的所述清浊音训练信息对应的正确结果之间的重合程度达到预设阈值后，得到所述清浊音分类模型。7.根据权利要求6所述的语音解码方法，其特征在于，所述初始模型的输入维度根据所述清浊音训练信息确定，所述初始模型的输出维度根据所述清浊音分类信息确定。8.一种语音解码系统，其特征在于，所述系统包括：初始解码模块，用于将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分；清浊音分类模块，用于将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息；目标解码模块，用于根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果，完成解码。9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音解码方法。10.一种终端，其特征在于，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的语音解码方法。

技术总结

本发明提供了一种语音解码方法、系统、存储介质及终端，所述方法包括：将待解码的音频数据输入至声学模型，通过所述声学模型获取若干组初始解码结果，所述初始解码结果包括初始解码序列和初始似然度得分；将待解码的所述音频数据输入至清浊音分类模型，以得到清浊音序列信息，其中所述清浊音序列信息包括第一音节信息和第一时刻信息；根据所述第一音节信息和所述第一时刻信息对每一组所述初始解码结果进行筛选处理以得到目标解码结果，完成解码。本发明能够在复杂语音环境下对语音解码的准确性。确性。确性。