短语语音信号识别方法、装置和计算机设备与流程

1.本发明属于语音信号发音评测领域，更具体地涉及一种短语语音信号识别方法、装置和计算机设备。

背景技术：

2.随着互联网的快速发展，用户可以在用户端上进行口语练习。例如，学生可以在用户端上的app上阅读短语，该用户端可以将语音信号上传到后台服务器，该后台服务器可以对该语音信号进行识别，并将识别结果返回用户端。
3.但是发明人在实现本发明的发明构思时发现相关技术中至少存在一下技术问题：由于语音识别大多采用的是流式任务，后台服务器基于流式任务识别语音信号，目前的识别方式很难将识别结果实时快速准备的返回用户端。
4.因此，有必要提供一种短语语音信号识别方法，以解决上述问题。

技术实现要素：

5.(一)要解决的技术问题
6.本发明旨在解决相关技术中语音识别模型无法将识别结果实时快速准备的返回用户端的技术问题。
7.(二)技术方案
8.为解决上述技术问题，本发明的一方面提出一种短语语音信号识别方法，包括：实时获取待评测短语的语音信号；按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数；实时向用户端展示各个所述语音块中各音素的评测分数。
9.根据本发明的优选实施方式，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：将各个所述语音块分别输入conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。
10.根据本发明的优选实施方式，根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率包括：根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率；根据所述解码图中待评测短语的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径；确定各个所述语音块的目标路径上的各音素的后验概率。
11.根据本发明的优选实施方式，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数包括：针对每个所述语音块，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数。
12.根据本发明的优选实施方式，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数包括：如果该目标路径上一音素有一个后验概率，将该后验概率作为该音素的评测分数；如果该目标路径上一音素有多个后验概率，基于多个后验概率求平均数，将该平均数作为该音素的评测分数。
13.根据本发明的优选实施方式，该方法还包括：根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值；实时向用户端展示基于各音素对应字符的颜值渲染后的颜。
14.根据本发明的优选实施方式，该方法还包括：根据各个所述语音块中各音素的评测分数，确定所述待评测短语的语音信号的评测分数；实时向用户端展示所述待评测短语的语音信号的评测分数。
15.本发明第二方面提出了一种短语语音信号识别装置，包括：获取模块，用于实时获取待评测短语的语音信号；分割模块，用于按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块；识别模块，用于对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；对齐模块，用于根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；评测模块，用于根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数；第一展示模块，用于实时向用户端展示各个所述语音块中各音素的评测分数。
16.本发明第三方面提出一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行上述任一项所述的一种短语语音信号识别方法。
17.本发明第四方面提出一种计算机程序产品，存储有计算机可执行程序，所述计算机可执行程序被执行时，实现上述任一项所述的一种短语语音信号识别方法。
18.(三)有益效果
19.与现有技术相比，本发明实时获取待评测短语的语音信号，按照预设分割窗长，将待评测短语的语音信号划分为多个语音块，对多个语音块进行识别，得到各个语音块中多个音素的后验概率，根据待评测短语的解码图，分别对各个语音块中多个音素的后验概率进行对齐处理，得到各个语音块的目标路径上的各音素的后验概率，根据各个语音块的目标路径上的各音素的后验概率，对各个语音块中的各音素进行评测，得到各个语音块中各音素的评测分数，实时向用户端展示各个语音块中各音素的评测分数，以此方式可以实时快速准备的将评测结果返回至用户端。
附图说明
20.图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图；
21.图2是本发明的实施例的短语语音信号识别方法的一示例的流程图；
22.图3是本发明的实施例的短语语音信号识别方法的另一示例的流程图；
23.图4是本发明的实施例的短语语音信号识别方法的另一示例的流程图；
24.图5是本发明的实施例的短语语音信号识别方法的另一示例的流程图；
25.图6是本发明的实施例的待评测短语的解码图的示意图；
26.图7是本发明的实施例的语音块的各音素的后验概率转移图的示意图；
27.图8是本发明的实施例的短语语音信号识别装置的一示例的方框图；
28.图9是本发明的实施例的短语语音信号识别装置的另一示例的方框图；
29.图10是本发明的实施例的短语语音信号识别装置的另一示例的方框图；
30.图11是本发明的一个实施例的计算机设备的结构示意图；
31.图12是本发明的一个实施例的计算机程序产品的示意图。
具体实施方式
32.在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
33.附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。
34.附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
35.各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
36.为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。
37.图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。
38.如图1所示，系统架构100可以包括用户终端101、102、103中的一种或多种，网络104和服务器105。网络104用以在用户终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
39.应该理解，图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的用户终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集等。
40.用户可以使用用户终端101、102、103通过网络104与服务器105交互，以接收或发
送消息等。用户终端101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
41.服务器105可以是提供各种服务的服务器。例如服务器105可以实时获取用户终端103(也可以是用户终端101或102)的待评测短语的语音信号，按照预设分割窗长，将待评测短语的语音信号划分为多个语音块，对多个语音块进行识别，得到各个语音块中多个音素的后验概率，根据待评测短语的解码图，分别对各个语音块中多个音素的后验概率进行对齐处理，得到各个语音块的目标路径上的各音素的后验概率，根据各个语音块的目标路径上的各音素的后验概率，对各个语音块中的各音素进行评测，得到各个语音块中各音素的评测分数，实时向用户端展示各个语音块中各音素的评测分数，以此方式可以实时快速准备的将评测结果返回至用户端。
42.在一些实施例中，本发明实施例所提供的短语语音信号识别方法一般由服务器105执行，相应地，短语语音信号识别装置一般设置于服务器105中。在另一些实施例中，某些终端可以具有与服务器相似的功能从而执行本方法。因此，本发明实施例所提供的短语语音信号识别方法不限定在服务器端执行。
43.图2是本发明的实施例的短语语音信号识别方法的一示例的流程图。
44.如图2所示，短语语音信号识别方法包括步骤s210～步骤s260。
45.在步骤s210中，实时获取待评测短语的语音信号。
46.在步骤s220中，按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块。
47.在步骤s230中，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率。
48.在步骤s240中，根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率。
49.在步骤s250中，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。
50.在步骤s260中，实时向用户端展示各个所述语音块中各音素的评测分数。
51.该方法可以实时获取待评测短语的语音信号，按照预设分割窗长，将待评测短语的语音信号划分为多个语音块，对多个语音块进行识别，得到各个语音块中多个音素的后验概率，根据待评测短语的解码图，分别对各个语音块中多个音素的后验概率进行对齐处理，得到各个语音块的目标路径上的各音素的后验概率，根据各个语音块的目标路径上的各音素的后验概率，对各个语音块中的各音素进行评测，得到各个语音块中各音素的评测分数，实时向用户端展示各个语音块中各音素的评测分数，以此方式可以实时快速准备的将评测结果返回至用户端。
52.在本发明的一些实施例中，上述待评测短语的语音信号可以是用户在阅读用户端app上展示的短语时产生的语音信号。例如，用户使用用户端上的app进行口语练习。在用户端的app上展示了各种短语拱用户练习，在用户阅读这些短语时，用户端可以实时将该短语的语音信号上传至后台服务器。
53.在本发明的一些实施例中，按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块。例如，以预设分割窗长，将该待评测短语的语音信号切分成多个语音块，
该语音块中包含相邻帧的多个音素。具体地，以相邻三帧分割的原则，将该待评测短语的语音信号切分成多个语音块。在本实施例中，预设分割窗长可以根据实际情况进行设置。
54.音素(phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。比如，汉语音节啊(
ā
)只有一个音素，爱(
à
i)有两个音素，代(d
à
i)有三个音素等。
55.音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”、“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
56.在本发明的一些实施例中，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：将各个所述语音块分别输入conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。
57.在本实施例总，该conformer模型为声学模型，conformer模型在提取语音信号的音素特征时，可以提取该语音信号中各语音帧的局部特征，这样便于建模。相比于相关技术中hmm-gmm模型的建模能力，conformer模型的建模能力强。
58.在本发明的一些实施例中，在conformer模型建模之前，需要先基于待评测短语构建解码图。该解码图可以用于约束语音信号中各音素的时序。例如，待评测短语为“耳朵”。基于该“耳朵”构建出的解码图如图6所示。其中，该解码图通过四个状态的转移来约束“耳朵”的阅读顺序。例如，0粗线圆圈表示开始状态，3双圆圈表示结束状态，1和2圆圈分别表示中间状态。状态0到1，1到2，2到3，表示er_3，d，uo_0三个音素的发音顺序，即每个音素至少发生一次。在本实施例中，状态1，2，3上面每个都有自旋，表示该音素可以重复发生。
59.下面以一个语音块为例，通过conformer模型识别该语音块，得到该语音块中各音素的后验概率，如下表所示：
60.音素t＝0t＝1t＝2t＝3t＝4silence0.0006425920.0001408240.001593220.0004085080.000139842er_30.9212720.9512290.004335150.0001020552.64567e-05d9.54412e-053.59278e-050.991040.003613780.000125777uo_04.05391e-089.72481e-081.68864e-050.6577040.805735uo_32.57155e-061.67952e-062.26939e-060.000398820.000163778
61.在本实施例中，基于表中各音素的后验概率可以构建该语音块的后验概率转移图，如图7所示的a1。a1有六个状态，状态之间的弧表示各个音素及音素的后验概率，0粗线圆圈代表开始状态，5双圆圈代表结束状态。如果音素个数为c，帧数为t，则弧路径个数为c
t
。
62.参考图7所示的a2，基于待评测短语的解码图，对上述语音块中各音素进行对齐处理。例如，根据该解码图的音素拼读顺序可以约束该语音块中各音素的时序，这样可以快速准备的从c
t
中确定出该语音块的目标路径。如a2所示，该语音块的目标路径为0-1-2-5-8-9。该目标路径上的后验概率为：0到1之间的后验概率为er_3/0.921272，1到2之间的后验概率为er_3/0.951229，2到5之间的后验概率为d/0.99104，5到8之间的后验概率为uo_0/
0.657704，8到9之间的后验概率为0.805735。
63.在本发明的一些实施例中，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数包括：针对每个所述语音块，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数。参考图7的a2，该语音块的目标路径为0-1-2-5-8-9。该目标路径上的后验概率为：0到1之间的后验概率为er_3/0.921272，1到2之间的后验概率为er_3/0.951229，2到5之间的后验概率为d/0.99104，5到8之间的后验概率为uo_0/0.657704，8到9之间的后验概率为0.805735。其中，er_3和uo_0有两个后验概率，d有一个后验概率。
64.在本发明的一些实施例中，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数包括：如果该目标路径上一音素有一个后验概率，将该后验概率作为该音素的评测分数；如果该目标路径上一音素有多个后验概率，基于多个后验概率求平均数，将该平均数作为该音素的评测分数。
65.通过上述方法处理各个语音块，可以实时获取到该语音块中各音素的评测分数，这个可以向用户端快速准备的展示待评测短语对应音素的评测分数，以使得用户可以在用户端实时了解到自己读音是否准确，这样可以提高体验。
66.图3是本发明的实施例的短语语音信号识别方法的另一示例的流程图。
67.如图3所示，上述步骤s240具体可以包括步骤s310～步骤s330。
68.在步骤s310中，根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率。
69.在步骤s320中，根据所述解码图中待评测短语的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径。
70.在步骤s330中，确定各个所述语音块的目标路径上的各音素的后验概率。
71.该方法可以通过待评测短语的解码图来约束各个语音块中各音素的时序，这样可以根据解码图中待评测短语的音素拼读顺序，快速准备的从各个所述语音块对应的至少一条路径中确定该语音块的目标路径，该目标路径可以作为该语音块的最优路径，即与解码图中音素拼读顺序最匹配的路径。
72.参考图7中的a1，根据各个语音块中多个音素的后验概率，分别可以构建各个语音块对应的后验概率转移图，该后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率。a1有六个状态，状态之间的弧表示各个音素及音素的后验概率，0粗线圆圈代表开始状态，5双圆圈代表结束状态。如果音素个数为c，帧数为t，则弧路径个数为c
t
。
73.参考图7中的a2，根据解码图中待评测短语的音素拼读顺序，分别可以从各个语音块对应的至少一条路径中确定该语音块的目标路径。例如，该语音块的目标路径为0-1-2-5-8-9。
74.参考图7中的a2，确定各个语音块的目标路径上的各音素的后验概率。例如，该目标路径上的后验概率为：0到1之间的后验概率为er_3/0.921272，1到2之间的后验概率为er_3/0.951229，2到5之间的后验概率为d/0.99104，5到8之间的后验概率为uo_0/
0.657704，8到9之间的后验概率为0.805735。其中，er_3和uo_0有两个后验概率，d有一个后验概率。
75.图4是本发明的实施例的短语语音信号识别方法的另一示例的流程图。
76.如图4所示，上述方法还可以包括步骤s410～步骤s420。
77.在步骤s410中，根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值。
78.在步骤s420中，实时向用户端展示基于各音素对应字符的颜值渲染后的颜。
79.该方法可以根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值，并实时向用户端展示基于各音素对应字符的颜值渲染后的颜，这样用户可以根据颜来确定自己拼读的准确度，以使得用户可以及时根据颜来纠正自己的读音错误。
80.在本发明的一些实施例中，根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值。例如，当音素的评测分数大于等于预设阈值时，确定该音素对应字符的颜值为黑对应的颜值，在本实例中黑表示正确。当音素的评测分数小于该预设阈值时，确定该音素对应字符的颜值为红对应的颜值，在本实例中红表示错误。
81.在本发明的一些实施例中，根据音素对应字符的颜值，可以渲染该待评测短语中对应字符的颜，并向用户端实时展示基于各音素对应字符的颜值渲染后的颜，以使得用户可以及时获悉自己拼读的情况。
82.图5是本发明的实施例的短语语音信号识别方法的另一示例的流程图。
83.如图5所示，上述方法还可以包括步骤s510～步骤s520。
84.在步骤s510中，根据各个所述语音块中各音素的评测分数，确定所述待评测短语的语音信号的评测分数。
85.在步骤s520中，实时向用户端展示所述待评测短语的语音信号的评测分数。
86.该方法可以根据各个所述语音块中各音素的评测分数，确定所述待评测短语的语音信号的评测分数，并实时向用户端展示所述待评测短语的语音信号的评测分数，这样用户可以及时在用户端上观看到该待评测短语的综合评测结果。
87.图8是本发明的实施例的短语语音信号识别装置的一示例的示意图。
88.如图8所示，短语语音信号识别装置800包括获取模块801、分割模块802、识别模块803、对齐模块804、评测模块805和第一展示模块806。
89.具体地，获取模块801，用于实时获取待评测短语的语音信号。
90.分割模块802，用于按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块。
91.识别模块803，用于对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率。
92.对齐模块804，用于根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率。
93.评测模块805，用于根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数。
94.第一展示模块806，用于实时向用户端展示各个所述语音块中各音素的评测分数
95.该短语语音信号识别装置800可以实时获取待评测短语的语音信号，按照预设分
割窗长，将待评测短语的语音信号划分为多个语音块，对多个语音块进行识别，得到各个语音块中多个音素的后验概率，根据待评测短语的解码图，分别对各个语音块中多个音素的后验概率进行对齐处理，得到各个语音块的目标路径上的各音素的后验概率，根据各个语音块的目标路径上的各音素的后验概率，对各个语音块中的各音素进行评测，得到各个语音块中各音素的评测分数，实时向用户端展示各个语音块中各音素的评测分数，以此方式可以实时快速准备的将评测结果返回至用户端。
96.根据本发明的实施例，该短语语音信号识别装置800可以用于实现图2实施例描述的短语语音信号识别方法。
97.根据本发明的优选实施方式，上述识别模块803被配置为：将各个所述语音块分别输入conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。
98.根据本发明的优选实施方式，上述对齐模块804被配置为：根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率；根据所述解码图中待评测短语的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径；确定各个所述语音块的目标路径上的各音素的后验概率。
99.根据本发明的优选实施方式，上述评测模块805被配置为：针对每个所述语音块，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数。
100.图9是本发明的实施例的短语语音信号识别装置的一示例的示意图。
101.如图9所示，短语语音信号识别装置800包括第一确定模块807和第二展示模块808。
102.具体地，第一确定模块807，用于根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值。
103.第二展示模块808，用于实时向用户端展示基于各音素对应字符的颜值渲染后的颜。
104.该短语语音信号识别装置800可以根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值，并实时向用户端展示基于各音素对应字符的颜值渲染后的颜，这样用户可以根据颜来确定自己拼读的准确度，以使得用户可以及时根据颜来纠正自己的读音错误。
105.根据本发明的实施例，该短语语音信号识别装置800可以用于实现图4实施例描述的短语语音信号识别方法。
106.图10是本发明的实施例的短语语音信号识别装置的一示例的示意图。
107.如图10所示，短语语音信号识别装置800包括第二确定模块809和第三展示模块810。
108.具体地，第二确定模块809，用于根据各个所述语音块中各音素的评测分数，确定所述待评测短语的语音信号的评测分数。
109.第三展示模块810，用于实时向用户端展示所述待评测短语的语音信号的评测分数
110.该短语语音信号识别装置800可以根据各个所述语音块中各音素的评测分数，确定所述待评测短语的语音信号的评测分数，并实时向用户端展示所述待评测短语的语音信号的评测分数，这样用户可以及时在用户端上观看到该待评测短语的综合评测结果。
111.根据本发明的实施例，该短语语音信号识别装置800可以用于实现图5实施例描述的短语语音信号识别方法。
112.由于本发明的示例实施例的短语语音信号识别装置800的各个模块可以用于实现上述2～图5描述的短语语音信号识别方法的示例实施例的步骤，因此对于本发明装置实施例中未披露的细节，请参照本发明上述的短语语音信号识别方法的实施例。
113.可以理解的是，短语语音信号识别装置800包括获取模块801、分割模块802、识别模块803、对齐模块804、评测模块805、第一展示模块806、第一确定模块807、第二展示模块808、第二确定模块809和第三展示模块810可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，短语语音信号识别装置800包括获取模块801、分割模块802、识别模块803、对齐模块804、评测模块805、第一展示模块806、第一确定模块807、第二展示模块808、第二确定模块809和第三展示模块810中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，短语语音信号识别装置800包括获取模块801、分割模块802、识别模块803、对齐模块804、评测模块805、第一展示模块806、第一确定模块807、第二展示模块808、第二确定模块809和第三展示模块810中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。
114.下面描述本发明的计算机设备实施例，该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明计算机设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。
115.图11是本发明的一个实施例的计算机设备的结构示意图，该计算机设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行实施例中任一项所述的方法，包括但不限于图2的方法。
116.如图11所示，计算机设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体，也可以是多个实体设备的总和。
117.所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得计算机设备能够执行本发明的方法，或者方法中的至少部分步骤。
118.所述存储器包括易失性存储器，例如随机存取存储单元(ram)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(rom)。
119.可选地，该实施例中，计算机设备还包括有i/o接口，其用于计算机设备与外部的设备进行数据交换。i/o接口可以为表示几类总线结构中的一种或多种，包括存储单元总线
或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
120.应当理解，图11显示的计算机设备仅仅是本发明的一个示例，本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如，有些计算机设备中还包括有显示屏等显示单元，有些计算机设备还包括人机交互元件，例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的计算机设备。
121.图12是本发明的一个实施例的计算机程序产品的示意图。如图8所示，计算机程序产品中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
122.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
123.通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现，例如由微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom，u盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得计算机设备执行根据本发明的方法。
124.以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种短语语音信号识别方法，其特征在于，包括：实时获取待评测短语的语音信号；按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块；对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数；实时向用户端展示各个所述语音块中各音素的评测分数。2.根据权利要求1所述的短语语音信号识别方法，其特征在于，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率包括：将各个所述语音块分别输入conformer模型，通过所述conformer模型分别从各个所述语音块中提取音素特征，并基于各个所述语音块中的音素特征，分别确定各个所述语音块中多个音素的后验概率。3.根据权利要求1所述的短语语音信号识别方法，其特征在于，根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率包括：根据各个所述语音块中多个音素的后验概率，分别构建各个所述语音块对应的后验概率转移图，所述后验概率转移图中包含至少一条路径，该路径中包含所述语音块中至少一个音素的后验概率；根据所述解码图中待评测短语的音素拼读顺序，分别从各个所述语音块对应的至少一条路径中确定该语音块的目标路径；确定各个所述语音块的目标路径上的各音素的后验概率。4.根据权利要求1所述的短语语音信号识别方法，其特征在于，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数包括：针对每个所述语音块，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数。5.根据权利要求4所述的短语语音信号识别方法，其特征在于，根据该语音块的目标路径上每个音素的一个后验概率或多个后验概率，确定每个音素的评测分数包括：如果该目标路径上一音素有一个后验概率，将该后验概率作为该音素的评测分数；如果该目标路径上一音素有多个后验概率，基于多个后验概率求平均数，将该平均数作为该音素的评测分数。6.根据权利要求1所述的短语语音信号识别方法，其特征在于，该方法还包括：根据各个所述语音块中各音素的评测分数，确定各音素对应字符的颜值；实时向用户端展示基于各音素对应字符的颜值渲染后的颜。7.根据权利要求1所述的短语语音信号识别方法，其特征在于，该方法还包括：根据各个所述语音块中各音素的评测分数，确定所述待评测短语的语音信号的评测分数；
实时向用户端展示所述待评测短语的语音信号的评测分数。8.一种短语语音信号识别装置，其特征在于，包括：获取模块，用于实时获取待评测短语的语音信号；分割模块，用于按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块；识别模块，用于对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率；对齐模块，用于根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率；评测模块，用于根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数；第一展示模块，用于实时向用户端展示各个所述语音块中各音素的评测分数。9.一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于，当所述计算机程序被所述处理器执行时，所述处理器执行如权利要求1-7任一项所述的方法。10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令当被处理器执行时，实现权利要求1-7任一项所述的方法。

技术总结

本发明属于语音信号发音评测领域，提供一种短语语音信号识别方法，包括：实时获取待评测短语的语音信号，按照预设分割窗长，将所述待评测短语的语音信号划分为多个语音块，对多个所述语音块进行识别，得到各个所述语音块中多个音素的后验概率，根据待评测短语的解码图，分别对各个所述语音块中多个音素的后验概率进行对齐处理，得到各个所述语音块的目标路径上的各音素的后验概率，根据各个所述语音块的目标路径上的各音素的后验概率，对各个所述语音块中的各音素进行评测，得到各个所述语音块中各音素的评测分数，实时向用户端展示各个所述语音块中各音素的评测分数，以此方式可以实时快速准备的将评测结果返回至用户端。实时快速准备的将评测结果返回至用户端。实时快速准备的将评测结果返回至用户端。