古诗语音信号识别方法、装置和计算机设备与流程



1.本发明属于古诗语音信号识别领域,更具体地涉及一种古诗语音信号识别方法、装置和计算机设备。


背景技术:



2.随着互联网的快速发展,用户可以在用户端上进行背诵练习。例如,学生可以在用户端上的app上背诵古诗,该用户端可以将语音信号上传到后台服务器,该后台服务器可以对该语音信号进行识别,并将识别结果返回用户端。
3.但是发明人在实现本发明的发明构思时发现相关技术中至少存在一下技术问题:由于语音识别大多采用的是流式任务,后台服务器基于流式任务识别语音信号,目前的识别方式很难将识别结果实时快速准备的返回用户端。
4.因此,有必要提供一种古诗语音信号识别方法,以解决上述问题。


技术实现要素:



5.(一)要解决的技术问题
6.本发明旨在解决相关技术中语音识别模型无法将识别结果实时快速准备的返回用户端的技术问题。
7.(二)技术方案
8.为解决上述技术问题,本发明的一方面提出一种古诗语音信号识别方法,包括:实时获取待评测诗句的语音信号;按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块;对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率;基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径;基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读;根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数;根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数;实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。
9.根据本发明的优选实施方式,对多个所述语音块进行识别,得到各个所述语音块中多个音素的后验概率包括:将各个所述语音块分别输入conformer模型,通过所述conformer模型分别从各个所述语音块中提取音素特征,并基于各个所述语音块中的音素特征,分别确定各个所述语音块中多个音素的后验概率。
10.根据本发明的优选实施方式,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径包括:针对每个所述语音块对应的至少一条概率转移路径,通过所述待评测古
诗的解码图中的多种类型的诗句路径的约束,确定每个所述语音块对应的目标概率转移路径。
11.根据本发明的优选实施方式,根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数包括:针对每个所述语音块,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数。
12.根据本发明的优选实施方式,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数包括:如果该目标概率转移路径上一音素有一个后验概率,将该后验概率作为该音素的评测分数;如果该目标概率转移路径上一音素有多个后验概率,基于多个后验概率求平均数,将该平均数作为该音素的评测分数。
13.根据本发明的优选实施方式,该方法还包括:如果当前待评测诗句的语音信号属于复读类型时,且当前待评测诗句的各个所述语音块中各音素的评测分数或所述待评测诗句的语音信号的评测分数大于各个所述语音块中各音素的历史评测分数或所述待评测诗句的语音信号的历史评测分数时,实时向所述用户端展示各个所述语音块中各音素的当前评测分数和/或所述待评测诗句的语音信号的当前评测分数。
14.根据本发明的优选实施方式,该方法还包括:根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值;实时向所述用户端展示基于各音素对应字符的颜值渲染后的颜。
15.根据本发明的优选实施方式,该方法还包括:根据多支所述待评测诗句的语音信号的评测分数,确定所述待评测古诗的评测分数;实时向所述用户端展示所述待评测古诗的评测分数。
16.本发明第二方面提出了一种古诗语音信号识别方法,包括:获取模块,用于实时获取待评测诗句的语音信号;分割模块,用于按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块;识别模块,用于对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率;构建模块,用于基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径;对齐模块,用于基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读;评测模块,用于根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数;第一确定模块,用于根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数;第一展示模块,用于实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。
17.本发明第三方面提出一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行上述任一项所述的一种古诗语音信号识别方法。
18.本发明第四方面提出一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现上述任一项所述的一种古诗语音信号识别方法。
19.(三)有益效果
20.与现有技术相比,本发明按照预设分割窗长,将实时获取的待评测诗句的语音信号划分为多个语音块,对多个语音块分别进行识别,得到各个所述语音块中多个音素的后验概率,基于各个语音块中多个音素的后验概率,构建各个语音块对应的至少一条概率转移路径,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径,以此方式进行对齐可以支持用户顺序读、跳读、以及复读,提高用户体验。然后根据各个语音块对应的目标概率转移路径上的后验概率,分别对各个语音块中的各音素进行评测,得到各个语音块中各音素的评测分数,以及根据各个语音块中各音素的评测分数,确定待评测诗句的语音信号的评测分数,最后实时向用户端展示各个语音块中各音素的评测分数和/或待评测诗句的语音信号的评测分数,这样可以实时快速准备的将评测结果返回至用户端。
附图说明
21.图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图;
22.图2是本发明的实施例的古诗语音信号识别方法的一示例的流程图;
23.图3是本发明的实施例的古诗语音信号识别方法的另一示例的流程图;
24.图4是本发明的实施例的古诗语音信号识别方法的另一示例的流程图;
25.图5是本发明的实施例的待评测古诗的解码图的示意图;
26.图6是本发明的实施例的语音块的各音素的后验概率转移图的示意图;
27.图7是本发明的实施例的古诗语音信号识别装置的一示例的方框图;
28.图8是本发明的实施例的古诗语音信号识别装置的另一示例的方框图;
29.图9是本发明的实施例的古诗语音信号识别装置的另一示例的方框图;
30.图10是本发明的一个实施例的计算机设备的结构示意图;
31.图11是本发明的一个实施例的计算机程序产品的示意图。
具体实施方式
32.在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
33.附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
34.附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
35.各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第
一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
36.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
37.图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。
38.如图1所示,系统架构100可以包括用户终端101、102、103中的一种或多种,网络104和服务器105。网络104用以在用户终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
39.应该理解,图1中的用户终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的用户终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集等。
40.用户可以使用用户终端101、102、103通过网络104与服务器105交互,以接收或发送消息等。用户终端101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
41.服务器105可以是提供各种服务的服务器。例如服务器105可以实时获取用户终端103(也可以是用户终端101或102)的实时获取待评测诗句的语音信号;按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块;对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率;基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径;基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读;根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数;根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数;实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。
42.在一些实施例中,本发明实施例所提供的古诗语音信号识别方法一般由服务器105执行,相应地,古诗语音信号识别装置一般设置于服务器105中。在另一些实施例中,某些终端可以具有与服务器相似的功能从而执行本方法。因此,本发明实施例所提供的古诗语音信号识别方法不限定在服务器端执行。
43.图2是本发明的实施例的古诗语音信号识别方法的一示例的流程图。
44.如图2所示,古诗语音信号识别方法包括步骤s210~步骤s280。
45.在步骤s210中,实时获取待评测诗句的语音信号。
46.在步骤s220中,按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块。
47.在步骤s230中,对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率。
48.在步骤s240中,基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径。
49.在步骤s250中,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读。
50.在步骤s260中,根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数。
51.在步骤s270中,根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数。
52.在步骤s280中,实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。
53.该方法可以按照预设分割窗长,将实时获取的待评测诗句的语音信号划分为多个语音块,对多个语音块分别进行识别,得到各个所述语音块中多个音素的后验概率,基于各个语音块中多个音素的后验概率,构建各个语音块对应的至少一条概率转移路径,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径,以此方式进行对齐可以支持用户顺序读、跳读、以及复读,提高用户体验。然后根据各个语音块对应的目标概率转移路径上的后验概率,分别对各个语音块中的各音素进行评测,得到各个语音块中各音素的评测分数,以及根据各个语音块中各音素的评测分数,确定待评测诗句的语音信号的评测分数,最后实时向用户端展示各个语音块中各音素的评测分数和/或待评测诗句的语音信号的评测分数,这样可以实时快速准备的将评测结果返回至用户端。
54.在本发明的一些实施例中,上述待评测诗句的语音信号可以是用户在阅读用户端app上展示的古诗时产生的语音信号,也可以是用户在用户端app进行背诵古诗产生的语音信号。例如,用户使用用户端上的app进行口语练习或背诵练习。在用户端的app上展示了各种古诗拱用户阅读练习或背诵练习,在用户阅读或背诵这些古诗时,用户端可以实时将该古诗的语音信号上传至后台服务器。
55.在本发明的一些实施例中,按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块。例如,以预设分割窗长,将该语音信号中的相邻帧分割成多个语音块,该语音块中包含多个音素。例如,以相邻三帧分割的原则,将该待评测诗句的语音信号切分成多个语音块。在本实施例中,预设分割窗长可以根据实际情况进行设置。
56.音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。比如,汉语音节啊(
ā
)只有一个音素,爱(
à
i)有两个音素,代(d
à
i)有三个音素等。
57.音素是构成音节的最小单位或最小的语音片段,是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。国际音标(由国际语音学会制定,用来统一标示各国语音的字母。也称为“国际语音学字母”、“万国语音学字母”)的音标符号与全人类语言的音素一一对应。
58.在本发明的一些实施例中,对多个所述语音块进行识别,得到各个所述语音块中多个音素的后验概率包括:将各个所述语音块分别输入conformer模型,通过所述
conformer模型分别从各个所述语音块中提取音素特征,并基于各个所述语音块中的音素特征,分别确定各个所述语音块中多个音素的后验概率。
59.conformer模型在提取语音信号的音素特征时,可以提取该语音信号中各语音帧的局部特征,这样便于建模。相比于相关技术中hmm-gmm模型的建模能力,conformer模型的建模能力强。
60.在本发明的一些实施例中,在conformer模型建模之前,需要先基于待评测古诗构建解码图,该解码图可以用于约束语音信号中各音素的时序。例如,基于古诗的多支诗句中各个诗句的每个字符的音素(例如,声母和韵母)构建解码图的诗句路径。在本实施例中,诗句路径可以支持相邻诗句之间的顺序读、诗句之间的跳读、以及诗句的复读。
61.参考图5,图5示出的是待评测古诗的解码图,该古诗包含七个分支,$0~$6,即包含七句诗句。例如,0粗线圆圈表示开始状态,1双圆圈表示结束状态,1~43圆圈分别表示中间状态。其中,随着诗句语音信号不断的进行对齐处理,当一句诗句对齐结束后,可以从结束状态1继续回到开始状态0,或者直接走下一句诗句的路径,例如,中间状态7到8,中间状态13到14,中间状态19到20等等。以此方式可以支持用户在用户端跳读、顺序读、以及复读。
62.在本实施例中,根据$0~$6等诗句标识,可以准备快速的在用户端展示各个诗句的染情况和评测分数分布情况。
63.下面以一个语音块为例,通过conformer模型识别该语音块,得到该语音块中各音素的后验概率,如下表所示:
64.音素t=0t=1t=2t=3t=4silence0.0006425920.0001408240.001593220.0004085080.000139842音素10.9212720.9512290.004335150.0001020552.64567e-05音素29.54412e-053.59278e-050.991040.003613780.000125777音素34.05391e-089.72481e-081.68864e-050.6577040.805735音素42.57155e-061.67952e-062.26939e-060.000398820.000163778
65.在本实施例中,基于表中各音素的后验概率可以构建该语音块对应的至少一条概率转移路径,如图6所示。概率转移路径可以有六个状态,状态之间的弧表示各个音素及音素的后验概率,0粗线圆圈代表开始状态,5双圆圈代表结束状态。如果音素个数为c,帧数为t,则弧路径个数为c
t

66.在本实施例中,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径包括:针对每个所述语音块对应的至少一条概率转移路径,通过所述待评测古诗的解码图中的多种类型的诗句路径的约束,确定每个所述语音块对应的目标概率转移路径。例如,根据该解码图中诗句路径中各个状态之间的连接顺序可以约束该语音块中各音素的时序,这样可以快速准备的从c
t
路径中确定出该语音块对应的目标概率转移路径。
67.在本发明的一些实施例中,根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数包括:针对每个所述语音块,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数。例如,该语音块对应的目标概率转移路径为0-2-3-4-5-6。该目标概率转移路径上的后验概率为:0到2之间的后验概率为音素
1_3/0.921272,2到3之间的后验概率为音素1_3/0.951229,3到4之间的后验概率为音素2/0.99104,4到5之间的后验概率为音素3_0/0.657704,8到9之间的后验概率为音素3/0.805735。其中,音素1和音素3有两个后验概率,音素2有一个后验概率。
68.在本发明的一些实施例中,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数包括:如果该目标概率转移路径上一音素有一个后验概率,将该后验概率作为该音素的评测分数;如果该目标概率转移路径上一音素有多个后验概率,基于多个后验概率求平均数,将该平均数作为该音素的评测分数。
69.在本发明的一些实施例中,根据各个语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数。例如,通过求和的方法,根据各个语音块中各音素的评测分数,计算所述待评测诗句的语音信号的评测分数。
70.通过上述方法处理各个语音块,可以实时获取到该语音块中各音素的评测分数和/或待评测诗句的语音信号的评测分数,这个可以向用户端快速准备的展示待评测诗句对应音素的评测分数和/或待评测诗句的语音信号的评测分数,以使得用户可以在用户端实时了解到自己读音是否准确,这样可以提高体验。
71.另外,如果当前待评测诗句的语音信号属于复读类型时,且当前待评测诗句的各个语音块中各音素的评测分数或待评测诗句的语音信号的评测分数大于各个语音块中各音素的历史评测分数或待评测诗句的语音信号的历史评测分数时,实时向用户端展示各个语音块中各音素的当前评测分数和/或待评测诗句的语音信号的当前评测分数,这样可以及时将用户当前读音更好的情况展示给用户,进一步的提高于用户体验。
72.图3是本发明的实施例的古诗语音信号识别方法的另一示例的流程图。
73.如图3所示,上述方法还可以包括步骤s310~步骤s320。
74.在步骤s310中,根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值。
75.在步骤s320中,实时向用户端展示基于各音素对应字符的颜值渲染后的颜。
76.该方法可以根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值,并实时向用户端展示基于各音素对应字符的颜值渲染后的颜,这样用户可以根据颜来确定自己拼读的准确度,以使得用户可以及时根据颜来纠正自己的读音错误。
77.在本发明的一些实施例中,根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值。例如,当音素的评测分数大于等于预设阈值时,确定该音素对应字符的颜值为黑对应的颜值,在本实例中黑表示正确。当音素的评测分数小于该预设阈值时,确定该音素对应字符的颜值为红对应的颜值,在本实例中红表示错误。
78.在本发明的一些实施例中,根据音素对应字符的颜值,可以渲染该待评测诗句中对应字符的颜,并向用户端实时展示基于各音素对应字符的颜值渲染后的颜,以使得用户可以及时获悉自己拼读的情况。
79.在本发明的一些实施例中,如果当前待评测诗句的语音信号属于复读类型时,且当前待评测诗句的各个语音块中各音素的评测分数或待评测诗句的语音信号的评测分数大于各个语音块中各音素的历史评测分数或待评测诗句的语音信号的历史评测分数时,实时更新用户端展示的历史颜。例如,将红更新为黑,这样可以及时将用户当前读音更
好的情况展示给用户,进一步的提高于用户体验。
80.图4是本发明的实施例的古诗语音信号识别方法的另一示例的流程图。
81.如图4所示,上述方法还可以包括步骤s410~步骤s420。
82.在步骤s410中,根据多支所述待评测诗句的语音信号的评测分数,确定所述待评测古诗的评测分数。
83.在步骤s420中,实时向所述用户端展示所述待评测古诗的评测分数。
84.该方法可以根据多支待评测诗句的语音信号的评测分数,确定待评测古诗的评测分数,并实时向用户端展示待评测古诗的评测分数,这样用户可以及时在用户端上观看到该待评测古诗的综合评测结果。
85.图7是本发明的实施例的古诗语音信号识别装置的一示例的示意图。
86.如图7所示,古诗语音信号识别装置700包括获获取模块701、分割模块702、识别模块703、构建模块704、对齐模块705、评测模块706、第一确定模块707和第一展示模块708。
87.具体地,获取模块701,用于实时获取待评测诗句的语音信号。
88.分割模块702,用于按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块。
89.识别模块703,用于对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率。
90.构建模块704,用于基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径。
91.对齐模块705,用于基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读。
92.评测模块706,用于根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数。
93.第一确定模块707,用于根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数。
94.第一展示模块708,用于实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。
95.该古诗语音信号识别装置700可以按照预设分割窗长,将实时获取的待评测诗句的语音信号划分为多个语音块,对多个语音块分别进行识别,得到各个所述语音块中多个音素的后验概率,基于各个语音块中多个音素的后验概率,构建各个语音块对应的至少一条概率转移路径,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径,以此方式进行对齐可以支持用户顺序读、跳读、以及复读,提高用户体验。然后根据各个语音块对应的目标概率转移路径上的后验概率,分别对各个语音块中的各音素进行评测,得到各个语音块中各音素的评测分数,以及根据各个语音块中各音素的评测分数,确定待评测诗句的语音信号的评测分数,最后实时向用户端展示各个语音块中各音素的评测分数和/或待评测诗句的语音信号的评测分数,这样可以实时快速准备的将评测结果返回至用户端。
96.根据本发明的实施例,该古诗语音信号识别装置700可以用于实现图2实施例描述的古诗语音信号识别方法。
97.根据本发明的优选实施方式,上述识别模块703被配置为:将各个所述语音块分别输入conformer模型,通过所述conformer模型分别从各个所述语音块中提取音素特征,并基于各个所述语音块中的音素特征,分别确定各个所述语音块中多个音素的后验概率。
98.根据本发明的优选实施方式,上述对齐模块705被配置为:针对每个所述语音块对应的至少一条概率转移路径,通过所述待评测古诗的解码图中的多种类型的诗句路径的约束,确定每个所述语音块对应的目标概率转移路径。
99.根据本发明的优选实施方式,上述评测模块706被配置为:针对每个所述语音块,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数。
100.图8是本发明的实施例的古诗语音信号识别装置的一示例的示意图。
101.如图8所示,古诗语音信号识别装置700包括第二确定模块709和第二展示模块710。
102.具体地,第二确定模块709,用于根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值。
103.第二展示模块710,用于实时向用户端展示基于各音素对应字符的颜值渲染后的颜。
104.该古诗语音信号识别装置700可以根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值,并实时向用户端展示基于各音素对应字符的颜值渲染后的颜,这样用户可以根据颜来确定自己拼读的准确度,以使得用户可以及时根据颜来纠正自己的读音错误。
105.根据本发明的实施例,该古诗语音信号识别装置700可以用于实现图3实施例描述的古诗语音信号识别方法。
106.图9是本发明的实施例的古诗语音信号识别装置的一示例的示意图。
107.如图9所示,古诗语音信号识别装置700包括第三确定模块711和第三展示模块712。
108.具体地,第三确定模块711,用于根据多支所述待评测诗句的语音信号的评测分数,确定所述待评测古诗的评测分数。
109.第三展示模块712,用于实时向所述用户端展示所述待评测古诗的评测分数。
110.该古诗语音信号识别装置700可以根据多支待评测诗句的语音信号的评测分数,确定待评测古诗的评测分数,并实时向用户端展示待评测古诗的评测分数,这样用户可以及时在用户端上观看到该待评测古诗的综合评测结果。
111.根据本发明的实施例,该古诗语音信号识别装置800可以用于实现图4实施例描述的古诗语音信号识别方法。
112.由于本发明的示例实施例的古诗语音信号识别装置700的各个模块可以用于实现上述2~图4描述的古诗语音信号识别方法的示例实施例的步骤,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的古诗语音信号识别方法的实施例。
113.可以理解的是,古诗语音信号识别装置700包括获取模块701、分割模块702、识别
模块703、构建模块704、对齐模块705、评测模块706、第一确定模块707、第一展示模块708、第二确定模块709、第二展示模块710、第三确定模块711、以及第三展示模块712可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,古诗语音信号识别装置700包括获取模块701、分割模块702、识别模块703、构建模块704、对齐模块705、评测模块706、第一确定模块707、第一展示模块708、第二确定模块709、第二展示模块710、第三确定模块711、以及第三展示模块712中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,古诗语音信号识别装置700包括获取模块701、分割模块702、识别模块703、构建模块704、对齐模块705、评测模块706、第一确定模块707、第一展示模块708、第二确定模块709、第二展示模块710、第三确定模块711、以及第三展示模块712中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
114.下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
115.图10是本发明的一个实施例的计算机设备的结构示意图,该计算机设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行实施例中任一项所述的方法,包括但不限于图2的方法。
116.如图10所示,计算机设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体,也可以是多个实体设备的总和。
117.所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得计算机设备能够执行本发明的方法,或者方法中的至少部分步骤。
118.所述存储器包括易失性存储器,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(rom)。
119.可选地,该实施例中,计算机设备还包括有i/o接口,其用于计算机设备与外部的设备进行数据交换。i/o接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
120.应当理解,图10显示的计算机设备仅仅是本发明的一个示例,本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如,有些计算机设备中还包括有显示屏等显示单元,有些计算机设备还包括人机交互元件,例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的计算机设备。
121.图11是本发明的一个实施例的计算机程序产品的示意图。如图11所示,计算机程序产品中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述方法。所述计算机程序产品可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。所述计算机程序产品可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。所述计算机程序产品上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
122.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
123.通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom,u盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得计算机设备执行根据本发明的方法。
124.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种古诗语音信号识别方法,其特征在于,包括:实时获取待评测诗句的语音信号;按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块;对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率;基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径;基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读;根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数;根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数;实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。2.根据权利要求1所述的古诗语音信号识别方法,其特征在于,对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率包括:将各个所述语音块分别输入conformer模型,通过所述conformer模型分别从各个所述语音块中提取音素特征,并基于各个所述语音块中的音素特征,分别确定各个所述语音块中多个音素的后验概率。3.根据权利要求1所述的古诗语音信号识别方法,其特征在于,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径包括:针对每个所述语音块对应的至少一条概率转移路径,通过所述待评测古诗的解码图中的多种类型的诗句路径的约束,确定每个所述语音块对应的目标概率转移路径。4.根据权利要求1所述的古诗语音信号识别方法,其特征在于,根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数包括:针对每个所述语音块,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数。5.根据权利要求4所述的古诗语音信号识别方法,其特征在于,根据该语音块的目标概率转移路径上的每个音素的一个后验概率或多个后验概率,确定每个音素的评测分数包括:如果该目标概率转移路径上一音素有一个后验概率,将该后验概率作为该音素的评测分数;如果该目标概率转移路径上一音素有多个后验概率,基于多个后验概率求平均数,将该平均数作为该音素的评测分数。6.根据权利要求1所述的古诗语音信号识别方法,其特征在于,该方法还包括:如果当前待评测诗句的语音信号属于复读类型时,且当前待评测诗句的各个所述语音
块中各音素的评测分数或所述待评测诗句的语音信号的评测分数大于各个所述语音块中各音素的历史评测分数或所述待评测诗句的语音信号的历史评测分数时,实时向所述用户端展示各个所述语音块中各音素的当前评测分数和/或所述待评测诗句的语音信号的当前评测分数。7.根据权利要求1所述的古诗语音信号识别方法,其特征在于,该方法还包括:根据各个所述语音块中各音素的评测分数,确定各音素对应字符的颜值;实时向所述用户端展示基于各音素对应字符的颜值渲染后的颜。8.根据权利要求1所述的古诗语音信号识别方法,其特征在于,该方法还包括:根据多支所述待评测诗句的语音信号的评测分数,确定所述待评测古诗的评测分数;实时向所述用户端展示所述待评测古诗的评测分数。9.一种古诗语音信号识别方法,其特征在于,包括:获取模块,用于实时获取待评测诗句的语音信号;分割模块,用于按照预设分割窗长,将所述待评测诗句的语音信号划分为多个语音块;识别模块,用于对多个所述语音块分别进行识别,得到各个所述语音块中多个音素的后验概率;构建模块,用于基于各个所述语音块中多个音素的后验概率,构建各个所述语音块对应的至少一条概率转移路径;对齐模块,用于基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个所述语音块对应的目标概率转移路径,所述解码图中的诗句路径支持相邻诗句的顺序读、诗句之间的跳读、以及诗句的复读;评测模块,用于根据各个所述语音块对应的目标概率转移路径上的后验概率,分别对各个所述语音块中的各音素进行评测,得到各个所述语音块中各音素的评测分数;第一确定模块,用于根据各个所述语音块中各音素的评测分数,确定所述待评测诗句的语音信号的评测分数;第一展示模块,用于实时向用户端展示各个所述语音块中各音素的评测分数和/或所述待评测诗句的语音信号的评测分数。10.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于,当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-8任一项所述的方法。11.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令当被处理器执行时,实现权利要求1-8任一项所述的方法。

技术总结


本发明属于古诗语音信号识别领域,提供一种古诗语音信号识别方法,包括:按照预设分割窗长,将待评测诗句的语音信号划分为多个语音块,对多个语音块分别进行识别,得到各个所述语音块中多个音素的后验概率,基于各个语音块中多个音素的后验概率,构建各个语音块对应的至少一条概率转移路径,基于待评测古诗的解码图中的诗句路径,分别对各个所述语音块对应的至少一条概率转移路径进行对齐处理,得到各个语音块对应的目标概率转移路径,以此方式进行对齐可以支持用户顺序读、跳读、以及复读,提高用户体验。本方案还可以实时向用户端展示各个语音块中各音素的评测分数和/或待评测诗句的语音信号的评测分数。语音信号的评测分数。语音信号的评测分数。


技术研发人员:

王洲 曹作安 商迎新 马智 王强强

受保护的技术使用者:

北京云思智学科技有限公司

技术研发日:

2022.06.24

技术公布日:

2022/11/8

本文发布于:2024-09-20 16:33:04,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/10300.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   音素   所述   概率
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议