一种语音识别方法、装置、计算机设备及存储介质与流程



1.本技术涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。


背景技术:



2.语音识别技术在生产环境中经常被应用于各个特定领域,如智能客服、智能机器人等交互领域。每个领域都有其特定的专有名词,通用场景的语音识别系统很难准确识别这些专有名词。热词增强是指根据用户提供的专有名词热词,提升语音识别结果中热词的识别率。
3.传统的热词增强方法面对高度个性化的应用场景,都是通过由目标场景下基础热词构建的场景热词表进行语音识别增强的,但由于不同客户对应的客户热词具有一定差异,导致语音识别准确性低下,且场景热词表的数据冗杂,难以满足会话中实时性的要求。


技术实现要素:



4.本技术实施例的目的在于提出一种语音识别方法、装置、计算机设备及存储介质,以解决现有技术中语音识别准确性低、识别效率低的问题。
5.为了解决上述技术问题,本技术实施例提供一种语音识别方法,采用了如下所述的技术方案:
6.根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成;
7.获取待识别语音以及与所述待识别语音对应的客户热词表;
8.通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果;
9.若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图;
10.若所述客户热词表中未包含客户热词时,将所述静态解码图作为目标解码图;
11.通过所述目标解码图对所述初步解码结果进行解码,得到目标解码结果。
12.进一步的,所述根据业务场景匹配语音识别对应的业务解码图和静态解码图的步骤之前,还包括:
13.获取所述业务解码图和所述基础解码图的融合类型;
14.根据所述融合类型确定所述静态解码图的具体表达式。
15.进一步的,所述根据所述融合类型确定所述静态解码图的具体表达式的步骤包括:
16.若所述融合类型为线性融合类型时,所述静态解码图的具体表达式为c(sg(w|h),sb(w|h))=α1*sg(w|h)+β1*sb(w|h);
17.若所述融合类型为指数线性融合类型时,所述静态解码图的具体表达式为c(sg(w
|h),sb(w|h))=-log(α1*exp(-sg(w|h))+β1*exp(sb(w|h)));
18.其中,所述静态解码图的具体表达式中α1和β1均为变量,sg(w|h)为所述业务解码图基于历史解码状态输出的分值,sb(w|h)为所述基础解码图基于历史解码状态输出的分值。
19.进一步的,所述通过所述目标解码图对所述初步解码结果进行解码的步骤包括:
20.若所述目标解码图为融合解码图时,通过所述目标解码图的第一公式s(w|h)=-log(α2*exp(-c(sg(w|h),sb(w|h)))+β2*exp(ss(w|h)))对所述初步解码结果进行解码,其中α2和β2均为变量,ss(w|h)为所述客户解码图基于历史解码状态输出的分值;
21.若所述目标解码图为静态解码图时,通过所述目标解码图的第二公式对所述初步解码结果进行解码,其中sg(w|h)为所述业务解码图基于历史解码状态输出的分值;
22.其中,所述目标解码图的第一公式和第二公式中,s(w|h)为所述目标解码结果,c(sg(w|h),sb(w|h))为静态解码图基于历史解码状态输出的分值。
23.进一步的,所述通过所述业务解码图对所述待识别语音进行解码的步骤包括:
24.从所述待识别语音中提取音频特征;
25.通过声学模型将所述音频特征转换为音素序列;
26.通过所述业务解码图对所述音素序列进行解码。
27.进一步的,在所述得到目标解码结果的步骤之后,还包括:
28.从所述目标解码结果中提取新的所述客户热词,将新的所述客户热词更新至所述客户热词表中。
29.进一步的,所述将新的所述客户热词更新至所述客户热词表中的步骤包括:
30.若所述客户热词表中未匹配有与新的所述客户热词对应的所述客户热词时,将新的所述客户热词新增至所述客户热词表中;
31.若所述客户热词表中匹配有与新的所述客户热词对应的所述客户热词时,不修改所述客户热词表中与新的所述客户热词对应的所述客户热词。
32.为了解决上述技术问题,本技术实施例还提供一种语音识别装置,采用了如下所述的技术方案:
33.解码图匹配模块,用于根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成;
34.获取模块,用于获取待识别语音以及与所述待识别语音对应的客户热词表;
35.初步解码模块,用于通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果;
36.第一确定模块,用于若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图;
37.第二确定模块,用于若所述客户热词表中未包含客户热词时,将所述静态解码图作为目标解码图;以及
38.目标解码模块,用于通过所述目标解码图对所述初步解码结果进行解码,得到目
标解码结果。
39.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
40.包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的语音识别方法的步骤。
41.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
42.所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的语音识别方法的步骤。
43.与现有技术相比,本技术实施例主要有以下有益效果:通过根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成;获取待识别语音以及与所述待识别语音对应的客户热词表;通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果;若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图;若所述客户热词表中未包含客户热词时,将所述静态解码图作为目标解码图;通过所述目标解码图对所述初步解码结果进行解码,得到目标解码结果。在本技术中,先通过业务解码图对待识别语音进行解码,以使解码得到的初步解码结果符合客户当前的业务场景下的语料,提升语音识别准确性和识别效率,之后再根据客户热词表中是否包括客户热词,确定对应的目标解码图,如此以使最终得到的目标解码结果符合客户的说话习惯,进一步的提升语音识别准确性;同时,由于基础解码图的存在,使客户热词表为轻量化字符列表即可,并结合客户热词表是否包括客户热词确定是否融合形成融合解码图,以灵活适配对应的使用场景,减少对语音识别效率的影响。
附图说明
44.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1是本技术可以应用于其中的示例性系统架构图;
46.图2是根据本技术的语音识别方法的一个实施例的流程图;
47.图3是根据本技术的语音识别装置的一个实施例的结构示意图;
48.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
49.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用
于描述特定顺序。
50.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
51.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
52.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
53.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
54.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
55.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
56.需要说明的是,本技术实施例所提供的语音识别方法一般由服务器/终端设备执行,相应地,语音识别装置一般设置于服务器/终端设备中。
57.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
58.继续参考图2,示出了根据本技术的语音识别的方法的一个实施例的流程图。所述的语音识别方法,包括以下步骤:
59.步骤s201,根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成。
60.具体地,上述业务解码图根据语言模型训练业务文本语料得到;在实际应用中,可预训练多个业务解码图,其中一个业务解码图对应一个业务场景。
61.上述基础解码图,是以语言模型中的字和词作为字典,对场景基础热词表中各场景基础热词进行分词,构建ac自动机,之后按照预设权重比例转换形成;如此,与业务解码图相比,基础解码图中所包含的字、词最多。
62.根据业务场景匹配当前语音识别的业务解码图以及基础解码图,如此可提升语音识别的准确性及识别效率。
63.步骤s202,获取待识别语音以及与所述待识别语音对应的客户热词表。
64.具体地,语音识别方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收由客户端/业务端发送的待识别语音以及与待识别语音对应的客户热词表。需要指出的是,上述无线连接方式可以包括但不限于3g/
4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
65.上述客户热词表与待识别语音的客户为对应关系,在客户热词表中包括n个客户热词,其中n≥0,n为整数;而客户热词表征为客户的个性化语料。
66.步骤s203,通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果。
67.具体地,上述业务解码图为运行人员定义的fst图,基于hclg,通过业务解码图对的上述待识别语音进行解码,召回与待识别语音对应的目标文字,形成初步解码文本(初步解码结果)。
68.步骤s204,若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图。
69.具体地,通过语言模型(如n-garm语言模型)将客户热词表中的每一个客户热词分解成字和词,根据已分解的各客户热词的字和词构建ac自动机,之后按照预设权重关系将ac自动机转化成客户解码图。其中,预设权重关系表征为客户热词中字和词的构成权重,如在预设权重关系中“知道”的权重高于“道知”的权重
70.上述客户热词表不为空,表征客户热词表中包括有至少一个客户热词;通过客户解码图和静态解码图构建融合解码图,使在实际解码过程中,融合解码图可根据客户的个性化进行解码,提升语音识别的准确性。
71.步骤s205,若所述客户热词表中未包含客户热词时,确定所述静态解码图为目标解码图。
72.具体地,上述客户热词表为空,表征为客户热词表中未包括有客户热词;此时无需构建客户解码图,以及进行客户解码图和静态解码图的融合,只通过静态解码图对初步解码结果进行解码即可,以灵活适配对应的使用场景,减少对语音识别效率的影响。
73.步骤s206,通过所述目标解码图对所述初步解码结果进行解码,得到目标解码结果。
74.具体地,在实际应用中,基于加权有限状态转换器wfst(weighted finite-state transducer),通过目标解码图对初步解码结果进行解码,综合各解码图的权重占比,得到分值最高的文字,形成目标解码结果,之后根据目标解码结果确定文本信息。
75.在本技术中,先通过业务解码图对待识别语音进行解码,以使解码得到的初步解码结果符合客户当前的业务场景下的语料,提升语音识别准确性和识别效率,之后再根据客户热词表中是否包括客户热词,确定对应的目标解码图,如此以使最终得到的目标解码结果符合客户的说话习惯,进一步的提升语音识别准确性;同时,由于基础解码图的存在,使客户热词表为轻量化字符列表即可,并结合客户热词表是否包括客户热词确定是否融合形成融合解码图,以灵活适配对应的使用场景,减少对语音识别效率的影响。
76.在本实施例的一些可选的实现方式中,上述步骤s201,所述根据业务场景匹配语音识别对应的业务解码图和静态解码图的步骤之前,还包括:
77.获取所述业务解码图和所述基础解码图的融合类型;
78.根据所述融合类型确定所述静态解码图的具体表达式。
79.具体地,融合类型包括线性融合类型(log-linear,ll)以及指数线性融合类型
(linear,lin),其中指数线性融合类型(lin)相对于线性融合类型(ll)计算得到c(sg(w|h),sb(w|h))结果准确性更高。
80.在本实施例的一些可选的实现方式中,所述根据所述融合类型确定所述静态解码图的具体表达式的步骤包括:
81.若所述融合类型为线性融合类型时,所述静态解码图的具体表达式为c(sg(w|h),sb(w|h))=α1*sg(w|h)+β1*sb(w|h);
82.若所述融合类型为指数线性融合类型时,所述静态解码图的具体表达式为c(sg(w|h),sb(w|h))=-log(α1*exp(-sg(w|h))+β1*exp(sb(w|h)));
83.其中,所述静态解码图的具体表达式中α1和β1均为变量,sg(w|h)为所述业务解码图基于历史解码状态输出的分值,sb(w|h)为所述基础解码图基于历史解码状态输出的分值。
84.具体地,α1和β1均为变量,且α1和β1的和值为1,如此可根据实际情况通过α1和β1的大小,调节sg(w|h)和sb(w|h)在c(sg(w|h),sb(w|h))的具体表达式中的权重比例;如α1大于β1时,则表征为最终通过c(sg(w|h),sb(w|h))的具体表达式计算得到的结果当前的业务场景下的说话习惯。
85.在本实施例的一些可选的实现方式中,上述步骤s205,所述通过所述目标解码图对所述初步解码结果进行解码的步骤包括:
86.若所述目标解码图为融合解码图时,通过所述目标解码图的第一公式s(w|h)=-log(α2*exp(-c(sg(w|h),sb(w|h)))+β2*exp(ss(w|h)))对所述初步解码结果进行解码,其中α2和β2均为变量,ss(w|h)为所述客户解码图基于历史解码状态输出的分值;
87.若所述目标解码图为静态解码图时,通过所述目标解码图的第二公式对所述初步解码结果进行解码,其中sg(w|h)为所述业务解码图基于历史解码状态输出的分值;
88.其中,所述目标解码图的第一公式和第二公式中,s(w|h)为所述目标解码结果,c(sg(w|h),sb(w|h))为静态解码图基于历史解码状态输出的分值。
89.具体地,在目标解码图的第一公式中,α2和β2均为变量,且α2和β2的和值为1,如此可根据实际情况通过α2和β2的大小,调节c(sg(w|h),sb(w|h))和ss(w|h)在目标解码图的第一公式的权重比例;如α2小于β2时,则表征为最终通过目标解码图的第一公式计算得到的s(w|h)更符合客户的说话习惯。
90.在目标解码图的第二公式中,b表征为语言模型的词典,基础解码图由该语言模型的词典构建得到;若时,则表征为语言模型的词典中并未有(w|h)的词组,此时s(w|h)=sg(w|h);反之,若if(w|h)∈b时,则表征为语言模型的词典中包含有(w|h)的词组,此时s(w|h)=c(sg(w|h),sb(w|h))。
91.示例的,如(w|h)中w为“务”,h为“业”时,从语言模型的词典中判断是否包含有“业务”的词语,若是,则s(w|h)=sg(w|h),若否,则if(w|h)∈b,s(w|h)=c(sg(w|h),sb(w|h))。
92.在本实施例的一些可选的实现方式中,上述步骤s203,所述通过所述业务解码图对所述待识别语音进行解码的步骤包括:
93.从所述待识别语音中提取音频特征;
94.通过声学模型将所述音频特征转换为音素序列;
95.通过所述业务解码图对所述音素序列进行解码。
96.具体地,在获取待识别语音后,先从待识别语音提取至少一个音频特征(梅尔频率倒谱系数(mfcc)),之后通过预训练的声学模型将待识别语音中的各音频特征转换为状态序列/音素序列,之后通过业务解码图对音素序列进行解码。
97.在本实施例的一些可选的实现方式中,上述步骤s206,在所述得到目标解码结果的步骤之后,还包括:
98.从所述目标解码结果中提取新的所述客户热词,将新的所述客户热词更新至所述客户热词表中。
99.具体地,在每次得到目标解码结果后,都会从目标解码结果中的文本信息进行分词处理,提取新的所述客户热词,以对客户热词表进行更换,完善客户热词表,这样有效提升后续语音识别的准确性,提升客户体验。
100.需要说明的是,对文本信息进行分词处理后,可对各分词得到的新的客户热词进行关键字确定,根据预设的映射关系,确定每个新的客户热词的得分,并根据每个新的客户热词的得分确定出为关键字的新的客户热词,将为关键字的新的客户热词新增至客户热词表;这样以避免在后续语音识别中,客户热词表过于冗重,保证语音识别准确性的同时,提升语音识别效率。
101.在本实施例的一些可选的实现方式中,所述将新的所述客户热词更新至所述客户热词表中的步骤包括:
102.若所述客户热词表中未匹配有与新的所述客户热词对应的所述客户热词时,将新的所述客户热词新增至所述客户热词表中;
103.若所述客户热词表中匹配有与新的所述客户热词对应的所述客户热词时,不修改所述客户热词表中与新的所述客户热词对应的所述客户热词。
104.具体地,当客户热词表中未匹配有与新的客户热词对应的客户热词时,则表征为客户热词表中未包含新的客户热词,此时通过将新的客户热词新增至客户热词表中,对客户热词表进一步的优化,提升客户热词表适配性,从而有效保证语音识别的准确率。
105.当客户热词表中匹配有与新的客户热词对应的客户热词时,则表征为客户热词表中包含新的客户热词,此时不对客户热词表进行修改。
106.需要强调的是,为进一步保证上述静态解码图和客户解码图的私密和安全性,上述静态解码图和客户解码图信息还可以存储于一区块链的节点中。
107.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
108.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及
应用系统。
109.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
110.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
111.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
112.进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种语音识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
113.如图3所示,本实施例所述的语音识别装置300包括:解码图匹配模块301、获取模块302、初步解码模块303、第一确定模块304、第二确定模块305以及目标解码模块306。其中:
114.解码图匹配模块301,用于根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成;
115.获取模块302,用于获取待识别语音以及与所述待识别语音对应的客户热词表;
116.初步解码模块303,用于通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果;
117.第一确定模块304,用于若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图;
118.第二确定模块305,用于若所述客户热词表中未包含客户热词时,将所述静态解码图作为目标解码图;
119.目标解码模块306,用于通过所述目标解码图对所述初步解码结果进行解码,得到目标解码结果。
120.在本技术中,先通过业务解码图对待识别语音进行解码,以使解码得到的初步解码结果符合客户当前的业务场景下的语料,提升语音识别准确性和识别效率,之后再根据客户热词表中是否包括客户热词,确定对应的目标解码图,如此以使最终得到的目标解码结果符合客户的说话习惯,进一步的提升语音识别准确性;同时,由于基础解码图的存在,使客户热词表为轻量化字符列表即可,并结合客户热词表是否包括客户热词确定是否融合
形成融合解码图,以灵活适配对应的使用场景,减少对语音识别效率的影响。
121.在本实施例的一些可选的实现方式中,还包括类型获取模块以及第三确定模块。其中:
122.类型获取模块,用于获取所述业务解码图和所述基础解码图的融合类型;
123.第三确定模块,用于根据所述融合类型确定所述静态解码图的具体表达式。
124.在本实施例的一些可选的实现方式中,上述第三确定模块包括第一确定子模块以及第二确定子模块;其中:
125.第一确定子模块,用于若所述融合类型为线性融合类型时,所述静态解码图的具体表达式为c(sg(w|h),sb(w|h))=α1*sg(w|h)+β1*sb(w|h);
126.第二确定子模块,用于若所述融合类型为对数线性融合类型时,所述静态解码图的具体表达式为c(sg(w|h),sb(w|h))=-log(α1*exp(-sg(w|h))+β1*exp(sb(w|h)))。
127.上述静态解码图的具体表达式中α1和β1均为变量,sg(w|h)为所述业务解码图基于历史解码状态输出的分值,sb(w|h)为所述基础解码图基于历史解码状态输出的分值。
128.在本实施例的一些可选的实现方式中,上述目标解码模块306包括第一解码子模块以及第二解码子模块。其中:
129.第一解码子模块,用于若所述目标解码图为融合解码图时,通过所述目标解码图的第一公式s(w|h)=-log(α2*exp(-c(sg(w|h),sb(w|h)))+β2*exp(ss(w|h)))对所述初步解码结果进行解码,其中α2和β2均为变量,ss(w|h)为所述客户解码图基于历史解码状态输出的分值;
130.第二解码子模块,用于若所述目标解码图为静态解码图时,通过所述目标解码图的第二公式对所述初步解码结果进行解码,其中sg(w|h)为所述业务解码图基于历史解码状态输出的分值。
131.上述目标解码图的第一公式和第二公式中,s(w|h)为所述目标解码结果,c(sg(w|h),sb(w|h))为静态解码图基于历史解码状态输出的分值。
132.在本实施例的一些可选的实现方式中,上述初步解码模块203包括特征提取子模块、序列转换子模块以及序列解码子模块。其中:
133.特征提取子模块,用于从所述待识别语音中提取音频特征;
134.序列转换子模块,用于通过声学模型将所述音频特征转换为音素序列;
135.序列解码子模块,用于通过所述业务解码图对所述音素序列进行解码。
136.在本实施例的一些可选的实现方式中,还包括热词更新模块。其中:
137.热词更新模块,用于从所述目标解码结果中提取新的所述客户热词,将新的所述客户热词更新至所述客户热词表中。
138.在本实施例的一些可选的实现方式中,上述热词更新模块包括第一更新子模块以及第二更新子模块。其中:
139.第一更新子模块,用于若所述客户热词表中未匹配有与新的所述客户热词对应的所述客户热词时,将新的所述客户热词新增至所述客户热词表中;
140.第二更新子模块,用于若所述客户热词表中匹配有与新的所述客户热词对应的所述客户热词时,不修改所述客户热词表中与新的所述客户热词对应的所述客户热词。
141.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
142.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
143.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
144.所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如语音识别方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
145.所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述语音识别方法的计算机可读指令。
146.所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
147.在本技术中,先通过业务解码图对待识别语音进行解码,以使解码得到的初步解码结果符合客户当前的业务场景下的语料,提升语音识别准确性和识别效率,之后再根据客户热词表中是否包括客户热词,确定对应的目标解码图,如此以使最终得到的目标解码结果符合客户的说话习惯,进一步的提升语音识别准确性;同时,由于基础解码图的存在,使客户热词表为轻量化字符列表即可,并结合客户热词表是否包括客户热词确定是否融合形成融合解码图,以灵活适配对应的使用场景,减少对语音识别效率的影响。
148.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语音识别方法的步骤。
149.在本技术中,先通过业务解码图对待识别语音进行解码,以使解码得到的初步解
码结果符合客户当前的业务场景下的语料,提升语音识别准确性和识别效率,之后再根据客户热词表中是否包括客户热词,确定对应的目标解码图,如此以使最终得到的目标解码结果符合客户的说话习惯,进一步的提升语音识别准确性;同时,由于基础解码图的存在,使客户热词表为轻量化字符列表即可,并结合客户热词表是否包括客户热词确定是否融合形成融合解码图,以灵活适配对应的使用场景,减少对语音识别效率的影响。
150.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
151.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。

技术特征:


1.一种语音识别方法,其特征在于,包括下述步骤:根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成;获取待识别语音以及与所述待识别语音对应的客户热词表;通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果;若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图;若所述客户热词表中未包含客户热词时,将所述静态解码图作为目标解码图;通过所述目标解码图对所述初步解码结果进行解码,得到目标解码结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述根据业务场景匹配语音识别对应的业务解码图和静态解码图的步骤之前,还包括:获取所述业务解码图和所述基础解码图的融合类型;根据所述融合类型确定所述静态解码图的具体表达式。3.根据权利要求2所述的语音识别方法,其特征在于,所述根据所述融合类型确定所述静态解码图的具体表达式的步骤包括:若所述融合类型为线性融合类型时,所述静态解码图的具体表达式为c(s
g
(w|h),s
b
(w|h))=α1*s
g
(w|h)+β1*s
b
(w|h);若所述融合类型为指数线性融合类型时,所述静态解码图的具体表达式为c(s
g
(w|h),s
b
(w|h))=-log(α1*exp(-s
g
(w|h))+β1*exp(s
b
(w|h)));其中,所述静态解码图的具体表达式中α1和β1均为变量,s
g
(w|h)为所述业务解码图基于历史解码状态输出的分值,s
b
(w|h)为所述基础解码图基于历史解码状态输出的分值。4.根据权利要求3所述的语音识别方法,其特征在于,所述通过所述目标解码图对所述初步解码结果进行解码的步骤包括:若所述目标解码图为融合解码图时,通过所述目标解码图的第一公式s(w|h)=-log(α2*exp(-c(
g
(w|h),s
b
(w|h)))+β2*exp(s
s
(w|h)))对所述初步解码结果进行解码,其中α2和β2均为变量,s
s
(w|h)为所述客户解码图基于历史解码状态输出的分值;若所述目标解码图为静态解码图时,通过所述目标解码图的第二公式对所述初步解码结果进行解码,其中s
g
(w|h)为所述业务解码图基于历史解码状态输出的分值;其中,所述目标解码图的第一公式和第二公式中,s(w|h)为所述目标解码结果,c(s
g
(w|h),s
b
(w|h))为静态解码图基于历史解码状态输出的分值。5.根据权利要求1至4中任一项所述的语音识别方法,其特征在于,所述通过所述业务解码图对所述待识别语音进行解码的步骤包括:从所述待识别语音中提取音频特征;通过声学模型将所述音频特征转换为音素序列;通过所述业务解码图对所述音素序列进行解码。6.根据权利要求1至4中任一项所述的语音识别方法,其特征在于,在所述得到目标解
码结果的步骤之后,还包括:从所述目标解码结果中提取新的所述客户热词,将新的所述客户热词更新至所述客户热词表中。7.根据权利要求6所述的语音识别方法,其特征在于,所述将新的所述客户热词更新至所述客户热词表中的步骤包括:若所述客户热词表中未匹配有与新的所述客户热词对应的所述客户热词时,将新的所述客户热词新增至所述客户热词表中;若所述客户热词表中匹配有与新的所述客户热词对应的所述客户热词时,不修改所述客户热词表中与新的所述客户热词对应的所述客户热词。8.一种语音识别装置,其特征在于,包括:解码图匹配模块,用于根据业务场景匹配语音识别对应的业务解码图和静态解码图,其中所述静态解码图由所述业务解码图和基础解码图构建形成;获取模块,用于获取待识别语音以及与所述待识别语音对应的客户热词表;初步解码模块,用于通过所述业务解码图对所述待识别语音进行解码,得到初步解码结果;第一确定模块,用于若所述客户热词表中包含客户热词时,根据所述客户热词表中的所述客户热词构建客户解码图,并根据所述客户解码图和所述静态解码图构建融合解码图,将所述融合解码图作为目标解码图;第二确定模块,用于若所述客户热词表中未包含客户热词时,将所述静态解码图作为目标解码图;以及目标解码模块,用于通过所述目标解码图对所述初步解码结果进行解码,得到目标解码结果。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音识别方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音识别方法的步骤。

技术总结


本申请实施例属于人工智能领域,涉及一种语音识别方法,包括根据业务场景匹配对应的业务解码图和静态解码图;获取待识别语音及客户热词表;通过业务解码图对待识别语音进行解码,得到初步解码结果;若客户热词表中包含客户热词时,根据客户热词表中的客户热词构建客户解码图,将客户解码图和静态解码图构建的融合解码图作为目标解码图;若客户热词表中未包含客户热词时,将静态解码图作为目标解码图;通过目标解码图对初步解码结果进行解码,得到目标解码结果。本申请还提供一种语音识别装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的业务解码图和静态解码图可存储于区块链中。本申请有效提升语音识别的准确性及效率。确性及效率。确性及效率。


技术研发人员:

伍汉诚 魏韬 王少军 肖京

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.08.16

技术公布日:

2022/11/22

本文发布于:2024-09-20 16:40:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/2550.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:所述   客户   词表   目标
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议