语音识别方法、装置、计算机设备及存储介质与流程



1.本发明涉及人工智能技术领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。


背景技术:



2.现有技术中,语音识别系统一般由语音端点检测和语音识别模块两部分组成,语音端点检测一般模型参数设计较为小巧,目的在于快速的对语音进行有效语音和噪声段划分,以减少后续语音识别系统计算压力,提高系统识别响应速度。但是,语音端点检测和识别模块的串联形式,实际上是对语音的硬分离,但是在实际的分离过程中,由于人声噪声和主说话人语音很难区分,尤其是存在背景电视噪声、主说话人说话音量低等,这种很难从背景噪声中区分的情况,会导致语音识别系统对于待识别语音的删除错误和插入错误,使用户有效语音的片段丢失或者因噪声段误识别,从而降低了语音识别的准确率。


技术实现要素:



3.本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质,解决现有语音识别方法,存在语音识别的准确率较低的问题。
4.本发明实施例提供了一种语音识别方法,包括:
5.获取待处理音频
6.对所述待处理音频进行特征提取,获取第一音频特征;
7.采用目标事件检测模型,对所述第一音频特征进行事件检测,获取事件检测特征;
8.对所述第一音频特征和所述事件检测特征进行处理,获取第二音频特征;
9.采用目标语音识别模型,对所述第二音频特征进行识别处理,获取音频识别结果;
10.其中,所述目标事件检测模型和所述目标语音识别模型为基于相同训练语音数据进行联合建模的模型。
11.本发明实施例还提供了一种语音识别装置,包括:
12.待处理音频获取模块,用于获取待处理音频;
13.第一音频特征获取模块,用于对所述待处理音频进行特征提取,获取第一音频特征;
14.事件检测特征获取模块,用于采用目标事件检测模型,对所述第一音频特征进行事件检测,获取事件检测特征;
15.第二音频特征获取模块,用于对所述第一音频特征和所述事件检测特征进行处理,获取第二音频特征;
16.音频识别结果获取模块,用于采用目标语音识别模型,对所述第二音频特征进行识别处理,获取音频识别结果。
17.本发明实施例还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上
述实现语音识别方法。
18.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实现语音识别方法。
19.上述的语音识别方法、装置、计算机设备及存储介质,通过将待处理音频进行特征提取后,将所获取的第一音频特征用于后续的事件检测,采用目标事件检测模型,以获取用于识别待处理音频所处声音事件环境所对应的事件检测特征;根据事件检测特征和第一音频特征进行处理后,采用目标语音识别模型,对已处理的第二音频特征进行识别处理,以获取更为精准音频识别结果,通过对待处理音频进行事件识别后,根据所识别的事件检测特征对待处理音频进行处理,从而提高了语音识别的准确率。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明一实施例中语音识别方法的一应用环境示意图;
22.图2是本发明一实施例中语音识别方法的一流程图;
23.图3是本发明一实施例中语音识别方法的另一流程图;
24.图4是本发明一实施例中语音识别方法的另一流程图;
25.图5是本发明一实施例中语音识别方法的另一流程图;
26.图6是本发明一实施例中语音识别方法的另一流程图;
27.图7是本发明一实施例中语音识别装置的一示意图;
28.图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
29.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.本发明实施例提供的语音识别方法,可应用在如图1示出的应用环境中。如图1所示,客户端(计算机设备)通过网络与服务器进行通信。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序,客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
31.本发明实施例提供的语音识别方法,该语音识别方法可应用如图1所示的应用环境中。具体地,该语音识别方法应用在语音识别系统中,该语音识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对待处理音频进行处理,以
获得识别准确率更高的音频识别结果。
32.在一实施例中,如图2所示,提供一种语音识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
33.s201:获取待处理音频;
34.s202:对待处理音频进行特征提取,获取第一音频特征;
35.s203:采用目标事件检测模型,对第一音频特征进行事件检测,获取事件检测特征;
36.s204:对第一音频特征和事件检测特征进行处理,获取第二音频特征;
37.s205:采用目标语音识别模型,对第二音频特征进行识别处理,获取音频识别结果。
38.其中,目标事件检测模型和目标语音识别模型为基于相同训练语音数据进行联合建模的模型,通过联合建模的目标事件检测模型和目标语音识别模型,以提高对待处理音频的语音识别的准确率。
39.作为一示例,步骤s201中,服务器接收用于语音识别处理的待处理音频,该待处理音频可以为用户上传的用于语音识别的待处理音频文件,也可以为服务器所采集的用于语音识别的待处理音频文件。其中,待处理音频通常都不仅仅只有待识别人声,还有对应的背景噪声,而不同程度的噪声会对待处理音频的语音识别,产生一定的影响,从而导致音频识别结果的准确率降低。
40.其中,待处理音频文件的格式包括但不限于cda格式、wav格式、mp3格式、mp3 pro格式、ape格式、flac格式、aac格式、real media格式和windows media格式等。
41.作为一示例,步骤s202中,服务器在获取待处理音频后,对待处理音频进行特征提取处理,获取第一音频特征以用于后续的语音识别,第一音频特征为通过将待处理音频输入编码器,对待处理音频所对应声学特征进行编码获取到音频特征。其中,声学特征包括音、音强、音高和音长,通过将音频中的声学特征进行编码,以确定音频所对应的音频特征。
42.在本示例中,还可以根据待处理音频的音频时长,对每帧待处理音频片段进行处理,从而第n帧待处理音频片段所对应的第n个第一音频特征。
43.在本示例中,所使用编码器可以为,采用cnn神经网络结构的共享编码器(shared encoder),通过共享编码器对待处理音频进行处理,用来提取待处理音频的公有特征,输出第一音频特征至目标事件检测模型和目标语音识别模型,以保证后续语音识别的准确率。
44.作为一示例,步骤s203中,服务器获取提取的第一音频特征后,采用目标事件检测模型,通过将第一音频特征输入目标事件检测模型,进行事件检测,从而获得第一音频特征所对应的事件检测特征,以确定待处理音频所处声音事件环境,并将该事件检测特征输入目标语音识别模型,根据对应的所处声音事件环境,进行语音识别,提高所识别结果的准确率。
45.在本示例中,目标事件检测模型(audio event detection module),可以采用多层双向gru(bigru)结构,增加一层池化(pooling)层和一层前向神经网络(fnn)计算层,最后增加一层softmax层,从而用于对第一音频特征进行分类和预测处理,以获得事件检测特征确认待处理音频所对应的声音事件环境。
46.作为一示例,步骤s204中,服务器再获取事件检测特征后,根据事件检测特征对第
一音频特征进行处理,从而获取第二音频特征输入目标语音识别模型,通过声音事件环境,确认对应的噪声环境类型,以减少系统的计算成本,并提高语音识别处理最终语音识别结果的准确率。
47.本示例中,可以对第一音频特征的进行尺度变换处理,以提高第一音频特征的显著性,其中,若当前事件检测特征所对应的待处理音频,噪声环境类型中的噪音干扰较低,变换后会尽量保留所有第一音频特征;噪声环境类型中的噪音干扰较强,则会掩码掉部分第一音频特征,从而实现对噪声的鲁棒性识别,避免了简单的噪声分离导致的待识别人声丢失或误识别过多问题。
48.作为一示例,步骤s205中,服务器在获取第二音频特征后,通过目标语音识别模型,对第二音频特征进行识别处理,根据具有事件检测特征和第一音频特征的第二音频特征,对待识别音频进行识别处理,得到音频识别结果,以提高处于噪声中的待识别音频进行语音识别的准确率。
49.在本示例中,目标语音识别模型采用多层双向gru神经网络,并增加一层前向神经网络和softmax层,通过对第二音频特征进行识别处理,获取在声音事件环境下的待处理音频所对应的识别文本,作为音频识别结果。其中,当声音事件环境较为嘈杂的情况下,或待识别人声的音高较弱的情况下,会导致待处理音频的最终的音频识别结果出现误差,通过第二音频特征,可以在声音事件环境对识别文本进行预测,从而获得更为精确的识别文本作为音频识别结果,提高了本语音识别方法的稳定性和准确性。
50.在本示例中,通过将待处理音频进行特征提取后,将所获取的第一音频特征用于后续的事件检测,采用目标事件检测模型,以获取用于识别待处理音频所处声音事件环境所对应的事件检测特征;根据事件检测特征和第一音频特征进行处理后,采用目标语音识别模型,对已处理的第二音频特征进行语音识别,以获取更为精准音频识别结果,通过对待处理音频进行事件识别后,根据所识别的事件检测特征对待处理音频进行处理,从而提高了语音识别的准确率。
51.在一实施例中,如图3所示,步骤s203,采用目标事件检测模型,对第一音频特征进行事件检测,获取事件检测特征,包括:
52.s301:事件检测特征包括语音概率特征和n个音频类型对应的事件概率特征;
53.s302:将第一音频特征输入神经网络进行特征提取,获取语音概率特征和n个音频类型对应的事件概率特征。
54.作为一示例,步骤s301中,服务器所获取的事件检测特征包括语音概率特征和n个音频类型对应的事件概率特征。其中,语音概率特征用于判断待处理音频片段是否具有待识别人声,该语音概率特征为数值,即概率得分,从而确定待处理音频片段具有待识别人声的概率;而n个音频类型对应的事件概率特征,则是通过目标事件检测模型,对第一音频特征进行分类,从而确定第一音频特征在所预设的n个音频类型中,各音频类型对应的概率得分。
55.作为一示例,步骤s302中,服务器在获取第一音频特征后,将第一音频特征输入目标事件检测模型中的神经网络进行特征提取,获得包括语音概率特征和n个音频类型对应的事件概率特征。
56.在本实例中,通过目标事件检测模型中的神经网络对第一音频特征进行特征提
取,从而获得具有待识别人声的概率得分对应的语音概率特征,和待处理音频在预设的n个音频类型中,各音频类型对应的事件概率特征,以确认待处理音频所处的声音事件环境,提高后续语音识别的鲁棒性
57.在一实施例中,步骤s302,将第一音频特征输入神经网络进行特征提取,获取语音概率特征和n个音频类型对应的事件概率特征,包括:
58.s3021:将第一音频特征输入神经网络进行语音概率预测,获取语音概率得分;
59.s3022:对语音概率得分进行归一化处理,获取语音概率特征;
60.s3023:将第一音频特征输入神经网络进行事件类型预测,获取n个音频类型对应的事件概率得分;
61.s3024:对事件概率得分进行归一化处理,获取事件概率特征。
62.作为一示例,步骤s3021中,服务器将所获取的第一音频特征输入神经网络进行语音概率预测,神经网络根据第一音频特征,对待处理音频是否具有待识别人声进行语音预测,并获取语音概率得分。本示例中,可利用多层双向gru(bigru)结构的神经网络,根据特征进行分类。
63.作为一示例,步骤s3022中,服务器在获取语音概率得分后,将语音概率得分进行归一化处理,以收敛语音概率得分,得到语音概率特征。
64.作为一示例,步骤s3023中,服务器在将所获取的第一音频特征输入神经网络进行事件类型预测,神经网络根据第一音频特征,对待处理音频的所处声音事件环境进行预测,根据预设的n个音频类型,确认待处理音频在各音频类型对应的事件概率得分。其中,音频类型根据实际分类进行预设,例如人声杂乱环境和风声干扰环境。
65.作为一示例,步骤s3024中,服务器在获取事件概率得分后,将事件概率得分进行归一化处理,以收敛事件概率得分,得到事件概率特征。
66.在本示例中,通过将第一音频特征输入神经网络进行语音概率预测和事件类型预测,获取对应的语音概率得分和n个音频类型所对应的事件概率得分,通过归一化处理后,获取语音概率特征和事件概率特征,更准确得确定待处理音频的声音事件环境。
67.在一实施例中,如图4所示,步骤s204,对第一音频特征和事件检测特征进行处理,获取第二音频特征,包括:
68.s401:对第一音频特征和语音概率特征进行变换处理,获取待拼接音频特征;
69.s402:对待拼接音频特征和事件检测特征进行拼接处理,获取第二音频特征。
70.作为一示例,步骤s401中,服务器通过对所接收的第一音频特征和语音概率特征进行变换处理,用于将不同维度的特征进行变化,获得与另一拼接特征处于同一维度的待拼接音频特征,以保留更为显著的特征。
71.作为一示例,步骤s402中,服务器在通过对变换处理后的待拼接音频特征和事件检测特征进行拼接处理,以获得特征更为显著的第二音频特征。
72.在本示例中,通过将第一音频特征和语音概率特征进行变换处理后,拼接所获取的待拼接音频特征和事件检测特征,以获得特征更为显著的第二音频特征。
73.在一实施例中,步骤s401,对第一音频特征和语音概率特征进行变换处理,获取待拼接音频特征,包括:
74.s4011:对语音概率特征进行截流处理,获取截流语音特征;
75.s4012:对截流语音特征和第一音频特征进行点乘处理,获取待拼接音频特征。
76.作为一示例,步骤s4011中,服务器在接收到语音概率特征后,根据提前预设好的语音概率阈值,对语音概率特征进行截留处理,获取截流语音特征,通过判断该待处理音频片段是否包括待识别人声,筛选点不包含的待识别人声的片段,以减少运算成本,提高识别效率。在本示例中,通过将不符合语音概率阈值的语音概率特征输出为0的截流语音特征,而符合语音概率阈值的语音概率特征,保持原有值输出为对应的截流语音特征,从而在保证维度的情况下进行后续的特征处理。
77.作为一示例,步骤s4012中,服务器在确定截流语音特征后,对截流语音特征和第一音频特征进行点乘处理,也就是根据截流语音特征对第一音频特征进行处理,以获取待拼接音频特征。
78.在本实例中,通过判断该待处理音频片段是否包括待识别人声,对语音概率特征进行截留处理,并利用截留后的截流语音特征进行后续的处理,以减少运算成本,提高识别效率。
79.在一实施例中,如图5所示,步骤s205,对第二音频特征进行识别处理,获取音频识别结果,包括:
80.s501:对第二音频特征进行预测处理,获取文本预测概率;
81.s502:根据文本预测概率,获取音频识别结果。
82.作为一示例,步骤s501中,服务器在接收到第二音频特征后,根据第二音频特征进行预测处理,获取在待处理音频所对应的文本预测概率,也即在该声音事件环境下,若待识别人声不够清晰,根据第二音频特征,预测对应的文本,并输出文本预测概率。
83.作为一示例,步骤s502中,服务器根据文本预测概率,进行文本生成,从而获取待处理音频对应的音频识别结果,该结果可以为待处理音频对应的文本内容。
84.在本实例中,通过第二音频特征预测,对声音事件环境下,待识别人声不够清晰的情况下,预测对应的文本,并输出文本预测概率,以获取更为准确的音频识别结果。
85.在另一实施例中,如图6所示,在步骤s201,获取待处理音频之前,语音识别方法,还包括:
86.s601:获取训练语音数据,对训练语音数据进行特征提取,获取训练音频特征;
87.s602:采用训练音频特征训练事件检测模型,获取事件检测模型对应的第一损失函数;
88.s603:采用事件检测模型训练语音识别模型,获取语音识别模型对应的第二损失函数;
89.s604:根据第一损失函数和第二损失函数,获取联合损失函数;
90.s605:根据联合损失函数,获取目标事件检测模型和目标语音识别模型。
91.作为一示例,步骤s601中,服务器通过获取训练语音数据,对训练语音数据进行特征提取,以获取用于对事件检测模型和语音识别模型训练音频特征,其所使用编码器可以根据业务需求确定。
92.作为一示例,步骤s602中,服务器采用训练音频特征训练事件检测模型,通过对训练音频特征进行事件预测,并根据所得到的预测结果,与训练语音数据的标注进行计算,获取事件检测模型对应的第一损失函数。
93.作为一示例,步骤s603中,服务器采用事件检测模型训练语音识别模型,通过对训练音频特征进行语音识别,并根据所得到的识别结果,与训练语音数据的标注进行计算,获取语音识别模型对应的第二损失函数。
94.作为一示例,步骤s604中,服务器根据第一损失函数和第二损失函数进行计算,获取联合损失函数。本示例中,本文中声音事件检测和语音识别模块损失函数都采用交叉熵损失,联合损失函数为:loss=loss
asr
+λloss
aed
其中,λ为可调节参数,一般取值为0.1。
95.作为一示例,步骤s605中,服务器根据联合损失函数,更新事件检测模型和语音识别模型的参数,获得目标事件检测模型和目标语音识别模型。在本实例中,参数更新可以采用adam算法,学习率调节采用经典退火算法进行更新。
96.在本示例中,通过训练语音数据,对事件检测模型和语音识别模型进行训练,获取到对应的第一损失函数和第二损失函数,通过将第一损失函数和第二损失函数进行联合,更新事件检测模型和语音识别模型的参数,已完成对模型的训练,获得精度更高得目标事件检测模型和目标语音识别模型。
97.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
98.在一实施例中,提供一种语音识别装置,该语音识别装置与上述实施例中语音识别方法一一对应。如图7所示,该语音识别装置包括待处理音频获取模块801、第一音频特征获取模块802、事件检测特征获取模块803、第二音频特征获取模块804和音频识别结果获取模块805。各功能模块详细说明如下:
99.待处理音频获取模块801,用于获取待处理音频;
100.第一音频特征获取模块802,用于对待处理音频进行特征提取,获取第一音频特征;
101.事件检测特征获取模块803,用于采用目标事件检测模型,对第一音频特征进行事件检测,获取事件检测特征;
102.第二音频特征获取模块804,用于对第一音频特征和事件检测特征进行处理,获取第二音频特征;
103.音频识别结果获取模块805,用于采用目标语音识别模型,对第二音频特征进行识别处理,获取音频识别结果。
104.在一实施例中,事件检测特征获取模块803,包括:
105.语音概率特征和n个音频类型对应的事件概率特征获取单元,用于将第一音频特征输入神经网络进行特征提取,获取语音概率特征和n个音频类型对应的事件概率特征。
106.在一实施例中,语音概率特征和n个音频类型对应的事件概率特征获取单元,用于包括:
107.语音概率得分获取子单元,用于将第一音频特征输入神经网络进行语音概率预测,获取语音概率得分;
108.语音概率特征获取子单元,用于对语音概率得分进行归一化处理,获取语音概率特征;
109.事件概率得分获取子单元,用于将第一音频特征输入神经网络进行事件类型预
测,获取n个音频类型对应的事件概率得分;
110.事件概率特征获取子单元,用于对事件概率得分进行归一化处理,获取事件概率特征。
111.在一实施例中,第二音频特征获取模块804,包括:
112.待拼接音频特征获取单元,用于对第一音频特征和语音概率特征进行变换处理,获取待拼接音频特征;
113.第二音频特征获取单元,用于对待拼接音频特征和事件检测特征进行拼接处理,获取第二音频特征。
114.在一实施例中,待拼接音频特征获取单元,用于包括:
115.截流语音特征获取子单元,用于对语音概率特征进行截流处理,获取截流语音特征;
116.待拼接音频特征获取子单元,用于对截流语音特征和第一音频特征进行点乘处理,获取待拼接音频特征。
117.在一实施例中,音频识别结果获取模块805,包括:
118.文本预测概率获取单元,用于对第二音频特征进行预测处理,获取文本预测概率;
119.音频识别结果获取单元,用于根据文本预测概率,获取音频识别结果。
120.在另一实施例中,语音识别装置,还包括:
121.训练音频特征获取模块,用于获取训练语音数据,对训练语音数据进行特征提取,获取训练音频特征;
122.第一损失函数获取模块,用于采用训练音频特征训练事件检测模型,获取事件检测模型对应的第一损失函数;
123.第二损失函数获取模块,用于采用事件检测模型训练语音识别模型,获取语音识别模型对应的第二损失函数;
124.联合损失函数获取模块,用于根据第一损失函数和第二损失函数,获取联合损失函数;
125.目标事件检测模型和目标语音识别模型获取模块,用于根据联合损失函数,获取目标事件检测模型和目标语音识别模型。
126.关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
127.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行语音识别方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
128.在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中语音识别方法,例如图2所示s201-s205,或者图3至图6中所示,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现语音识别装置这一实施例中的各模块/单元的功能,例如图7所示的待处理音频获取模块801、第一音频特征获取模块802、事件检测特征获取模块803、第二音频特征获取模块804和音频识别结果获取模块805的功能,为避免重复,这里不再赘述。
129.在一实施例中,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中语音识别方法,例如图2所示s201-s205,或者图3至图6中所示,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述语音识别装置这一实施例中的各模块/单元的功能,例如图7所示的待处理音频获取模块801、第一音频特征获取模块802、事件检测特征获取模块803、第二音频特征获取模块804和音频识别结果获取模块805的功能,为避免重复,这里不再赘述。
130.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
131.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,用于以完成以上描述的全部或者部分功能。
132.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

技术特征:


1.一种语音识别方法,其特征在于,包括:获取待处理音频;对所述待处理音频进行特征提取,获取第一音频特征;采用目标事件检测模型,对所述第一音频特征进行事件检测,获取事件检测特征;对所述第一音频特征和所述事件检测特征进行处理,获取第二音频特征;采用目标语音识别模型,对所述第二音频特征进行识别处理,获取音频识别结果;其中,所述目标事件检测模型和所述目标语音识别模型为基于相同训练语音数据进行联合建模的模型。2.如权利要求1所述的语音识别方法,其特征在于,所述对所述第一音频特征进行事件检测,获取事件检测特征,包括:所述事件检测特征包括语音概率特征和n个音频类型对应的事件概率特征;将所述第一音频特征输入神经网络进行特征提取,获取所述语音概率特征和所述n个音频类型对应的事件概率特征。3.如权利要求2所述的语音识别方法,其特征在于,所述将所述第一音频特征输入神经网络进行事件特征提取,获取所述事件检测特征,包括:将所述第一音频特征输入神经网络进行语音概率预测,获取语音概率得分;对所述语音概率得分进行归一化处理,获取语音概率特征;将所述第一音频特征输入神经网络进行事件类型预测,获取n个音频类型对应的事件概率得分;对所述事件概率得分进行归一化处理,获取事件概率特征。4.如权利要求2所述的语音识别方法,其特征在于,所述对所述第一音频特征和所述事件检测特征进行处理,获取第二音频特征,包括:对所述第一音频特征和语音概率特征进行变换处理,获取待拼接音频特征;对所述待拼接音频特征和所述事件检测特征进行拼接处理,获取第二音频特征。5.如权利要求4所述的语音识别方法,其特征在于,所述对所述第一音频特征和语音概率特征进行变换处理,获取待拼接音频特征,包括:对所述语音概率特征进行截流处理,获取截流语音特征;对所述截流语音特征和所述第一音频特征进行点乘处理,获取待拼接音频特征。6.如权利要求1所述的语音识别方法,其特征在于,所述对所述第二音频特征进行识别处理,获取音频识别结果,包括:对所述第二音频特征进行预测处理,获取文本预测概率;根据所述文本预测概率,获取音频识别结果。7.如权利要求1所述的语音识别方法,其特征在于,在所述获取待处理音频之前,所述语音识别方法还包括:获取训练语音数据,对所述训练语音数据进行特征提取,获取训练音频特征;采用训练音频特征训练事件检测模型,获取事件检测模型对应的第一损失函数;采用事件检测模型训练语音识别模型,获取语音识别模型对应的第二损失函数;根据所述第一损失函数和所述第二损失函数,获取联合损失函数;根据所述联合损失函数,获取目标事件检测模型和目标语音识别模型。
8.一种语音识别装置,其特征在于,包括:待处理音频获取模块,用于获取待处理音频;第一音频特征获取模块,用于对所述待处理音频进行特征提取,获取第一音频特征;事件检测特征获取模块,用于采用目标事件检测模型,对所述第一音频特征进行事件检测,获取事件检测特征;第二音频特征获取模块,用于对所述第一音频特征和所述事件检测特征进行处理,获取第二音频特征;音频识别结果获取模块,用于采用目标语音识别模型,对所述第二音频特征进行识别处理,获取音频识别结果。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音识别方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。

技术总结


本发明涉及人工智能技术领域,本发明公开了一种语音识别方法、装置、计算机设备及存储介质。通过将待处理音频进行特征提取后,将所获取的第一音频特征用于后续的事件检测,采用目标事件检测模型,以获取用于识别待处理音频所处声音事件环境所对应的事件检测特征;根据事件检测特征和第一音频特征进行处理后,采用目标语音识别模型,对已处理的第二音频特征进行识别处理,以获取更为精准音频识别结果,通过对待处理音频进行事件识别后,根据所识别的事件检测特征对待处理音频进行处理,从而提高了语音识别的准确率。了语音识别的准确率。了语音识别的准确率。


技术研发人员:

张之勇 王健宗

受保护的技术使用者:

平安科技(深圳)有限公司

技术研发日:

2022.07.29

技术公布日:

2022/12/1

本文发布于:2024-09-25 02:32:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/29353.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   音频   事件   概率
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议