一种语音传输方法、装置和电子设备与流程



1.本发明涉及通信领域,具体涉及一种语音传输方法、装置和电子设备。


背景技术:



2.在线会议等即时通讯领域,音频通常会混杂各种现场噪音,为提升通话质量,需要对音频先进行降噪处理。但降噪后的音频在通过信道传输到接收端的过程中,还会出现由于各种干扰导致丢包的现象,使得接收端音频信号质量差、不连贯,甚至难以理解。因此,如何在即时通讯时,提高信息传输的完整性是亟待解决的问题。


技术实现要素:



3.有鉴于此,本发明实施方式提供了一种语音传输方法、装置和电子设备,从而提高了信息传输的完整性。
4.根据第一方面,本发明实施例提供了一种语音传输方法,所述方法包括:获取语音信号,并对所述语音信号分别进行语音识别和语音降噪,得到所述语音信号对应的字幕信息和降噪语音信息;将所述字幕信息和所述降噪语音信息进行交叉编码,得到交叉编码信息;将所述交叉编码信息发送至目标设备。
5.可选地,所述对所述语音信号进行语音识别和语音降噪,得到所述语音信号对应的字幕信息和降噪语音信息,包括:获取所述语音信号的频域特征和高维特征;基于所述高维特征检测所述语音信号是否包含真实语音;若所述语音信号包含真实语音,则基于所述语音信号的频域特征和高维特征对所述语音信号进行降噪,得到所述降噪语音信息;基于所述高维特征进行语音识别,得到所述字幕信息。
6.可选地,所述获取所述语音信号的频域特征和高维特征,包括:将所述语音信号从时域转换到频域得到所述频域特征;对所述频域特征进行滤波得到滤波特征;将所述滤波特征输入第一编码器,提取所述滤波特征中的高维信息,并将提取到的所述高维信息作为高维特征。
7.可选地,所述基于所述高维特征检测所述语音信号是否包含真实语音,包括:将所述高维特征输入第二编码器,并获取所述第二编码器输出的加深高维特征,所述第二编码器用于提取所述高维特征中的高维信息;将所述加深高维特征输入活动检测层,以通过所述活动检测层输出检测结果,并基于所述检测结果与预设标签之间的匹配程度确定所述语音信号是否包含真实语音。
8.可选地,所述基于所述语音信号的频域特征和高维特征对所述语音信号进行降噪,得到所述降噪语音信息,包括:将所述加深高维特征与所述频域特征进行融合,得到融合特征;将所述融合特征输入降噪解码器进行解码,得到解码频域特征;将所述解码频域特征从频域转换到时域得到所述降噪语音信息。
9.可选地,所述基于所述高维特征进行语音识别,得到所述字幕信息,包括:将所述高维特征通过第三编码器进一步编码后,输入识别解码器,以通过所述识别解码器对进一
步编码的高维特征进行解码,得到所述字幕信息;其中,所述识别解码器、所述降噪解码器、所述第一编码器、所述第二编码器、所述第三编码器和所述活动检测层中的参数由所述识别解码器、所述降噪解码器、所述第一编码器、所述第二编码器、所述第三编码器和所述活动检测层组成的语音处理模型经过联合训练确定。
10.可选地,所述方法还包括:若所述语音信号不包含真实语音,则输出静音信号作为所述降噪语音信息。
11.根据第二方面,本发明实施例提供了一种语音传输装置,所述装置包括:语音处理模块,用于获取语音信号,并对所述语音信号分别进行语音识别和语音降噪,得到所述语音信号对应的字幕信息和降噪语音信息;交叉编码模块,用于将所述字幕信息和所述降噪语音信息进行交叉编码,得到交叉编码信息;发送模块,用于将所述交叉编码信息发送至目标设备。
12.根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
13.根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行第一方面,或者第一方面任意一种可选实施方式中所述的方法。
14.本技术提供的技术方案,具有如下优点:
15.本技术提供的技术方案,通过对语音信号进行识别和降噪,分别得到语音信号的字幕信息和降噪语音信息。然后通过交叉编码的方式对字幕信息和降噪语音信息进行融合编码,然后将交叉编码信息发送至目标设备,通过交叉编码的方式,即使有丢包也不会造成大量信息丢失的情况,从而使目标设备可以对交叉编码信息进行解码,恢复出完整的字幕信息和降噪语音信息。通过字幕信息和降噪语音信息的结合,提高了用户对语音信号的理解程度,避免出现因语音信号丢失而导致用户不理解的情况。
16.此外,在对语音信号进行语音识别和语音降噪时,通过识别编码器(包括串联的第一编码器和第三编码器)从语音信号的频域特征中提取用于识别任务的高维特征,然后使用独立的识别解码层对高维特征进行解码,得到识别的字幕信息。在语音降噪部分,采用第二编码器对第一编码器输出的高维特征进行进一步编码,一方面加深了高维特征,提高了语音降噪的效果,另一方面,将识别任务中的第一编码器作为共享编码器,在此基础上再进行二次编码,使得语音降噪部分无需设立更加复杂的编码器,编码器需要设定的参数更少,降低训练复杂度。然后将加深高维特征和语音信号的频域特征进行融合使得语音信号原始特征中的高维分量更加突出,从而通过解码器降噪生成的降噪语音信息损失更少。此外,在语音活动检测部分,还基于第二编码器提取到的加深高维特征识别当前语音信号是否包含真实语音,从而判定当前是否真实包括语音活动。若当前语音信号不包括语音活动,则在非语音段不进行降噪处理而是输出静音,一方面端设备进入低功耗减少计算量,另一方面改善语音降噪模型留下残留噪音导致听感不佳的问题。第三,本发明实施例中涉及到的编码器和解码器均作为一个整体进行联合的模型训练。得到的多任务语音处理模型改变原有的语音降噪、语音识别串联结构,将识别、降噪联合训练,有效改善当前会议转录系统中由于
常用降噪语音作为输入而导致的语音识别模块识别错误率较高的现象。
附图说明
17.通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
18.图1示出了本发明一个实施方式中一种语音传输方法的步骤示意图;
19.图2示出了本发明一个实施方式中一种语音传输方法的流程示意图;
20.图3示出了本发明一个实施方式中一种语音传输方法的另一个流程示意图;
21.图4示出了本发明一个实施方式中一种语音传输方法的业务需求判定流程示意图;
22.图5示出了本发明一个实施方式中一种语音传输装置的结构示意图;
23.图6示出了本发明一个实施方式中一种电子设备的结构示意图。
具体实施方式
24.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
25.请参阅图1,在一个实施方式中,一种语音传输方法,具体包括以下步骤:
26.步骤s101:获取语音信号,并对语音信号分别进行语音识别和语音降噪,得到语音信号对应的字幕信息和降噪语音信息。
27.步骤s102:将字幕信息和降噪语音信息进行交叉编码,得到交叉编码信息。
28.步骤s103:将交叉编码信息发送至目标设备。
29.具体地,在本发明实施例中,当前客户端通过麦克风等收音设备采集到语音信号之后,分别对语音信号进行语音识别和语音降噪两部分处理。为了避免语音降噪使语音丧失关键信息,在本实施例中,语音识别是对原始语音信号进行,而不是对降噪后的语音信号进行。通过语音识别技术识别出语音中的字幕信息,通过语音降噪得到降噪后的语音信号。之后,将降噪语音信息和字幕语音信息均发送到目标设备,以便于如果因为网络丢包导致目标设备接收的语音不清晰,也可以根据字幕信息辅助用户理解语音含义,提高语音的完整性、提高语音信号的可理解程度。
30.进一步的,在本实施例中,还对识别的字幕信息和降噪语音信息进行交叉编码,发送到目标设备的是交叉编码信息,目标设备接收到交叉编码信息后,再对交叉编码信息进行解码,从而恢复出降噪语音信息和字幕信息。通过交叉编码技术,让信号分布在多个码字内提高纠错能力,可以有效缓解网络丢包带来的信息缺失。进一步提高语音信号传输的完整性。例如:假设字幕信息和降噪语音信息按照正常顺序拼接得到的无错报文为:aaaabbbbccccddddeeeeffffgggg,在不使用交叉编码时,由于信道干扰导致突发错误,使得目标设备接收的报文为:aaaabbbbccc____deeeeffffgggg,码字c改掉1位,可纠正;码字d被改3位,不可正确解码。本实施例使用交叉编码,将字幕信息和降噪语音信息按照预设规则
进行交叉排列,无错报文被编码为abcdefgabcdefgabcdefgabcdefg,假设传输错误发生,目标设备接收到的报文为abcdefgabcd____bcdefgabcdefg,而对接收到的报文进行解码,可以得到报文:aa_abbbbccccdddde_eef_ffg_gg;每组码字中只有一位被更改,所以一位纠错码可以正确的进行解码。基于此,当通信环境恶劣时,降噪后音频、字幕信息进行交叉编码,一方面,丢失的信息可以靠猜测恢复,另一方面,发音和其所对应的字幕同时丢失的概率大大降低,当一者丢失时另一者也可以作为信息的补充,从而进一步提高了语音信号传输的完整性。
31.具体地,在一实施例中,上述步骤s101,具体包括如下步骤:
32.步骤一:获取语音信号的频域特征和高维特征。
33.步骤二:基于高维特征检测语音信号是否包含真实语音。
34.步骤三:若语音信号包含真实语音,则基于语音信号的频域特征和高维特征对语音信号进行降噪,得到降噪语音信息。
35.步骤四:基于高维特征进行语音识别,得到字幕信息。
36.具体地,如图2所示,在本发明实施例中,首先将采集的语音信号转换为频域特征,频域特征相比时域信号具有更好的特征表达度,因此一般信号分析从频域角度出发。本发明实施例通过分帧、加窗和傅里叶变换得到原始语音信号的频域特征。然后对频域特征进行高维信息提取的处理,从而提取出频域特征中,更能表达用户真实语音的高维特征。由于包含真实用户语音的高维特征与不包含真实语音的高维特征表现差异较大,包含用户真实语音的特征高频分量更多,只包含白噪声的特征高频分量更少,因此基于高维特征识别当前语音信号是否包含用户真实语音信息。
37.之后,先通过活动检测任务检测当前语音信号是否包含真实语音信息,在本实施例中,如果当前语音信号不包含用户真实语音信息,则不进行降噪和识别,直接将当前语音信号置为静音,无需字幕信息。使当前客户端设备保持在低功耗状态,避免资源浪费。在非语音段不进行降噪处理而是输出静音,改善语音降噪模型留下残留噪音导致听感不佳的问题。
38.如果判定当前语音信号包含用户真实语音信息,则继续对语音信号进行识别和降噪。对用户语音识别的过程是将高维特征直接输入,或者进一步编码之后再输入独立的识别解码器,对高维特征进行解码,从而得到对应的字幕。识别解码器可以由多个非线层组成的神经网络构成,包括但不限于fc、cnn、lstm、conformer、transformer神经网络,具体设置方式可参考现有技术,不再赘述。在本实施例中,对语音信号进行降噪的过程是首先对频域特征和高维特征进行融合,然后将融合特征输入独立的降噪解码器进行降噪,得到降噪语音信息。频域特征保证降噪语音信息中有完整的低维分量,高维特征加深语音信号的高维分量。基于频域特征和高维特征生成的融合特征进行降噪,从而在最大程度上获取信息不丢失的降噪用户语音。
39.具体地,如图3所示,上述步骤一,具体包括如下步骤:
40.步骤五:将语音信号从时域转换到频域得到频域特征。
41.步骤六:对频域特征进行滤波得到滤波特征。
42.步骤七:将滤波特征输入第一编码器,提取滤波特征中的高维信息,并将提取到的高维信息作为高维特征。
43.具体地,在本实施例中,首先通过分帧、加窗和傅里叶变换得到原始语音信号的频域特征,然后基于滤波器组(fliter bank)技术对频域信号进行滤波,从而对频域特征进一步进行处理,得到用于神经网络训练的滤波特征,本实施例采用的滤波器组技术包括但不限于梅尔滤波和取对数,将原始的频域特征转换为更加接近人耳机理的频域特征。然后将滤波特征输入第一编码器,从而提取高维特征。其中第一编码器由多个非线性层构成,包括但不限于fc、cnn、lstm、conformer、transformer神经网络层。
44.具体地,在本实施例中,上述步骤二,具体包括如下步骤:
45.步骤八:将高维特征输入第二编码器,并获取第二编码器输出的加深高维特征,第二编码器用于提取高维特征中的高维信息。
46.步骤九:将加深高维特征输入活动检测层,以通过活动检测层输出检测结果,并基于检测结果与预设标签之间的匹配程度确定语音信号是否包含真实语音。
47.具体地,在语音活动检测和语音降噪时,若只将高维特征输入搭建好的降噪解码器或活动检测层进行降噪和检测,最终训练的模型深度不够,活动监测不够准确、底噪保留过多、降噪结果影响听感。为改善该状况,现有技术通常通过与语音识别相独立的语音活动检测模块、语音降噪模块分别处理这两个任务,但是设置独立的语音活动检测模块和语音降噪模块会大大增加神经网络模型训练的复杂度。与现有技术不同的是,在本方案中,额外增加第二编码器,将属于识别任务分支的第一编码器输出的高维特征输入第二编码器,并获取第二编码器输出的加深高维特征,第二编码器用于进一步提取高维特征中的高维信息。基于此,只需要重新部署一个层数较少、参数较少的第二编码器,加深第一编码器的输出,从而将第一编码器同时共享在语音识别、语音降噪、语音活动检测三个部分,在编码层的部署、参数训练上节省了大量精力。提高训练和运算效率。然后,基于第二编码器输出的加深高维特征进行语音信号是否包含真实语音的判定,还提高了真实语音判定的准确率。
48.具体地,在一实施例中,对语音进行识别的过程,还将第一编码器的输出输入第三编码器,将所述高维特征通过第三编码器进一步编码后,输入识别解码器,从而通过所述识别解码器对进一步编码的高维特征进行解码,得到所述字幕信息。在本实施例中,第三编码器和第一编码器组成的整体可视为识别编码器。而第一编码器是识别编码器中的前数层,第三编码器是识别编码器中的后数层。第一编码器作为识别编码器中的共享层共享于语音降噪任务和语音活动检测任务,以减少语音降噪任务和语音活动检测任务的训练复杂度。第三编码器作为对第一遍编码器进一步的编码层,独立应用于语音识别任务,以进一步加深语音识别任务编码出的特征,并与其他任务的特征加以区别。
49.具体地,在一实施例中,基于上述步骤八至步骤九,上述步骤三,具体包括如下步骤:
50.步骤十:将加深高维特征与频域特征进行融合,得到融合特征。
51.步骤十一:将融合特征输入降噪解码器进行解码,得到解码频域特征。
52.步骤十三:将解码频域特征从频域转换到时域得到降噪语音信息。
53.具体地,在本实施例中,利用加深高维特征与原始的频域特征进行融合,从而进一步在全部语音信息完整的前提下,提高高维特征的深度,之后对融合特征进行解码,通过解码,预测得到干净语音的频域特征。然后进行傅里叶反变换,即可得到完整度更好的降噪语音信息。频域特征与加深高维特征进行融合之前,先通过一层非线性层调整频域特征的尺
寸,使频域特征的尺寸与加深高维特征的尺寸相匹配,从而便于两特征融合。融合方式包括但不限于矩阵进行叉乘,对应元素进行加权相乘,矩阵相加等等。降噪解码器的具体设置方法可参考现有技术,在此不再赘述。
54.具体地,在一实施例中,识别解码器、降噪解码器、第一编码器、第二编码器、第三编码器和活动检测层中的参数由识别解码器、降噪解码器、第一编码器、第二编码器、第三编码器和活动检测层组成的语音处理模型经过联合训练确定。
55.具体地,在本实施例中,为了进一步提高各个神经网络层参数的准确度,在模型训练时,将识别解码器、降噪解码器、第一编码器、第二编码器、第三编码器和活动检测层视为一个整体,组成了一个多任务训练的语音处理模型,输入训练数据,然后分别利用字幕识别的标签、降噪标签和语音活动检测的标签与输出结果的差异程度,同时调整识别解码器、降噪解码器、第一编码器、第二编码器和活动检测层中的参数,从而进一步提高模型参数的准确度。多任务语音处理模型改变原有的语音降噪、语音识别串联结构,将识别、降噪联合训练,有效改善当前会议转录系统中由于常用降噪语音作为输入而导致的语音识别模块识别错误率较高的现象。
56.以一个具体训练实施例举例说明:
57.1.准备训练数据和标签,并提取训练数据的语音特征。
58.准备训练数据和标签。在本发明实施例中,多任务语音处理模型训练需要以下训练数据和标签:利用干净语音音频和噪声音频进行数据增广,得到可用于模型预训练的训练集。在本发明实施例中,将干净语音音频作为语音降噪任务训练的标签,将语音帧对应的字标签作为语音识别任务训练的标签,将干净语音对应的语音开始、结束时间点进行二进制编码,把语音段编码为1,静音段编码为0,作为语音活动检测的标签;语音数据增广指的是,首先对干净音频、噪声音频分别添加混响,得到干净混响音频、噪声混响音频,接着根据指定的信噪比范围,分别计算干净混响音频能量和噪声混响音频能量得到信噪比系数,然后在干净混响音频上叠加相应比例的噪声混响音频得到带噪音频,最后根据指定的幅度范围,生成幅度系数随机的带噪音频,即得到增广后的语音。
59.2.提取语音数据的特征。
60.在提取训练语音数据的特征时,对干净语音、加噪语音,利用分帧、加窗、傅里叶变换等操作,得到干净语音、加噪语音的频域特征。对得到的频域特征,取绝对值后,再进行梅尔滤波,并取对数,最终得到训练用的滤波特征。
61.3.训练多任务语音处理模型。
62.利用步骤2提取的语音特征训练多任务语音处理模型,得到识别、降噪、语音活动检测模型。其中,创建三个互相具有关联关系的训练任务,第一个训练任务是语音识别任务,因此搭建语音识别网络。在本发明实施例中,采用基于编码-解码结构的识别网络,包含多层非线性层,可由fc、cnn、lstm、conformer、transformer等构建而成。识别网络中的识别编码器包括第一编码器和第三编码器,其中第一编码器用于作为共享编码器。在多任务学习训练时,将步骤1中所得加噪语音特征输入搭建好的语音识别网络,利用字作为标签,计算预测结果与标签之间的交叉熵损失函数或序列损失函数,进行反向传播训练。为方便后文理解,此处的损失函数用l
recognition
表示。
63.第二个训练任务是语音降噪任务,因此搭建语音降噪网络。在本发明实施例中,降
噪网络采用编码-解码结构,解码器包含多层非线性层,可由fc、cnn、lstm、conformer、transformer等构建而成。降噪模型的编码器与语音识别编码器的前数层为共享层,作为共享编码层(即第一编码器),然后再额外添加后数层(即第二编码器),但降噪解码器是独立的。在多任务学习训练时,若只将加噪语音的滤波特征输入搭建好的降噪网络,最终训练所得降噪模型的降噪深度不够深,底噪保留过多,影响听感。为改善该状况,在本方案中,首先使用加噪语音的滤波特征利用第一编码器提取高维特征,然后用第二编码器进一步提取加深高维特征,将带噪语音频域特征通过单层非线性层后,与所得加深高维特征进行特征融合,再输入降噪模型解码器进行解码。通过解码,得到预测频域特征。利用干净语音的频域特征作为标签,计算其与降噪网络推理所得预测频域特征之间的均方误差损失,进行反向传播训练。为方便后文理解,此处的均方误差损失用l
denois
表示。
64.第三个任务是语音活动检测任务,搭建语音活动检测网络。在本发明实施例中,语音活动检测网络包含多层非线性层,可由fc、cnn、lstm、conformer、transformer等神经网络构建而成。其编码器层采用降噪模型的第一编码器和第二编码器,但是活动检测任务拥有独立的活动检测层用于最后进行真实语音信号的判定任务。在多任务学习训练时,将步骤1中所得加噪语音特征输入搭建好的语音活动检测网络,利用干净语音对应的语音开始、结束时间点的二进制编码作为标签,可以得到当前帧是语音还是静音。若为语音,则编码为1,若为静音,则编码为0。计算预测结果与标签之间的交叉熵损失函数,进行反向传播训练。为方便后文理解,此处的交叉熵损失函数用l
vad
表示。
65.步骤1、2、3搭建完成了多任务语音处理的模型结构,在进行多任务学习训练时,将步骤1中所得加噪语音特征作为多任务语音处理模型的输入特征,分别利用字、干净语音的语音特征、干净语音对应的语音开始、结束时间点的二进制编码作为识别任务、降噪任务、语音活动检测任务的标签,分别计算得到l
recognition
、l
denois
、l
vad
,再计算多任务学习的总损失函数:
66.l=αl
recognition
+βl
denoise
+γl
vad
67.其中,α,β,γ均为加权因子,取值在0-1之间,用来调整不同损失函数对模型训练的影响程度。
68.利用总损失函数,通过反向传播和梯度下降算法,训练得到用于语音识别、语音降噪、语音活动检测的多任务语音处理模型。
69.在进行多任务学习训练时,亦可先利用通用语料训练语音识别模型,再固定共享编码层的参数,将共享编码层作为语音降噪、语音活动检测模型的编码器,分别利用l
denois
、l
vad
训练调整语音降噪、语音活动检测模型剩余参数,最后再利用总损失函数对多任务语音处理模型进行参数微调。
70.4.利用训练好的多任务语音处理模型对采集到的语音信号进行处理,得到字幕信息和降噪语音信息。之后,如图4所示,在本实施例中,还可以依据业务需求判定字幕信息是否需要发送,如果用户不想发送字幕信息,则将字幕信息保存到客户端设备的指定存储区域内,作为会议转录;接收端的目标设备不用做任何处理。若用户需要将降噪后音频、识别结果共同传输,则采用交叉编码方式,将音频、文字编码后实时传输,接收端接收到文件后,按指定格式进行解码,调用麦克风模块播放降噪后音频的同时,将识别结果转换为字幕文件,或将识别结果保存到终端设备的指定存储区域内,作为会议转录。
71.通过上述步骤,本技术提供的技术方案,通过对语音信号进行识别和降噪,分别得到语音信号的字幕信息和降噪语音信息。然后通过交叉编码的方式对字幕信息和降噪语音信息进行融合编码,然后将交叉编码信息发送至目标设备,通过交叉编码的方式,即使有丢包也不会造成大量信息丢失的情况,从而使目标设备可以对交叉编码信息进行解码,恢复出完整的字幕信息和降噪语音信息。通过字幕信息和降噪语音信息的结合,提高了用户对语音信号的理解程度,避免出现因语音信号丢失而导致用户不理解的情况。
72.此外,在对语音信号进行语音识别和语音降噪时,先通过识别编码器(包括串联第一编码器和第三编码器)从语音信号的频域特征中提取用于识别任务的高维特征,然后使用独立的识别解码层对高维特征进行解码,得到识别的字幕信息。在语音降噪部分,采用第二编码器对第一编码器输出的高维特征进行进一步编码,一方面加深了高维特征,提高了语音降噪的效果,另一方面,将识别任务中的第一编码器作为共享编码器,在此基础上再进行二次编码,使得语音降噪部分无需设立更加复杂的编码器,编码器需要设定的参数更少,降低训练复杂度。然后将加深高维特征和语音信号的频域特征进行融合使得语音信号原始特征中的高维分量更加突出,从而通过解码器降噪生成的降噪语音信息损失更少。此外,在语音活动检测部分,还基于提取到的加深高维特征识别当前语音信号是否包含真实语音,从而判定当前是否真实包括语音活动。若当前语音信号不包括语音活动,则在非语音段不进行降噪处理而是输出静音,一方面端设备进入低功耗减少计算量,另一方面改善语音降噪模型留下残留噪音导致听感不佳的问题。第三,本发明实施例中涉及到的编码器和解码器均作为一个整体进行联合的模型训练。得到的多任务语音处理模型改变原有的语音降噪、语音识别串联结构,将识别、降噪联合训练,有效改善当前会议转录系统中由于常用降噪语音作为输入而导致的语音识别模块识别错误率较高的现象。
73.如图5所示,本实施例还提供了一种语音传输装置,该装置包括:
74.语音处理模块101,用于获取语音信号,并对语音信号分别进行语音识别和语音降噪,得到语音信号对应的字幕信息和降噪语音信息。详细内容参见上述方法实施例中步骤s101的相关描述,在此不再进行赘述。
75.交叉编码模块102,用于将字幕信息和降噪语音信息进行交叉编码,得到交叉编码信息。详细内容参见上述方法实施例中步骤s102的相关描述,在此不再进行赘述。
76.发送模块103,用于将交叉编码信息发送至目标设备。详细内容参见上述方法实施例中步骤s103的相关描述,在此不再进行赘述。
77.本发明实施例提供的语音传输装置,用于执行上述实施例提供的语音传输方法,其实现方式与原理相同,详细内容参见上述方法实施例的相关描述,不再赘述。
78.通过上述各个组成部分的协同合作,本技术提供的技术方案,通过对语音信号进行识别和降噪,分别得到语音信号的字幕信息和降噪语音信息。然后通过交叉编码的方式对字幕信息和降噪语音信息进行融合编码,然后将交叉编码信息发送至目标设备,通过交叉编码的方式,即使有丢包也不会造成大量信息丢失的情况,从而使目标设备可以对交叉编码信息进行解码,恢复出完整的字幕信息和降噪语音信息。通过字幕信息和降噪语音信息的结合,提高了用户对语音信号的理解程度,避免出现因语音信号丢失而导致用户不理解的情况。
79.此外,在对语音信号进行语音识别和语音降噪时,先通过识别编码器(包括第一编
码器和第三编码器)从语音信号的频域特征中提取用于识别任务的高维特征,然后使用独立的识别解码层对高维特征进行解码,得到识别的字幕信息。在语音降噪部分,采用第二编码器对第一编码器输出的高维特征进行进一步编码,一方面加深了高维特征,提高了语音降噪的效果,另一方面,将识别任务中的第一编码器作为共享编码器,在此基础上再进行二次编码,使得语音降噪部分无需设立更加复杂的编码器,编码器需要设定的参数更少,降低训练复杂度。然后将加深高维特征和语音信号的频域特征进行融合使得语音信号原始特征中的高维分量更加突出,从而通过解码器降噪生成的降噪语音信息损失更少。此外,在语音活动检测部分,还基于提取到的加深高维特征识别当前语音信号是否包含真实语音,从而判定当前是否真实包括语音活动。若当前语音信号不包括语音活动,则在非语音段不进行降噪处理而是输出静音,一方面端设备进入低功耗减少计算量,另一方面改善语音降噪模型留下残留噪音导致听感不佳的问题。第三,本发明实施例中涉及到的编码器和解码器均作为一个整体进行联合的模型训练。得到的多任务语音处理模型改变原有的语音降噪、语音识别串联结构,将识别、降噪联合训练,有效改善当前会议转录系统中由于常用降噪语音作为输入而导致的语音识别模块识别错误率较高的现象。
80.图6示出了本发明实施例的一种电子设备,该设备包括处理器901和存储器902,可以通过总线或者其他方式连接,图6中以通过总线连接为例。
81.处理器901可以为中央处理器(central processing unit,cpu)。处理器901还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
82.存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如上述方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
83.存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
84.一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
85.上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
86.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,实现的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,
ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
87.虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

技术特征:


1.一种语音传输方法,其特征在于,所述方法包括:获取语音信号,并对所述语音信号分别进行语音识别和语音降噪,得到所述语音信号对应的字幕信息和降噪语音信息;将所述字幕信息和所述降噪语音信息进行交叉编码,得到交叉编码信息;将所述交叉编码信息发送至目标设备。2.根据权利要求1所述的方法,其特征在于,所述对所述语音信号进行语音识别和语音降噪,得到所述语音信号对应的字幕信息和降噪语音信息,包括:获取所述语音信号的频域特征和高维特征;基于所述高维特征检测所述语音信号是否包含真实语音;若所述语音信号包含真实语音,则基于所述语音信号的频域特征和高维特征对所述语音信号进行降噪,得到所述降噪语音信息;基于所述高维特征进行语音识别,得到所述字幕信息。3.根据权利要求2所述的方法,其特征在于,所述获取所述语音信号的频域特征和高维特征,包括:将所述语音信号从时域转换到频域得到所述频域特征;对所述频域特征进行滤波得到滤波特征;将所述滤波特征输入第一编码器,提取所述滤波特征中的高维信息,并将提取到的所述高维信息作为所述高维特征。4.根据权利要求3所述的方法,其特征在于,所述基于所述高维特征检测所述语音信号是否包含真实语音,包括:将所述高维特征输入第二编码器,并获取所述第二编码器输出的加深高维特征,所述第二编码器用于提取所述高维特征中的高维信息;将所述加深高维特征输入活动检测层,以通过所述活动检测层输出检测结果,并基于所述检测结果与预设标签之间的匹配程度确定所述语音信号是否包含真实语音。5.根据权利要求4所述的方法,其特征在于,所述基于所述语音信号的频域特征和高维特征对所述语音信号进行降噪,得到所述降噪语音信息,包括:将所述加深高维特征与所述频域特征进行融合,得到融合特征;将所述融合特征输入降噪解码器进行解码,得到解码频域特征;将所述解码频域特征从频域转换到时域得到所述降噪语音信息。6.根据权利要求5所述的方法,其特征在于,所述基于所述高维特征进行语音识别,得到所述字幕信息,包括:将所述高维特征通过第三编码器进一步编码后,输入识别解码器,以通过所述识别解码器对进一步编码的高维特征进行解码,得到所述字幕信息;其中,所述识别解码器、所述降噪解码器、所述第一编码器、所述第二编码器、所述第三编码器和所述活动检测层中的参数由所述识别解码器、所述降噪解码器、所述第一编码器、所述第二编码器、所述第三编码器和所述活动检测层组成的语音处理模型经过联合训练确定。7.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述语音信号不包含真实语音,则输出静音信号作为所述降噪语音信息。
8.一种语音传输装置,其特征在于,所述装置包括:语音处理模块,用于获取语音信号,并对所述语音信号分别进行语音识别和语音降噪,得到所述语音信号对应的字幕信息和降噪语音信息;交叉编码模块,用于将所述字幕信息和所述降噪语音信息进行交叉编码,得到交叉编码信息;发送模块,用于将所述交叉编码信息发送至目标设备。9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行如权利要求1-7任一项所述的方法。

技术总结


本发明公开了一种语音传输方法、装置和电子设备,该方法包括:获取语音信号,并对语音信号分别进行语音识别和语音降噪,得到语音信号对应的字幕信息和降噪语音信息;将字幕信息和降噪语音信息进行交叉编码,得到交叉编码信息;将交叉编码信息发送至目标设备。本发明提供的技术方案,通过交叉编码的方式,即使丢包也不易造成信息丢失,目标设备可通过交叉编码信息进行解码,从而恢复出完整的字幕信息和降噪语音信息。通过字幕信息和降噪语音信息的结合,提高了用户对语音信号的理解程度,避免出现由于语音信号丢失出现用户不理解的情况。现由于语音信号丢失出现用户不理解的情况。现由于语音信号丢失出现用户不理解的情况。


技术研发人员:

苏悦 张新科 崔潇潇 鲁勇

受保护的技术使用者:

北京探境科技有限公司

技术研发日:

2022.04.26

技术公布日:

2022/9/2

本文发布于:2024-09-23 02:15:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/60925.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   所述   特征   降噪
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议