一种语音分离识别的方法、装置、存储介质及电子设备与流程

1.本技术涉及语音处理技术领域，具体而言，涉及一种语音分离识别的方法、装置、存储介质及电子设备。

背景技术：

2.随着人工智能技术的发展，智能客服被广泛应用在各行各业中。智能客服采用了人工智能和自然语言理解技术，可以像人工一样，对客户提出的问题进行分析，并根据对方的背景和对话内容来做出反应。
3.目前，智能客服在为客户提供服务时，需要实时解析客户的语音数据。由于客户所处的外部环境的不确定性较高，智能客服在接收到客户的语音时可能会存在人声干扰的问题。当前，智能客户在接收到客户的语音数据后，通常是对语音数据进行全部识别，然而由于语音数据中含有相关干扰噪声，导致语音数据识别的效率及准确率较低。
4.因此，如何提供一种高效的语音分离识别的方法的技术方案成为亟需解决的技术问题。

技术实现要素：

5.本技术的一些实施例的目的在于提供一种语音分离识别的方法、装置、存储介质及电子设备，通过本技术的实施例的技术方案可以从存在干扰的实时语音流中精准分离出目标对象的语音，准确度较高且效率较高。
6.第一方面，本技术的一些实施例提供了一种语音分离识别的方法，包括：提取实时语音流中的目标对象语音；对所述目标对象语音进行识别，得到目标对象的语音文本。
7.本技术的一些实施例通过首先对实时语音流进行提取得到目标对象语音，然后再对目标对象语音进行识别得到语音文本，可以从存在干扰的实时语音流中精准分离出目标对象的语音文本，准确度较高且效率较高。
8.在一些实施例，所述提取实时语音流中的目标对象语音，包括：对所述实时语音流进行处理，得到语音波形，并获取所述实时语音流中的各语音帧的波形信号；生成与所述语音波形和所述各语音帧的波形信号对应的所述目标对象语音。
9.本技术的一些实施例通过对实时语音流进行处理和分析，得到语音波形和波形信号，进而可以得到目标对象语音，可以实现对目标对象语音的准确提取，效率较高。
10.在一些实施例，所述对所述实时语音流进行处理，得到语音波形，包括：提取所述实时语音流中的音频特征向量；对所述音频特征向量进行重建，获取所述语音波形。
11.本技术的一些实施例通过对实时语音流中的音频特征向量重建得到语音波形，可以为快速得到目标对象语音提供有效数据。
12.在一些实施例，所述对所述音频特征向量进行重建，获取所述语音波形，包括：将所述音频特征向量与基函数相乘，得到所述语音波形。
13.本技术的一些实施例通过音频特征向量和基函数得到语音波形，简便高效。
14.在一些实施例，所述获取所述实时语音流中的各语音帧的波形信号，包括：对所述实时语音流进行分离，得到各语音帧向量；将所述各语音帧向量与所述音频特征向量进行运算，得到源特征向量；将所述源特征向量与所述基函数相乘，得到所述各语音帧的波形信号。
15.本技术的一些实施例通过对实时语音流进行分离得到各语音帧向量，进而进行运算得到各语音帧波形信号，可以为快速得到目标对象语音提供有效数据。
16.第二方面，本技术的一些实施例提供了一种语音分离识别的装置，包括：提取模块，用于提取实时语音流中的目标对象语音；识别模块，用于对所述目标对象语音进行识别，得到目标对象的语音文本。
17.在一些实施例，所述提取模块，用于对所述实时语音流进行处理，得到语音波形，并获取所述实时语音流中的各语音帧的波形信号；生成与所述语音波形和所述各语音帧的波形信号对应的所述目标对象语音。
18.在一些实施例，所述提取模块，用于提取所述实时语音流中的音频特征向量；对所述音频特征向量进行重建，获取所述语音波形。
19.在一些实施例，所述提取模块，用于将所述音频特征向量与基函数相乘，得到所述语音波形。
20.在一些实施例，所述提取模块，用于对所述实时语音流进行分离，得到各语音帧向量；将所述各语音帧向量与所述音频特征向量进行运算，得到源特征向量；将所述源特征向量与所述基函数相乘，得到所述各语音帧的波形信号。
21.第三方面，本技术的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。
22.第四方面，本技术的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。
23.第五方面，本技术的一些实施例提供一种计算机程序产品，所述的计算机程序产品包括计算机程序，其中，所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。
附图说明
24.为了更清楚地说明本技术的一些实施例的技术方案，下面将对本技术的一些实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
25.图1为本技术的一些实施例提供的一种语音分离的系统图；
26.图2为本技术的一些实施例提供的语音分离识别的方法流程图之一；
27.图3为本技术的一些实施例提供的语音分离结构组成示意图；
28.图4为本技术的一些实施例提供的语音分离识别的方法流程图之二；
29.图5为本技术的一些实施例提供的语音分离识别的装置组成框图；
30.图6为本技术的一些实施例提供的一种电子设备示意图。
具体实施方式
31.下面将结合本技术的一些实施例中的附图，对本技术的一些实施例中的技术方案进行描述。
32.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
33.相关技术中，智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的，具有行业通用性。智能客服不仅为企业提供了细粒度知识管理技术，还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段；同时还能够为企业提供精细化管理所需的统计分析信息。而智能客服中主要面临的挑战是自动进行语音识别，得到准确度较高的用户的语音数据。现有技术中通过模型的自适应方法，对输入的语音流进行全部识别得到用户的语音文本。但是，由于用户所处的外部环境复杂，因此用户的语音数据中可能会存在噪声干扰(例如，其他人声或环境噪声)。此时还是采用现有技术中模型自适应的方法对用户的语音数据进行识别，导致识别效率较低且无法保证识别准确率，降低用户体验。
34.鉴于此，本技术的一些实施例提供了一种语音分离识别的方法，通过对实时语音流进行提取得到目标对象语音，之后再对目标对象语音进行识别，得到目标对象的语音文本。本技术的一些实施例可以快速实现对语音流的分离得到目标对象的语音文本，效率较高且准确率较高，进而可以提升用户体验。
35.下面结合附图1示例性阐述本技术的一些实施例提供的语音分离的系统组成结构。
36.如图1所示，本技术的一些实施例提供了一种语音分离的系统，语音分离的系统包括：终端100和语音分离服务器200。用户300(作为目标对象的一个具体示例)可以通过终端100与语音分离服务器200进行语音通信。语音分离服务器200可以实时通过终端100接收到用户发出的语音流。语音分离服务器200首先对语音流进行提取得到用户语音，然后再对用户语音进行识别，最终得到用户300的语音文本。之后语音分离服务器200还可以基于用户300的语音文本回复相应的语音发送给终端100，终端100可以播报给用户300。
37.在本技术的一些实施例中，终端100可以是移动终端，也可以是非移动终端。例如，移动电话、ipad、智能通信手表或固定座机等等，本技术并不局限于此。
38.下面结合附图2示例性阐述本技术的一些实施例提供的由语音分离服务器200执行的语音分离的实现过程。
39.请参见附图2，图2为本技术的一些实施例提供的一种语音分离识别的方法流程图，该方法包括：
40.s210，提取实时语音流中的目标对象语音。
41.例如，在本技术的一些实施例，在asr(automatic speech recognition，自动语音识别技术)领域，由于用户300产生的实时语音流中很可能存在人声干扰或其他噪声干扰。语音分离服务器200在接收到实时语音流后，首先做的是将用户语音(作为目标对象语音的一个具体示例)进行提取出来，以便于后续的语音识别。与现有技术对噪声干扰进行过滤的方法不同的是，无论实时语音流中含有多少噪声干扰，本技术的一些实施例目的是提取出
用户语音，提升语音处理的效率。
42.在本技术的一些实施例中，s210可以包括：
43.s211，对所述实时语音流进行处理，得到语音波形，并获取所述实时语音流中的各语音帧的波形信号；s212，生成与所述语音波形和所述各语音帧的波形信号对应的所述目标对象语音。
44.例如，为了实现从多人声或者混合语音流(作为实时语音流的一个具体示例)中提取出用户语音，在本技术的一些实施例中，首先需要对实时语音流进行处理，得到用户语音波形(作为语音波形的一个具体示例)。之后还需要对实时语音流进行分帧处理，得到各语音帧的各帧波形信号。最终基于用户语音波形和各帧波形信号可以得到用户语音。
45.下面结合附图3示例性阐述s210的具体实现过程。其中，附图3为本技术的一些实施例提供的语音分离结构图。可以理解的是，语音分离结构部署在语音分离服务器200中，以实现语音分离的目的。
46.在本技术的一些实施例中，s211可以包括：提取所述实时语音流中的音频特征向量；对所述音频特征向量进行重建，获取所述语音波形。其中，将所述音频特征向量与基函数相乘，得到所述语音波形。
47.例如，在本技术的一些实施例，将多人声语音流310(作为实时语音流的一个具体示例)输入到编码器320中，其中编码器320可以是一个1-d的卷积层。通过将多人声语音流310输入至编码器320中可以实现对音频特征向量的提取和重建。
48.具体的，通过如下公式获取音频特征向量w＝h(xu
t
)，其中，x为多人声语音流310，u∈r
nxl
，其中n为语音向量的个数，l为每个语音向量对应的语音流长度(l为对输入的x进行划分得到的重叠段，重叠部分指的是x中有多少个不同的人声的部分)。h(
·
)是一个可选的非线性函数。
49.之后示例性的，利用解码器330对w进行处理，得到语音波形。具体的，解码器330使用一维转置卷积运算重新修改表示形式重建出波形。也就是通过如下公式获取重建后的一个语音向量的语音波形对应的用户语音流：其中，为重建后的一段长度为l的语音向量对应的用户语音流，v∈r
nxl
是解码器330的基函数。最后将每一段语音流长度为l的语音向量进行重建后得到的用户语音流进行重组，得到整段x对应的语音波形。
50.在本技术的另一些实施例中，输入的混合信号(作为实时语音流的一个具体示例)可以被分为长度为l的重叠段(例如，有个重叠段)，使用xk∈r
1xl
进行表示，k＝1，...，k表示段索引。编码器320通过1-d卷积运行将xk转为n维表示的w，其中，w∈r
1xn
。
51.在本技术的一些实施例中，s212可以包括：对所述实时语音流进行分离，得到各语音帧向量；将所述各语音帧向量与所述音频特征向量进行运算，得到源特征向量；将所述源特征向量与所述基函数相乘，得到所述各语音帧的波形信号。
52.例如，在本技术的一些实施例，利用分离器340通过估计c个向量掩码实现x中每帧的分离，得到各语音帧向量：mi∈rn×
l
，i＝1,2，...，c，c为x中含有的人声的人是数量，且mi∈[0，1]。将与w进行运算，得到相应的源表示(作为源特征向量的一个具体示例)：di＝w
⊙
mi。之后通过解码器330估计每个源的波形信号：最后生成与每个源的波形信号和语音波形相匹配的目标人声350(也就是用户语音)。
[0053]
s220，对所述目标对象语音进行识别，得到目标对象的语音文本。
[0054]
例如，在本技术的一些实施例，通过上述实施例得到用户语音之后，在利用相关的语音识别算法对用户语音进行文本识别，得到对应的语音文本。
[0055]
下面结合附图4示例性阐述本技术的一些实施例提供的语音分离的具体过程。
[0056]
请参见附图4，图4为本技术的一些实施例提供的一种语音分离识别的方法流程图。下面示例性阐述上述语音分离的具体过程。
[0057]
s410，获取实时语音流。
[0058]
例如，作为本技术的一个具体示例，假设获取到的用户的实时语音流为含有人声干扰的多人声语音流。多人声语音流被语音分离服务器200获取后，会输入到语音分离服务器200中的编码器320内。
[0059]
s420，提取所述实时语音流中的音频特征向量。
[0060]
例如，作为本技术的一个具体示例，编码器320利用卷积层对多人声语音流进行分为长度为l的语音向量并提取，得到音频特性向量。具体音频特性向量的获取可参照图2方法实施例，为避免重复在此不作赘述。
[0061]
s430，对音频特征向量进行重建，获取语音波形。
[0062]
例如，作为本技术的一个具体示例，解码器330使用一维转置卷积运算重新修改表示形式重建出波形，得到图2方法实施例中的相应的表示，为避免重复在此不作赘述。对每个长度为l的语音向量进行重建之后，进行重构段相加生成语音波形。
[0063]
s440，对实时语音流进行分离，得到各语音帧向量。
[0064]
例如，作为本技术的一个具体示例，分离器340通过估计多人声语音流中的人声数量实现每帧的分离。一个人对应一帧语音向量。
[0065]
s450，将各语音帧向量与音频特征向量进行运算，得到源特征向量。
[0066]
例如，作为本技术的一个具体示例，分离器340将各语音帧向量混合到音频特征向量上，得到相应的源的表示di。
[0067]
s460，将源特征向量与基函数相乘，得到各语音帧的波形信号。
[0068]
例如，作为本技术的一个具体示例，解码器330将每个源与基函数进行相乘，得到每个源的波形信号。具体公式可参照图2方法实施例，为避免重复在此不作赘述。
[0069]
s470，生成与语音波形和各语音帧的波形信号对应的目标对象语音。
[0070]
例如，作为本技术的一个具体示例，解码器330根据语音波形和每个源的波形信号生成相应的目标人声(作为目标对象语音的一个具体示例)。
[0071]
s480，对目标对象语音进行识别，得到目标对象的语音文本。
[0072]
例如，作为本技术的一个具体示例，语音分离服务器200利用语音识别算法将目标人声转换为语音文本的形式，以实现对目标人声进行语音识别的目的。
[0073]
通过上述本技术的一些实施例可知，本技术在实时的语音识别系统中，终端100可以通过网络传输实时语音流，语音分离服务器200首先通过分离实时语音流的方式提取目标人声，再将目标人声进行语音识别，整个过程简洁高效且可靠性较高，实用性较好。
[0074]
请参考图5，图5示出了本技术的一些实施例提供的语音分离识别的装置的组成框图。应理解，该语音分离识别的装置与上述方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该语音分离识别的装置的具体功能可以参见上文中的描述，为避免重复，此处
适当省略详细描述。
[0075]
图5的语音分离识别的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在语音分离识别的装置中的软件功能模块，该语音分离识别的装置包括：提取模块510，用于提取实时语音流中的目标对象语音；识别模块520，用于对所述目标对象语音进行识别，得到目标对象的语音文本。
[0076]
在本技术的一些实施例中，提取模块510，用于对所述实时语音流进行处理，得到语音波形，并获取所述实时语音流中的各语音帧的波形信号；生成与所述语音波形和所述各语音帧的波形信号对应的所述目标对象语音。
[0077]
在本技术的一些实施例中，提取模块510，用于提取所述实时语音流中的音频特征向量；对所述音频特征向量进行重建，获取所述语音波形。
[0078]
在本技术的一些实施例中，提取模块510，用于将所述音频特征向量与基函数相乘，得到所述语音波形。
[0079]
在本技术的一些实施例中，提取模块510，用于对所述实时语音流进行分离，得到各语音帧向量；将所述各语音帧向量与所述音频特征向量进行运算，得到源特征向量；将所述源特征向量与所述基函数相乘，得到所述各语音帧的波形信号。
[0080]
本技术的一些实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
[0081]
本技术的一些实施例还提供了一种计算机程序产品，所述的计算机程序产品包括计算机程序，其中，所述的计算机程序被处理器执行时可实现如上述实施例提供的上述方法中的任意实施例所对应方法的操作。
[0082]
如图6所示，本技术的一些实施例提供一种电子设备600，该电子设备600包括：存储器610、处理器620以及存储在存储器610上并可在处理器620上运行的计算机程序，其中，处理器620通过总线630从存储器610读取程序并执行所述程序时可实现如上述任意实施例的方法。
[0083]
处理器620可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器620可以是微处理器。
[0084]
存储器610可以用于存储由处理器620执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本技术实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器620可以用于执行存储器610中的指令以实现上述所示的方法。存储器610包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。
[0085]
以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0086]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何
熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。
[0087]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

技术特征：

1.一种语音分离识别的方法，其特征在于，包括：提取实时语音流中的目标对象语音；对所述目标对象语音进行识别，得到目标对象的语音文本。2.如权利要求1所述的方法，其特征在于，所述提取实时语音流中的目标对象语音，包括：对所述实时语音流进行处理，得到语音波形，并获取所述实时语音流中的各语音帧的波形信号；生成与所述语音波形和所述各语音帧的波形信号对应的所述目标对象语音。3.如权利要求2所述的方法，其特征在于，所述对所述实时语音流进行处理，得到语音波形，包括：提取所述实时语音流中的音频特征向量；对所述音频特征向量进行重建，获取所述语音波形。4.如权利要求3所述的方法，其特征在于，所述对所述音频特征向量进行重建，获取所述语音波形，包括：将所述音频特征向量与基函数相乘，得到所述语音波形。5.如权利要求4所述的方法，其特征在于，所述获取所述实时语音流中的各语音帧的波形信号，包括：对所述实时语音流进行分离，得到各语音帧向量；将所述各语音帧向量与所述音频特征向量进行运算，得到源特征向量；将所述源特征向量与所述基函数相乘，得到所述各语音帧的波形信号。6.一种语音分离识别的装置，其特征在于，包括：提取模块，用于提取实时语音流中的目标对象语音；识别模块，用于对所述目标对象语音进行识别，得到目标对象的语音文本。7.如权利要求6所述的装置，其特征在于，所述提取模块，用于：对所述实时语音流进行处理，得到语音波形，并获取所述实时语音流中的各语音帧的波形信号；生成与所述语音波形和所述各语音帧的波形信号对应的所述目标对象语音。8.如权利要求7所述的装置，其特征在于，所述提取模块，用于：提取所述实时语音流中的音频特征向量；对所述音频特征向量进行重建，获取所述语音波形。9.如权利要求8所述的装置，其特征在于，所述提取模块，用于：将所述音频特征向量与基函数相乘，得到所述语音波形。10.如权利要求9所述的装置，其特征在于，所述提取模块，用于：对所述实时语音流进行分离，得到各语音帧向量；将所述各语音帧向量与所述音频特征向量进行运算，得到源特征向量；将所述源特征向量与所述基函数相乘，得到所述各语音帧的波形信号。11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中，所述计算机程序被处理器运行时执行如权利要求1-5中任意一项权利要求所述的方法。
12.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，其中，所述计算机程序被所述处理器运行时执行如权利要求1-5中任意一项权利要求所述的方法。

技术总结

本申请的一些实施例提供了一种语音分离识别的方法、装置、存储介质及电子设备，该方法包括：提取实时语音流中的目标对象语音；对所述目标对象语音进行识别，得到目标对象的语音文本。本申请的一些实施例可以实现从实时语音流中分离出目标对象的语音的效果。流中分离出目标对象的语音的效果。流中分离出目标对象的语音的效果。