一种实时语音分离语音转写的方法与流程

1.本发明涉及计算机技术领域，具体涉及一种实时语音分离语音转写的方法。

背景技术：

2.在类似试乘试驾、房产销售等移动场景中，需要在复杂多变的噪声场景中对双方的对话进行有效地记录和区分。
3.现有的智能佩戴拾音产品，只能对佩戴者固定方向的声音产生具有指向性的拾音效果，而无法对远场的说话人进行准确定位，因此无法应用于多人、同时、移动讲话的场景中。

技术实现要素：

4.本发明提供一种实时语音分离语音转写的方法，通过将麦克风阵列内置在智能佩戴器件上，实时定位并判断出不同方向的多个人声，并实时按照不同角说话人输出对应的说话文本，从而满足设备能有效应用于多人、同时、移动讲话的多种不同场景。
5.为了达到上述目的，本发明提供如下技术方案：一种实时语音分离语音转写的方法，其包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角匹配话术。
6.优选的，所述硬件采集模块为佩戴在人身上的麦克风拾音器，所述硬件采集模块包含电路硬件拾音模组，拾音模组中的麦克风数量为两个或多个；所述麦克风的数量被描述为mic_num，并通过mic_num路麦克风构成麦克风阵列，用于将空气声转为模拟电信号，经由模拟数字转换器后转换为mic_num路采样率为16khz的数字信号。
7.优选的，所述空间语音角分离模块由doa声源定位，beamformer波束成形，spatial vad空间语音检测，以及post processor后处理时域分离器构成。
8.优选的，所述doa声源定位根据特异型的所述麦克风阵列的拓扑结构，实时检测说话人水平角和俯仰角，由预定说话人方向范围输出目标准确doa方向估值至beamformer。
9.优选的，所述beamformer波束成形，使用固定方向的波束成形器，分别输出mic_num个目标说话方向的空间滤波抑制后的语音信号。
10.优选的，所述spatial vad空间语音检测，使用空间音频特征用于对存在的语音进行检测，确定目标方向的说话人身份。
11.优选的，所述post processor后处理时域分离器，用于估计语音特征，对分离的语音信号进一步消除残留干扰。
12.优选的，语音识别模块用于将语音分离模块输出的单说话人语音转写为语音识别文本。
13.优选的，所述话术匹配模块将所述语音识别文本导入提前配置的商业话术内容
中，对当前的语音识别文本内容进行模型预测，判断角对话类型。
14.本发明有益效果为：仅需配置角方向，便可实时有效将多人对话按照分离结果，进行实时语音转写。同时还可有效降低环境噪声和嘈杂人声的干扰，并有效地分离抢插话语境，对重叠的语音分别进行语音转文本。从而实现对佩戴者话术有效性进行分析，并分析其他方向说话人话术可用信息。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1为本发明语音转写方法流程图；
17.图2为本发明语音识别模块工作流程示意图。
具体实施方式
18.下面将结合本发明的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
19.根据图1所示，一种实时语音分离语音转写的方法，其包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；具体的，语音识别模块将语音分离模块输出的单说话人语音转写为语音识别文本。通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角匹配话术。具体的，所述话术匹配模块将所述语音识别文本导入提前配置的商业话术内容中，对当前的语音识别文本内容进行模型预测，判断角对话类型。
20.上述设置中，佩戴者将设备佩戴到身上，其中设备通过软件实现角方向的配置，而设备结构则可以是带有阵列麦克风的录音机等，从而能实时有效将多人对话按照分离结果，进行实时语音转写。同时还可有效降低环境噪声和嘈杂人声的干扰，并有效地分离抢插话语境，对重叠的语音分别进行语音转文本。从而实现对佩戴者话术有效性进行分析，并分析其他方向说话人话术可用信息，比如采访记者佩戴多通道麦克风拾音设备，该设备可以有效录音并通过软件算法将采访对话分为“采访者”和“受访者”两个身份的语音波形，通过这两路语音波形转为文本，进行对话分析。
21.其中，所述硬件采集模块为佩戴在人身上的麦克风拾音器，所述硬件采集模块包含电路硬件拾音模组，拾音模组中的麦克风数量为两个或多个；所述麦克风的数量被描述为mic_num，并通过mic_num路麦克风构成麦克风阵列，用于将空气声转为模拟电信号，经由模拟数字转换器后转换为mic_num路采样率为16khz的数字信号。
22.另外，空间语音角分离模块由doa声源定位，beamformer波束成形，spatial vad空间语音检测，以及post processor后处理时域分离器构成。
23.所述doa声源定位根据特异型的所述麦克风阵列的拓扑结构，实时检测说话人水平角和俯仰角，由佩戴者说话的doa方向估值计算beamformer。
24.所述beamformer波束成形，使用固定方向的波束成形器，分别输出mic_num个目标说话方向的空间滤波抑制后的语音信号。
25.所述spatial vad空间语音检测，使用空间音频特征用于对存在的语音进行检测，确定目标方向的说话人身份。
26.所述post processor后处理时域分离器，用于估计语音特征，对分离的语音信号进一步消除残留干扰。
27.在实际应用中，例如如使用doa获取的角度为佩戴者180度方向，然后通过beamformer滤除180度以外方向上的杂音，同时可以利用spatial vad判断得到的音频是不是“佩戴者”发出的，如果是的话，就利用post processor再进一步把残留的干扰(比如说噪声)消除掉。
28.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

技术特征：

1.一种实时语音分离语音转写的方法，其特征在于,包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角匹配话术。2.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述硬件采集模块为佩戴在人身上的麦克风拾音器，所述硬件采集模块包含电路硬件拾音模组，拾音模组中的麦克风数量为两个或多个；所述麦克风的数量被描述为mic_num，并通过mic_num路麦克风构成麦克风阵列，用于将空气声转为模拟电信号，经由模拟数字转换器后转换为mic_num路采样率为16khz的数字信号。3.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述空间语音角分离模块由doa声源定位，beamformer波束成形，spatial vad空间语音检测，以及post processor后处理时域分离器构成。4.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述doa声源定位根据特异型的所述麦克风阵列的拓扑结构，实时检测说话人水平角和俯仰角，由佩戴者说话的doa方向估值计算beamformer。5.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述beamformer波束成形，使用固定方向的波束成形器，分别输出mic_num个目标说话方向的空间滤波抑制后的语音信号。6.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述spatial vad空间语音检测，使用空间音频特征用于对存在的语音进行检测，确定目标方向的说话人身份。7.根据权利要求3所述的一种实时语音分离语音转写的方法，其特征在于：所述post processor后处理时域分离器，用于估计语音特征，对分离的语音信号进一步消除残留干扰。8.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：语音识别模块用于将语音分离模块输出的单说话人语音转写为语音识别文本。9.根据权利要求1所述的一种实时语音分离语音转写的方法，其特征在于：所述话术匹配模块将所述语音识别文本导入提前配置的商业话术内容中，对当前的语音识别文本内容进行模型预测，判断角对话类型。

技术总结

本发明涉及计算机技术领域，具体涉及一种实时语音分离语音转写的方法，其包括:通过硬件采集模块，获得多路麦克风高频域分辨率的数字信号；通过空间语音角分离模块得到相应的多说话人分离的输出语音信号；通过语音识别模块对所述输出语音信号进行转写，生成语音识别文本；通过话术匹配模块将实时转写多个说话人的语音转文字内容按照角匹配话术。本发明通过将麦克风阵列内置在智能佩戴器件上，实时定位并判断出不同方向的多个人声，并实时按照不同角说话人输出对应的说话文本，从而满足设备能有效应用于多人、同时、移动讲话的多种不同场景。同场景。同场景。