一种通过特征转换实现准确传输的语音识别系统及方法与流程

1.本发明涉及通信技术领域，尤其涉及一种通过特征转换实现准确传输的语音识别系统及方法。

背景技术：

2.随着移动通信技术的迅猛发展，凭借着强大的移动通信网络和高性能通话终端，移动语音通信逐步取代固话通信成为主流语音通信方式，人们能够随时随地进行语音通信。但随之而来的，是通话者不可避免的在商场、车站、餐厅等噪声环境包围的条件下进行语音通信，环境噪声大幅度降低了语音的听觉清晰度和感知可懂度。
3.在噪声环境中的语音通信过程可以拆分为说话过程和听音过程；在说话过程中，说话人向语音通信设备说出一段语音信号，设备麦克风采集语音信号，同时也采集到了环境噪声信号；在听音过程中，语音通信设备播放语音信号，人耳听到播放的语音信号，同时也听到了环境噪声信号。现有技术中心通常使用时序马尔可夫过程，用于建模状态特征在时间上的变化过程和相关性建模，然后通过实际情况，映射到潜在状态的模型,即通过可观察序列来推断隐藏状态的变化。例如，一种在中国专利文献上公开的“一种基于声学特征转换的语音清晰度增强方法”，其公告号：cn110085245a，公开了训练阶段，训练具有特征转换能力的映射模型，将语音信号逐帧转换为具备抗噪特性的语音信号提升语音清晰度，需要提前训练目标说话习惯的模型，实用性较差。

技术实现要素：

4.为此，本发明提供一种通过特征转换实现准确传输的语音识别系统及方法，能够对嘈杂环境中声音音量小的目标音源进行准确拾音和识别，提高噪音过滤效果，避免目标音源的声音信息不全和重复的问题。
5.为了实现上述目的，本发明提供如下技术方案：
6.一种通过特征转换实现准确传输的语音识别系统，包括：拾音模块，与拾音模块相连的处理模块，与处理模块相连的识别模块。能够自适应的对目标声源所处环境作出参数调整，从而减少语音识别过程中对于目标声源音量突然变化导致装置来不及调试产生的拾音不准确不完整的缺点；同时能够自适应的对噪声作出过滤动作，通过拾音模块分别集目标声源声音信息与非目标声源声音信息，能够防止突然发生的多人参与说话造成的主要目标声源声音信息拾音受阻，提高了试音过程的可靠性。
7.作为优选的，拾音模块包括一个或多个拾音器。通过多个拾音器联同采集声音信息，简单易用，避免复杂装置的安装调试等过程，大大提高了本系统的泛用性，尤其对于一些不适合采用复杂装置录音的场景，提高了准确拾音的效果。
8.作为优选的，拾音器为多通道拾音装置。通过多通道拾音器能够同时采集多组声音信息，提高了语音识别过程中处理转换的效率，对于复杂拾音条件下拾音起到增强拾音效果的作用，避免拾音过程受到影响造成的拾音缺失的缺点。
9.作为优选的，处理模块包括后增强模块，用于减少目标音源的噪音。通过分析识别噪声并对其进行滤除来增加拾音信息的准确性，提高语音识别效率与准确性。减少了现场环境的限制,普遍适用于不同的现场环境配置,避免受如环境嘈杂、麦克风位置、麦克风灵敏度和不均匀的环境吸音材料等影响。
10.作为优选的，处理模块包括前增强模块，用于增强目标音源的拾音效果。通过增加拾音过程中的增益倍数来提高拾音效果，同时自适应的对增益倍数进行调整，以适用不同环境下的拾音过程，每个通道的音源都将根据自身特征实时确定独有的增益参数,增益后的音源在感官上具有清晰稳定的收听效果,不存在无法听清和爆破音等情况,在现实应用中也对识别增效、音源留底起到了显著作用。
11.作为优选的，处理模块还包括与前增强模块和后增强模块相连的特征转换模块。能够将拾音器采集到的目标声源信息进行特征数据转换，从而对目标声源信息进行优化，对于不同环境下的目标声源拾音自适应采取不同拾音参数，提高拾音的泛用性。
12.作为优选的，语音识别模块包括识别判断模块，与识别判断模块相连的存储模块。能够对经过处理的拾音数据进行分辨存储，并进行语音识别。
13.一种通过特征转换实现准确传输的语音识别方法，包括如下步骤：
14.s1、拾音；
15.s2、特征转换并增强拾音；包括前增强与后增强两部分，前增强中，取到每个讲话人实时的语音数字信号，根据提供的预设的特征量化和分析，确定原信号的音量指标，采用基于前馈记忆网络的时序建模，输出每一帧声音信号的增益参数，并进行增益和输出；后增强中，首先将所有拾音器在当前时间桢采集到的声音信号汇集，将语音信号转换为数量与个数的矩阵，提取每个通道的多个窗口声学数字信号，并进行融合表征，通过量化特征，建立分类模型对噪音进行判定；对各通道的特征数据进行相似度计算，对各通道自身进行时序上的建模；
16.s3、语音识别。
17.本发明的实施方式具有如下优点：
18.(1)极大的解决了声音小的音源丢失和重复的问题，有效提升了语音识别效果，对噪音进行有效过滤，提高了拾音器的拾音效率与可靠性；(2)确保语音识别过程中目标声源的声音被采集到，避免了需要提前进行调试训练模型的过程，大大提高了拾音过程的可靠性，减少了传统的调试成本，保障实录过程；(3)处理过程不受人员现场环境对设备的影响，通过有效的特征转换模型，提高了语音传输的准确性，提高了语音识别的效率；(4)对于较为复杂的环境影响，本系统提供简单易用的调整参数，能快速及时作出对应调整，调整过程简单，便于提升语音识别效果。
附图说明
19.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。
20.本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供
熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达到的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。
21.图1是本发明的系统框图。
22.图2是本发明的方法流程图。
23.图中：
24.1-拾音模块；2-处理模块；3-识别模块。
具体实施方式
25.以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的认识可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.如图1所示，在一个较佳的实施例中，本发明公开了一种通过特征转换实现准确传输的语音识别系统，包括：拾音模块，与拾音模块相连的处理模块，与处理模块相连的识别模块。能够自适应的对目标声源所处环境作出参数调整，从而减少语音识别过程中对于目标声源音量突然变化导致装置来不及调试产生的拾音不准确不完整的缺点；同时能够自适应的对噪声作出过滤动作，通过拾音模块分别集目标声源声音信息与非目标声源声音信息，能够防止突然发生的多人参与说话造成的主要目标声源声音信息拾音受阻，提高了试音过程的可靠性。
27.拾音模块包括一个或多个拾音器。通过多个拾音器联同采集声音信息，简单易用，避免复杂装置的安装调试等过程，大大提高了本系统的泛用性，尤其对于一些不适合采用复杂装置录音的场景，提高了准确拾音的效果。
28.拾音器为多通道拾音装置。通过多通道拾音器能够同时采集多组声音信息，提高了语音识别过程中处理转换的效率，对于复杂拾音条件下拾音起到增强拾音效果的作用，避免拾音过程受到影响造成的拾音缺失的缺点。
29.处理模块包括后增强模块，用于减少目标音源的噪音。通过分析识别噪声并对其进行滤除来增加拾音信息的准确性，提高语音识别效率与准确性。减少了现场环境的限制,普遍适用于不同的现场环境配置,避免受如环境嘈杂、麦克风位置、麦克风灵敏度和不均匀的环境吸音材料等影响。
30.处理模块包括前增强模块，用于增强目标音源的拾音效果。通过增加拾音过程中的增益倍数来提高拾音效果，同时自适应的对增益倍数进行调整，以适用不同环境下的拾音过程，每个通道的音源都将根据自身特征实时确定独有的增益参数,增益后的音源在感官上具有清晰稳定的收听效果,不存在无法听清和爆破音等情况,在现实应用中也对识别增效、音源留底起到了显著作用。
31.处理模块还包括与前增强模块和后增强模块相连的特征转换模块。能够将拾音器采集到的目标声源信息进行特征数据转换，从而对目标声源信息进行优化，对于不同环境下的目标声源拾音自适应采取不同拾音参数，提高拾音的泛用性。
32.语音识别模块包括识别判断模块，与识别判断模块相连的存储模块。能够对经过
处理的拾音数据进行分辨存储，并进行语音识别。
33.一种通过特征转换实现准确传输的语音识别方法，包括如下步骤：
34.s1、拾音；
35.s2、特征转换并增强拾音；包括前增强与后增强两部分，前增强中，取到每个讲话人实时的语音数字信号，当前桢采集到的声学数字信号人实时的语音数字信号，当前桢采集到的声学数字信号除词之外，还需k帧该发言人的历史桢信号共k+1帧信号通过前馈记忆网络,网络经过多层前向神经网络和记忆网络,输出长度为h的表征局部声学信息特征的浮点数向量和维度为h的表征历史声学信息特征的浮点数向量二者加权激活后输出一个浮点数p＝relu(w
lhl
+wghg+b),其中relu是一种激活函数，w、b是训练好的参数，如p＝0.5，则l
out
＝0.5
·
l
in
，然后将新参数输入到拾音模块更改拾音策略，从而将目标音源声音清晰稳定的拾取，提高了后续识别效率、音源留底的清晰度；然后拾音采集到的信息进入后增强模块，后增强中，将所有拾音器在当前时间桢采集到的声音信号汇集，并交由后续方法分析，假设有4个目标音源，在第t时间帧,一桢的语音信号有4000个数，则该模块输出的数据是是一个4
×
4000维的矩阵，每一行代表在该时间帧某拾音器采集到的数字信号，对矩阵进行特征转换，对于某个通道的数据其共有4000个数，取窗口大小为200，窗口总数为20，则将获得维度为20
×
200的窗口数据，该数据再通过特征融合，最后表达为一个长度为512的矢量在对所有通道进行如上操作后，该模块将输出维度为4
×
512的特征数据，对a)步骤获取到的原始数字信号入手，分别建立功率指标判定，引入量化特征，建立了分类模型进行判定，对某通道的声学数字信号，首先计算其功率，如再对特征数据经过分类模型，输出其为噪音音源的概率若二者有其一超过给定阈值，则判定该通道为环境噪音音源，对各个声音信号进行相似度计算，对相似度较高的音源信息进行时序排列对齐，将对齐后延后的声源信息滤除，例如车内四个监控器，对特征数据两两进行相似度计算，若第2监控器、第3监控器、第4监控器的相似度较高,s
2,3
＝80％,s
2,4
＝85％,s
3,4
＝73％，即第2监控器和第3监控器有80％是相似的，第2监控器和第4监控器有85％是相似的，第3监控器和第4监控器有73％是相似的，然后对3个监控器的原始采集到的声学数字信号进行时序对齐，对齐的过程是计算相似通道对之间相似的部分发生在哪些时间段上，并取概率最大的对齐路径，假设对齐后第3监控器和第4监控器均延后于第2监控器，则将第3监控器和第4监控器中该音源信息滤除，保留第2监控器的该音源信息；此外，还可以对各监控器进行时序上的建模,即取每个监控器在当前时间的特征和历史时间帧上的特征进行异常检测，识别出监控器突然采集声音的过程，并计算该过程是同一音源重复的概率，在该时间桢上的特征数据为512维的取k桢历史特征数据对该k+1帧的特征进行时序上的前馈记忆网络建模,结果将输出一个概率,表示综合历史k桢的数据模式来看,发生串音的概率，如p＝0.87，高于阈值
则将该声音信号额外标记并输出，低于阈值则正常输出，从而对不同接收到的统一音源的信息进行分类，避免产生重复音源信息，避免源通过声音的衍射、反射等过程造成的收音嘈杂；
36.s3、语音识别。
37.虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

技术特征：

1.一种通过特征转换实现准确传输的语音识别系统，其特征在于，包括：拾音模块，与所述拾音模块相连的处理模块，与所述处理模块相连的识别模块。2.根据权利要求1所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，所述拾音模块包括一个或多个拾音器。3.根据权利要求2所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，所述拾音器为多通道拾音装置。4.根据权利要求1所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，所述处理模块包括后增强模块，用于减少目标音源的噪音。5.根据权利要求1或4所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，所述处理模块包括前增强模块，用于增强目标音源的拾音效果。6.根据权利要求5所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，所述处理模块还包括与前增强模块和后增强模块相连的特征转换模块。7.根据权利要求1所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，所述语音识别模块包括识别判断模块，与识别判断模块相连的存储模块。8.一种通过特征转换实现准确传输的语音识别方法，适用于如权利要求1至7所述的一种通过特征转换实现准确传输的语音识别系统，其特征在于，包括如下步骤：s1、拾音；s2、特征转换并增强拾音；s3、语音识别。

技术总结

本发明公开了一种通过特征转换实现准确传输的语音识别系统，其特征在于，包括：拾音模块，与所述拾音模块相连的处理模块，与所述处理模块相连的识别模块；极大的解决了声音小的音源丢失和重复的问题，有效提升了语音识别效果，对噪音进行有效过滤，提高了拾音器的拾音效率与可靠性；确保语音识别过程中目标声源的声音被采集到，避免了需要提前进行调试训练模型的过程，大大提高了拾音过程的可靠性，减少了传统的调试成本，保障实录过程；处理过程不受人员现场环境对设备的影响，通过有效的特征转换模型，提高了语音传输的准确性，提高了语音识别的效率。音识别的效率。音识别的效率。