一种语音识别回声消除方法、系统、设备及存储介质与流程

1.本发明涉及音频处理技术领域，尤其涉及一种语音识别回声消除方法、系统、设备及存储介质。

背景技术：

2.在空旷的室内环境中使用麦克风等扬声设备进行录音时，声音会因在密闭空间内反射造成回声，回声被麦克风录入后同样经麦克风进行放大，导致录音人员发出说出的话语无法听清。而现有的回声消除大部分都是通过硬件电路实现的，即通过特定的回声消除电路将回声信号进行消除，但是电路设计过程相对复杂；且部分回声消除电路已经预先内置在麦克风电路中，无法应用在现有无回声消除功能的麦克风中，导致现有的现场收音设备无法实现回声消除功能。

技术实现要素：

3.为了克服现有技术的不足，本发明的目的之一在于提供一种语音识别回声消除方法，通过软件方法消除回声，代替硬件电路研发，提高回声处理灵活性。
4.本发明的目的之二在于提供一种语音识别回声消除系统。
5.本发明的目的之三在于提供一种电子设备。
6.本发明的目的之四在于提供一种计算机可读存储介质。
7.本发明的目的之一采用如下技术方案实现：一种语音识别回声消除方法，包括：获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。
8.进一步地，获取音频数据时，还包括：识别收录所述音频数据的麦克风设备并将其标记为目标设备，将所述目标设备预先绑定的声纹信息作为所述主声纹。
9.进一步地，对每个文字标记接收时间戳后还包括：根据所述接收时间戳的时间顺序将每个文字依次排列并显示在实时转换界面的每个横向排列的主位点中；其中每个所述接收时间戳对应有唯一的主位点；当存在多个文字的所述接收时间戳相同时，则将所述接收时间戳相同的文字纵向排列并显示在该接收时间戳所对应的位点上形成次位点，直至所有语音信息转换并显示完毕。
10.进一步地，判断是否满足回声条件的方法前：对所述主位点的文字进行词组分析，若词组分析出现异常则将所述主位点与其对
应的所述次位点进行文字替换，直至所述主位点上的文字词组分析正常。
11.进一步地，还包括：接收修改指令，根据所述修改指令将所述主位点与其对应的所述次位点进行文字替换，或根据所述修改指令对所述主位点和/或所述次位点上的文字替换为指定文字。
12.进一步地，判断是否满足回声条件的方法为：对排列在所述主位点的文字以及排列在所述次位点的文字进行比对，若排列在所述次位点的文字与排列在所述主位点的文字比对相似度达到预设值以上，则将比对结果达标的所述主位点的文字标记为主目标文字，将比对结果达标的所述次位点的文字标记为次目标文字；并判断所述主目标文字以及所述次目标文字的接收时间戳是否在预设时间内，若是则满足所述回声条件；若所述次位点的文字与所述主位点的文字比对相似度未达到预设值或所述主目标文字以及所述次目标文字的接收时间戳超过预设时间，则不满足所述回声条件。
13.进一步地，若满足回声条件则对所述主声纹的文字信息进行提取的方法为：若满足所述回声条件，则将排列在所述次位点上的所述次目标文字及其对应的语音进行删除，并提取排列在所述主位点上的文字添加至播放文件中，对所述播放文件中的文字进行朗读和播放。
14.本发明的目的之二采用如下技术方案实现：一种语音识别回声消除系统，执行如上述的语音识别回声消除方法，所述系统包括：音频转换模块，用于获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；回声消除模块，用于根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。
15.本发明的目的之三采用如下技术方案实现：一种电子设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的语音识别回声消除方法。
16.本发明的目的之四采用如下技术方案实现：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的语音识别回声消除方法。
17.相比现有技术，本发明的有益效果在于：本发明将语音转换为文字后，通过识别文字信息以及文字所对应的接收时间来判断接收到的音频数据中是否存在回声，若在预设时间内出现重复的文字则可判定其文字为回声所对应的文字，则可将其剔除；本发明通过软件处理即可在任意终端实现回声消除的目的，代替传统通过硬件电路消除回声的方式，可提高应用灵活性，无需对现有设备电路进行改造，减少硬件电路开发成本。
附图说明
18.图1为本发明语音识别回声消除方法的流程示意图；图2为本发明可视化界面中位点分布示意图；图3为本发明语音识别回声消除系统的模块示意图。
具体实施方式
19.下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
20.实施例一本实施例提供一种语音识别回声消除方法，该方法使用前，需要配置对应的多个麦克风设备以及至少一台终端设备，多个麦克风设备用于收录人员说话时的音频数据；同时，每个录音人员可预先录入其声纹信息，在进行会议或演讲前，管理人员将录音人员的声纹信息与录音人员所在位置上的麦克风设备进行绑定，并将录音人员的声纹信息标记为主声纹；而其余未说话的人员所对应的麦克风设备则保持静音或关闭状态，减少杂声。而终端设备配置有可视化界面，管理人员可通过可视化界面对每个麦克风设备的开关状态进行控制，同时还可在可视化界面中实时查看录音人员语音内容所对应的文字信息，管理人员还可对文字信息进行编辑后播放，借助终端设备的数据处理能力实现回声消除。
21.参考图1所示，所述方法具体包括如下步骤：步骤s1：获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；当有任一录音人员发声时，录音人员利用其预先绑定的麦克风设备收录其发声时的音频数据；当检测到有音频数据时，则识别收录所述音频数据的麦克风设备并将其标记为目标设备，将所述目标设备预先绑定的声纹信息作为所述主声纹。
22.其后识别音频数据中的各音源的声纹特征，提取出音频数据中主声纹所对应的语音信息并将其转换为文字，同时根据每个文字所对应的音频接收时间为每个文字标记上其对应的接收时间戳，将接收时间戳作为回声判定的依据之一。
23.在本实施例可视化界面中存在实时转换界面，实时转换界面中存在矩阵式排列的多个位点，即包含多行横向排列的位点以及多列纵向排列的位点；并按照从上到下、从左到右的顺序对每个位点进行编号。
24.当将语音信息转换为文字时，按照每个文字的接收时间戳的时间顺序将文字依次排列并显示在各位点上，并将写入文字的各位点标记为主位点；其中每个所述接收时间戳都对应有唯一的主位点。如图2所示，图2中a所在行的位点为主位点。
25.当转换过程中同一接收时间戳存在多个文字时，则将接收时间戳相同的其中一文字写入该接收时间戳所对应的主位点上，而接收时间戳相同的其他文字则写入所述主位点所对应的次位点上。其中，每个所述主位点都可存在其对应的次位点，而所述次位点纵向分布在其对应的所述主位点一侧。如图2所示，图2中b则为主位点a1的次位点。
26.每一句录入的音频都进行上述文字转换以及位点写入，直至主声纹所对应的所有语音信息均转换并显示完毕。
27.步骤s2：根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。
28.在判断是否满足回声条件的方法前：对排列在所述主位点上的所有文字进行词组分析，其中词组分析可以是对文字进行词语划分后，将划分后的词语与词语库中的现有词组进行比对，若词组库中存在相同的词组，则可判断划分后的词语正常，若词组库中不到相同的词组，则可判定划分后的词语异常。
29.若词组分析出现异常则将出现异常的所述主位点标记为红，并将标记为红的所述主位点与其对应的所述次位点进行文字替换，再对替换后的文字再次进行词语划分和词组判断，直至所述主位点上的文字词组分析正常。当词组分析正常时，所述主位点的颜可切换回绿。
30.与此同时，还可管理人员还可手动修改每个所述主位点的文字内容，即管理人员通过可视化界面生成修改指令，系统则可根据所述修改指令将所述主位点与其对应的所述次位点进行文字替换，或根据所述修改指令对所述主位点和/或所述次位点上的文字替换为指定文字。
31.经过上述分析和判断后，则需根据主位点上的文字判断是否满足回声条件，其方法为：对排列在所述主位点的文字以及排列在所述次位点的文字进行比对，若排列在所述次位点的文字与排列在所述主位点的文字比对相似度达到预设值或以上，则将比对结果达标的所述主位点的文字标记为主目标文字，将比对结果达标的所述次位点的文字标记为次目标文字；并判断所述主目标文字以及所述次目标文字的接收时间戳是否在预设时间内，若是则满足所述回声条件。
32.若所述次位点的文字与所述主位点的文字比对相似度未达到预设值，则意味着接收到的重复声音并非是回声；又或者所述主目标文字以及所述次目标文字的接收时间戳超过预设时间，则代表着接收到的重复声音不符合回声时间规律，若存在上述任一情况，则不满足所述回声条件。
33.其中，预设时间可结合室内环境的大小以及声音回传速度进行设定，在此不对其具体数值进行限定。
34.若满足回声条件时，则对所述主声纹的文字信息进行提取的方法为：若满足所述回声条件，则将排列在所述次位点上的所述次目标文字及其对应的语音进行删除，并按照主位点顺序依次提取排列在所述主位点上的文字添加至播放文件中，对所述播放文件中的文字进行朗读和播放。若一致不满足所述回声条件，则代表当前音频不存在回声，则可将音频数据直接进行播放。
35.实施例二本实施例提供一种语音识别回声消除系统，执行如实施例一所述的语音识别回声消除方法，如图3所示，所述系统包括：音频转换模块，用于获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；
回声消除模块，用于根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。
36.本发明将语音转换为文字后，通过识别文字信息以及文字所对应的接收时间来判断接收到的音频数据中是否存在回声，若在预设时间内出现重复的文字则可判定其文字为回声所对应的文字，则可将其剔除；本发明通过软件处理即可在任意终端实现回声消除的目的，代替传统通过硬件电路消除回声的方式，可提高应用灵活性，无需对现有设备电路进行改造，减少硬件电路开发成本。
37.在一些实施例中，还提供一种电子设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一中的语音识别回声消除方法。
38.在一些实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的语音识别回声消除方法。
39.上述系统、设备及存储介质与前述实施例中的方法是基于同一发明构思下的多个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施例中的系统、设备及存储介质的结构及实施过程，为了说明书的简洁，在此就不再赘述。
40.上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

技术特征：

1.一种语音识别回声消除方法，其特征在于，包括：获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。2.根据权利要求1所述的语音识别回声消除方法，其特征在于，获取音频数据时，还包括：识别收录所述音频数据的麦克风设备并将其标记为目标设备，将所述目标设备预先绑定的声纹信息作为所述主声纹。3.根据权利要求1所述的语音识别回声消除方法，其特征在于，对每个文字标记接收时间戳后还包括：根据所述接收时间戳的时间顺序将每个文字依次排列并显示在实时转换界面的每个横向排列的主位点中；其中每个所述接收时间戳对应有唯一的主位点；当存在多个文字的所述接收时间戳相同时，则将所述接收时间戳相同的文字纵向排列并显示在该接收时间戳所对应的位点上形成次位点，直至所有语音信息转换并显示完毕。4.根据权利要求3所述的语音识别回声消除方法，其特征在于，判断是否满足回声条件的方法前：对所述主位点的文字进行词组分析，若词组分析出现异常则将所述主位点与其对应的所述次位点进行文字替换，直至所述主位点上的文字词组分析正常。5.根据权利要求3所述的语音识别回声消除方法，其特征在于，还包括：接收修改指令，根据所述修改指令将所述主位点与其对应的所述次位点进行文字替换，或根据所述修改指令对所述主位点和/或所述次位点上的文字替换为指定文字。6.根据权利要求4或5所述的语音识别回声消除方法，其特征在于，判断是否满足回声条件的方法为：对排列在所述主位点的文字以及排列在所述次位点的文字进行比对，若排列在所述次位点的文字与排列在所述主位点的文字比对相似度达到预设值以上，则将比对结果达标的所述主位点的文字标记为主目标文字，将比对结果达标的所述次位点的文字标记为次目标文字；并判断所述主目标文字以及所述次目标文字的接收时间戳是否在预设时间内，若是则满足所述回声条件；若所述次位点的文字与所述主位点的文字比对相似度未达到预设值或所述主目标文字以及所述次目标文字的接收时间戳超过预设时间，则不满足所述回声条件。7.根据权利要求6所述的语音识别回声消除方法，其特征在于，若满足回声条件则对所述主声纹的文字信息进行提取的方法为：若满足所述回声条件，则将排列在所述次位点上的所述次目标文字，并提取排列在所述主位点上的文字添加至播放文件中，对所述播放文件中的文字进行朗读和播放。8.一种语音识别回声消除系统，其特征在于，执行如权利要求1~7任一所述的语音识别回声消除方法，所述系统包括：音频转换模块，用于获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；
回声消除模块，用于根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。9.一种电子设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1~7任一所述的语音识别回声消除方法。10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现权利要求1~7任一所述的语音识别回声消除方法。

技术总结

本发明公开了一种语音识别回声消除方法、系统、设备及存储介质，所述方法包括：获取音频数据，识别并提取出音频数据中主声纹所对应的语音信息并将其转换为文字，并对每个文字标记其对应的接收时间戳；根据所述主声纹所对应的文字信息及其时间戳判断所述语音信息是否满足回声条件，若满足回声条件则对所述主声纹的文字信息进行提取，并对提取后的文字信息进行播放。本发明通过软件处理即可在任意终端实现回声消除的目的，代替传统通过硬件电路消除回声的方式，可提高应用灵活性，无需对现有设备电路进行改造，减少硬件电路开发成本。减少硬件电路开发成本。减少硬件电路开发成本。