一种音频违禁词过滤方法、装置、电子设备及存储介质与流程

1.本发明涉及音频处理领域，尤其涉及一种音频违禁词过滤方法、装置、电子设备及存储介质。

背景技术：

2.现在抖音，快手，视频号等直播间，达人带货场景异常火热，是现在最热门的行业领域，不仅为直播平台，也为商家，达人带来丰厚的收益。但是直播平台对于达人的违规处罚也是异常严厉，直播中说出违禁词，可能面临封号的风险，给商家和达人都造成巨大损失。
3.现有的一种解决方案，现在直播间都会配有场控人员，配合达人进行直播，实时提醒达人表达的内容是否存在违禁内容。但是这种提醒存在滞后性，不符合真实需要。另外一种解决方案，就是一些场控复盘工具，可以识别违禁内容，并事后预警，避免下次直播再说违禁词。
4.不管是人为场控，还是场控复盘工具，都具有滞后性。

技术实现要素：

5.本发明提供了一种音频违禁词过滤方法、装置、电子设备及存储介质，可以将音频识别为文字，自动到违禁词，并根据坐标对完整音频流进行定位，替换违禁词后合成没有违禁词的音频，保持原声，原语气，原表达节奏地播放。
6.第一方面，本发明实施例提供了一种音频违禁词过滤方法，所述违禁词过滤方法包括：对采集到的实时音频数据进行识别，形成文本数据；识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音频坐标组；将所述正常音频坐标组对应的音频段做正常音频标识、将所述违禁词音频坐标组对应的音频段做异常音频标识；将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据。
7.可选地，所述对采集到的实时音频数据进行识别，形成文本数据包括：将所述音频数据分成若干个音频帧；对每一个所述音频帧进行识别，形成文字段；对所有所述音频帧的识别形成的所述文字段进行组合，形成文本数据。
8.可选地，对每一个所述音频帧进行识别，形成文字段，所述文字段包括若干个文字，包括：对每一个所述文字，记录所对应音频帧的坐标，并作标记。
9.可选地，所述识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音频坐标组包括：
对所述文本数据进行分词，得到一个个token，所述token包括若干个所述文字；将所述token与违禁词知识模型库内的违禁词进行匹配，若所述token匹配到违禁词知识模型内的违禁词，则确定该token为违禁词，否则，确定该token为正常词；根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组；可选地，根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组，包括：根据组成所述违禁词的文字所作的标记，到对应的音频帧的坐标，取首尾两个文字所对应的音频帧的坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所作的标记，到对应的音频帧的坐标，取首尾两个文字所记录的音频帧的坐标，形成正常音频坐标组。
10.第二方面，本发明的实施例提供了一种音频违禁词过滤装置，所述装置包括：语音采集模块，采集实时音频数据；分析处理模块，获取并分析处理所述音频数据得到违禁词音频坐标组和正常音频坐标组；数据缓存模块，缓存所述音频数据；标记模块，对数据缓存模块中缓存的音频数据中所述正常音频坐标组对应的音频段做正常音频标识、对数据缓存模块中缓存的音频数据中所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识；音频合成模块，将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据；语音播放模块，将所述最终音频数据播放至直播间。
11.可选地，所述分析处理模块通过网络长链接从所述语音采集模块实时获取所述音频数据，且通过异步通知返回所述违禁词音频坐标组和正常音频坐标组至所述标记模块。
12.可选地，所述分析处理模块包括：语音识别单元，将获取到的所述音频数据识别成文本数据；违禁词识别单元，识别所述文本数据中的违禁词；语音处理单元，根据所述违禁词确定违禁词音频坐标组和正常音频坐标组。
13.第三方面，本发明的实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面任一项所述的方法。
14.第四方面，本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
15.有益效果本发明提供了一种音频违禁词过滤方法、装置、电子设备及存储介质，所述违禁词过滤方法，首先对采集到的实时音频数据进行识别，形成文本数据，然后，识别所述文本数据中的违禁词，采用ai识别技术，通过文本数据中的词与违禁词知识模型库内的违禁词进行匹配识别，可直接识别出文本数据中的违禁词，再对针对文本数据中识别出的违禁词确定违禁词音频坐标组，根据其他非违禁词，确定正常音频坐标组；再将正常音频坐标组和违禁词一批坐标组返回，将所述音频数据中所述正常音频坐标组对应的音频段做正常音频标
识、将所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识，最后将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据。可以在未播放到直播间之间就及时对主播发出的音频中的违禁词进行识别、替换、合成，形成没有违禁词的最终音频数据后再播放到直播间，解决了滞后性的问题。
16.应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
附图说明
17.结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素。
18.图1示出了本发明的实施例的一种音频违禁词过滤方法的流程图；图2示出了本发明实施例的一种音频违禁词过滤装置的结构示意图；图3示出了本发明实施例的分析处理模块的结构示意图；图4示出了本发明实施例的一种电子设备的结构图。
具体实施方式
19.为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。
20.需要说明的是，本发明实施例描述的仅仅是为了更加清楚的说明本发明实施例的技术方案，并不构成对本发明实施例提供的技术方案的限定。
21.图1示出了本发明的实施例的一种音频违禁词过滤方法的流程图，参见图1，所述违禁词过滤方法包括：s01.对采集到的实时音频数据进行识别，形成文本数据；所述对采集到的实时音频数据进行识别，形成文本数据包括：s011.将所述音频数据分成若干个音频帧；其中，在将所述音频数据分成若干个音频帧之前，将音频数据首尾端的静音切除，以降低对后续步骤的干扰；将所述音频数据分成若干个音频帧时，通过移动窗函数实现；s012.对每一个所述音频帧进行识别，形成文字段；具体地，对每一个所述音频帧进行识别，形成文字段，所述文字段包括若干个文字，包括：对每一个所述文字，记录所对应音频帧的坐标，并作标记；后续根据该文字做的标记，即可得到该文字对应的音频帧的坐标；s013.对所有所述音频帧的识别形成的所述文字进行组合，形成文本数据；s02.识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音频坐标组；具体地，所述识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音
频坐标组包括：s021.对所述文本数据进行分词，得到一个个token，所述token包括若干个所述文字；即，分词得到的token可以是字、词、字词，字、词、字词中的每个字均在步骤s012中做有用于标识所对应音频帧的坐标的标记；s022.将所述token与违禁词知识模型库内的违禁词进行匹配，若所述token匹配到违禁词知识模型内的违禁词，则确定该token为违禁词，否则，确定该token为正常词；具体通过人工智能方法进行判断，可以快速自动识别违禁词。
22.s023.根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组；具体地，作为优选，根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组，包括：根据组成所述违禁词的文字所作的标记，到对应的音频帧的坐标，取首尾两个文字所对应的音频帧的坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所作的标记，到对应的音频帧的坐标，取首尾两个文字所记录的音频帧的坐标，形成正常音频坐标组；其中，违禁词音频坐标组中，首尾两个文字所对应的音频帧的坐标分别为起始违禁词音频坐标和结束违禁词音频坐标；正常音频坐标组中，首尾两个文字所对应的音频帧的坐标分别为起始正常音频坐标和结束正常音频坐标；s03.将所述正常音频坐标组对应的音频段做正常音频标识、将所述违禁词音频坐标组对应的音频段做异常音频标识；具体地，根据正常音频坐标组，到起始正常音频坐标对应的音频帧和结束正常音频坐标对应的音频帧，将包括两音频帧之间的音频段（包括上述正常音频坐标对应的音频帧和结束正常音频坐标对应的音频帧）做正常音频标识；根据违禁词音频坐标组，到起始违禁词音频坐标对应的音频帧和结束违禁词音频坐标对应的音频帧，将两音频帧之间的音频段（包括上述违禁词音频坐标对应的音频帧和结束违禁词音频坐标对应的音频帧）做异常音频标识；作为另一种实施方式，根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组，包括：根据组成所述违禁词的文字所作的标记，到对应的音频帧的坐标，取所有文字所对应的音频帧的坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所作的标记，到对应的音频帧的坐标，取所有文字所记录的音频帧的坐标，形成正常音频坐标组；其中，违禁词音频坐标组中，包括所有组成违禁词的字所对应的音频帧的坐标；正常音频坐标组中，包括所有组成正常词的字所对应的音频帧的坐标；相应的，将所述音频数据中所述正常音频坐标组对应的音频段做正常音频标识、将所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识中，具体地，根据正常音频坐标组，到正常音频坐标组中所有音频坐标对应的音频帧，并做正常音频标识；根据违禁词音频坐标组，到违禁词音频坐标组中所有音频坐标对应的音频帧，并做异常音频标识；s04.将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的
音频段进行合成，形成最终音频数据；其中，将做有所述异常音频标识的音频段替换中，用来替换做有异常音频标识的音频段的音频可以使用单一的特定音频，也可以根据对应的音频段的波形取所述音频数据中具有相似波形的音频，或者其他音频。
23.本发明提供了一种音频违禁词过滤方法，所述违禁词过滤方法，首先对采集到的实时音频数据进行识别，形成文本数据，然后，识别所述文本数据中的违禁词，采用ai识别技术，通过文本数据中的词与违禁词知识模型库内的违禁词进行匹配识别，可直接识别出文本数据中的违禁词，再对针对文本数据中识别出的违禁词确定违禁词音频坐标组，根据其他非违禁词，确定正常音频坐标组；再将正常音频坐标组和违禁词一批坐标组返回，将所述音频数据中所述正常音频坐标组对应的音频段做正常音频标识、将所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识，最后将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据。可以在未播放到直播间之间就及时对主播发出的音频中的违禁词进行识别、替换、合成，形成没有违禁词的最终音频数据后再播放到直播间，解决了滞后性的问题。
24.基于同一发明构思，本发明实施例还提供了一种音频违禁词过滤装置，可以用于实现上述实施例中所描述的一种音频违禁词过滤方法，如下面实施例所述：由于该一种音频违禁词过滤装置解决问题的原理与一种音频违禁词过滤装置方法相似，因此一种音频违禁词过滤装置的实施可以参见一种音频违禁词过滤装置方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
25.图2示出了本发明实施例的一种音频违禁词过滤装置的结构示意图，如图2所示，所述违禁词过滤系统包括：语音采集模块10，采集实时音频数据；分析处理模块20，获取并分析处理所述音频数据得到违禁词音频坐标组和正常音频坐标组；数据缓存模块30，缓存所述音频数据；标记模块40，对数据缓存模块中缓存的音频数据中所述正常音频坐标组对应的音频段做正常音频标识、对数据缓存模块中缓存的音频数据中所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识；音频合成模块50，将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据；语音播放模块60，将所述最终音频数据播放至直播间。
26.本发明实施例提供了一种音频违禁词过滤装置，所述违禁词过滤系统首先通过语音采集模块采集到实时音频数据，分析处理模块从语音采集模块获取到所述音频数据，经过分析处理得到违禁词音频坐标组和正常音频坐标组，而在分析处理模块分析处理音频数据的过程中，语音采集模块先将采集到的实时音频数据发送至数据存储模块缓存起来，在经过分析处理模块经过分析得到违禁词音频坐标组和正常音频坐标组后，将其发送至标记模块，标记模块获取数据缓存模块缓存的音频数据，利用所述违禁词音频坐标组和正常音
频坐标组中的坐标，对从数据缓存模块缓存的音频数据中所述正常音频坐标组对应的音频段做正常音频标识、对从数据缓存模块中缓存的音频数据中所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识，然后通过音频合成模块将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据，此时的最终音频数据中已经筛选掉了违禁词，最后通过语音播放模块将已经筛选掉违禁词的所述最终音频数据播放至直播间，可及时避免直播间因出现违禁词而被导致封号的问题。
27.具体地，所述分析处理模块通过网络长链接从所述语音采集模块实时获取所述音频数据，且通过异步通知返回所述违禁词音频坐标组和正常音频坐标组至所述标记模块。以网络长链接的方式连接分析处理模块和语音采集模块，可以实现分析处理模块频繁从语音采集模块获取实时音频数据，实现数据的音频数据的不间断传输。
28.具体地，图3示出了本发明实施例的分析处理模块的结构示意图，如图3所示，所述分析处理模块20包括：语音识别单元，将获取到的所述音频数据识别成文本数据；违禁词识别单元，识别所述文本数据中的违禁词；语音处理单元，根据所述违禁词确定违禁词音频坐标组和正常音频坐标组。
29.本发明实施例还提供了一种计算机电子设备，图4示出了可以应用本发明实施例的电子设备的结构示意图，如图4所示，该计算机电子设备包括，中央处理单元（cpu）401，其可以根据存储在只读存储器（rom）402中的程序或者从存储部分408加载到随机访问存储器（ram）403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有系统操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出（i/o）接口405也连接至总线404。
30.以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管（crt）、液晶显示器（lcd）等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
31.附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
32.描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括语音采集模块10、分析处理模块20、数据缓存模块30、标记模块40、音频合
成模块50、语音播放模块60，其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，分析处理模块20还可以被描述为“分析处理所述音频数据得到所述违禁词音频坐标组和正常音频坐标组的分析处理模块20”。
33.作为另一方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述一种音频违禁词过滤装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明的一种音频违禁词过滤方法。
34.以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征：

1.一种音频违禁词过滤方法，其特征在于，所述违禁词过滤方法包括：对采集到的实时音频数据进行识别，形成文本数据；识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音频坐标组；将所述正常音频坐标组对应的音频段做正常音频标识、将所述违禁词音频坐标组对应的音频段做异常音频标识；将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据。2.根据权利要求1所述的一种音频违禁词过滤方法，其特征在于，所述对采集到的实时音频数据进行识别，形成文本数据包括：将所述音频数据分成若干个音频帧；对每一个所述音频帧进行识别，形成文字段；对所有所述音频帧的识别形成的所述文字段进行组合，形成文本数据。3.根据权利要求2所述的一种音频违禁词过滤方法，其特征在于，对每一个所述音频帧进行识别，形成文字段，所述文字段包括若干个文字，包括：对每一个所述文字，记录所对应音频帧的坐标，并作标记。4.根据权利要求3所述的一种音频违禁词过滤方法，其特征在于，所述识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音频坐标组包括：对所述文本数据进行分词，得到一个个token，所述token包括若干个所述文字；将所述token与违禁词知识模型库内的违禁词进行匹配，若所述token匹配到违禁词知识模型内的违禁词，则确定该token为违禁词，否则，确定该token为正常词；根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组。5.根据权利要求4所述的一种音频违禁词过滤方法，其特征在于，根据组成所述违禁词的文字所记录的音频坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所记录的音频坐标，形成正常音频坐标组，包括：根据组成所述违禁词的文字所作的标记，到对应的音频帧的坐标，取首尾两个文字所对应的音频帧的坐标，形成违禁词音频坐标组；根据组成所述正常词的文字所作的标记，到对应的音频帧的坐标，取首尾两个文字所记录的音频帧的坐标，形成正常音频坐标组。6.一种音频违禁词过滤装置，其特征在于，所述装置包括：语音采集模块，采集实时音频数据；分析处理模块，获取并分析处理所述音频数据得到违禁词音频坐标组和正常音频坐标组；数据缓存模块，缓存所述音频数据；标记模块，对数据缓存模块中缓存的音频数据中所述正常音频坐标组对应的音频段做正常音频标识、对数据缓存模块中缓存的音频数据中所述音频数据中所述违禁词音频坐标组对应的音频段做异常音频标识；音频合成模块，将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据；语音播放模块，将所述最终音频数据播放至直播间。
7.根据权利要求6所述一种音频违禁词过滤装置，其特征在于：所述分析处理模块通过网络长链接从所述语音采集模块实时获取所述音频数据，且通过异步返回所述违禁词音频坐标组和正常音频坐标组至所述标记模块。8.根据权利要求6所述一种音频违禁词过滤装置，其特征在于，所述分析处理模块包括：语音识别单元，将获取到的所述音频数据识别成文本数据；违禁词识别单元，识别所述文本数据中的违禁词；语音处理单元，根据所述违禁词确定违禁词音频坐标组和正常音频坐标组。9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。

技术总结

本发明提供了一种音频违禁词过滤方法、装置、电子设备及存储介质，所述所述违禁词过滤方法包括：对采集到的实时音频数据进行识别，形成文本数据；识别所述文本数据中的违禁词，并确定违禁词音频坐标组和正常音频坐标组；将所述正常音频坐标组对应的音频段做正常音频标识、将所述违禁词音频坐标组对应的音频段做异常音频标识；将做有所述异常音频标识的音频段替换，并与所述标有所述正常音频标识的音频段进行合成，形成最终音频数据。本发明可以将音频识别为文字，自动到违禁词，并根据坐标对完整音频流进行定位，替换违禁词后合成没有违禁词的音频再播放，避免滞后性，可以保持原声，原语气，原表达节奏地播放。原表达节奏地播放。原表达节奏地播放。