一种智能语音音频筛选系统

1.本发明属于筛选音频技术领域，尤其涉及一种智能语音音频筛选系统。

背景技术：

2.随着互联网时代的快速发展，现在语音识别在多媒体检、字幕自动匹配、视频内容分析、手机智能助手等等应用上已经得到了广泛的应用，但是这些应用中，有一部分应用的没有实现商用，主要原因是它们必须先从一段多类型音频中识别出纯语音，然后才能针对纯语音部分进行语音识别。在音频分类领域很多人进行了研究，但是提取的特征过多，并且一般是用统计学习等方法识别出纯语音这种类型，其实时性难以满足需求。在多类型音频中，有一部分是以纯语音为主的，譬如科普视频的讲解伴音，广播音频等等，这类音频的纯语音多，并且带有伴奏的语音其伴奏一般是连续的古典音乐，因此短暂的静音停顿只会在纯语音部分出现。而不同的音频中静音停顿会各不相同，利用音频中静音停顿的不同，可实现音频的快速筛选分类，而现有的音频分类中没有利用上述的特征进行筛选音频的方法。

技术实现要素：

3.本发明的目的在于提出一种智能语音音频筛选系统，提高了筛选音频的速度和准确度。
4.为实现上述目的，本发明提供了一种智能语音音频筛选系统，包括：获取模块、识别模块、提取模块、筛选模块和打分模块；
5.所述获取模块用于获取目标语音音频的音频信息；
6.所述识别模块用于识别所述目标语音音频的音频信息，获取所述目标语音音频的音频特征；
7.所述提取模块用于对所述音频特征进行特征提取，获取第一语音音频的音频特征；
8.所述筛选模块用于对所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，将符合阈值的所述第一语音音频的音频特征划分为合格语音音频；
9.所述打分模块用于对所述合格语音音频进行打分。
10.可选的，所述获取目标语音音频的音频信息包括读取的视频信息，并提取视频数据中的音频信息。
11.可选的，所述识别模块包括去噪单元和分帧单元，
12.所述去噪单元用于对所述目标语音音频的音频信息进行去噪处理，获取纯净的音频信息；
13.所述分帧单元用于对所述纯净的音频信息进行分帧处理，基于所述纯净的音频信息进行降采样、预加重、加窗和分帧处理，获取所述目标语音音频的音频特征。
14.可选的，所述提取模块包括标注单元和排序单元；
15.所述标注单元用于所述目标语音音频的音频特征进行标注处理，获取第一标识；
16.所述排序单元用于对标注处理后的所述目标语音音频的音频特征进行排序，获取排序列表。
17.可选的，所述提取模块具体为：将所述目标语音音频的音频特征进行标注处理，音频运行时将每一个音频特征进行标注，并将按照第一个音频标注为第一标识的处理方法对每一个音频按照以1为单位递增的方式进行音频标注，并将第一标识记为排序列表中的第一个对应关系，第二标识对应排序列表中的第二个对应关系，依照对应关系将列表按照顺序进行填充。
18.可选的，所述提取模块还包括纠察单元，所述纠察单元用于修改和检查所述排序列表中的音频标注和列表顺序的对应关系，修改音频标注和列表顺序保持一致，修改后对存储的排序列表进行更新。
19.可选的，所述筛选模块将所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，获取合格语音音频，包括：
20.对所述第一语音音频的音频特征进行特征打分处理，获取第一语音音频的特征值；
21.对所述目标语音音频的音频特征进行特征打分，获取目标语音音频的特征值；
22.所述第一语音音频的特征值和所述目标语音音频的特征值对应同一类特征，进行阈值筛选处理，将所述第一语音音频的特征值与所述阈值进行对比，所述第一语音音频的特征值符合阈值筛选时，则所述第一语音音频的特征值为合格语音音频，将所述目标语音音频的特征值与所述第一语音音频的特征值进行阈值对比筛选，判断所述目标语音音频的特征值是否为合格语音音频，获取合格语音音频数据库。
23.可选的，所述打分模块设置评分维度，所述评分维度包括关键词覆盖率、语义覆盖率、质检差错值、语量、字错率和停顿频率标记；获取模型对应的评分维度，每个评分维度均对应一个预设分，将模型对应的评分维度与所有评分维度进行匹配获取得到对应的预设分，将模型匹配到的所有预设分进行求和得到总分。
24.本发明技术效果：本发明公开了一种智能语音音频筛选系统，目标语音音频的音频信息，对获取的目标语音音频的音频信息进行去噪和分帧处理进行特征识别，对识别后的音频特征进行标注和排序进行特征提取处理，对处理获得音频特征进行纠察处理并更新排序列表，对所述第一语音音频的音频特征与所述目标语音音频的音频特征设定阈值筛选，获取合格语音音频，提高了语音音频的速度和准确度。
附图说明
25.构成本技术的一部分的附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
26.图1为本发明实施例智能语音音频筛选系统的结构示意图。
具体实施方式
27.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
28.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的
计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
29.如图1所示，本实施例中提供一种智能语音音频筛选系统，包括：
30.获取模块、识别模块、提取模块、筛选模块和打分模块；
31.所述获取模块用于获取目标语音音频的音频信息；
32.所述识别模块用于识别所述目标语音音频的音频信息，获取所述目标语音音频的音频特征；
33.所述提取模块用于对所述音频特征进行特征提取，获取第一语音音频的音频特征；
34.所述筛选模块用于对所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，将符合阈值的所述第一语音音频的音频特征划分为合格语音音频；
35.所述打分模块用于对所述合格语音音频进行打分。
36.进一步优化方案，所述获取目标语音音频的音频信息包括读取的视频信息，并提取视频数据中的音频信息。
37.进一步优化方案，所述识别模块包括去噪单元和分帧单元，
38.所述去噪单元用于对所述目标语音音频的音频信息进行去噪处理，获取纯净的音频信息；
39.所述分帧单元用于对所述纯净的音频信息进行分帧处理，基于所述纯净的音频信息进行降采样、预加重、加窗和分帧处理，获取所述目标语音音频的音频特征。
40.所述识别模块包括去噪器和分帧器，分帧器与去噪器输出端相连，且该去噪器与语音提取模块输出端相连。本发明的去噪器用于对获取到的音频数据或伴音数据进行音频的去噪，用户根据实际情况手动设置是否需要调用；而本发明的分帧器，用于对获取到的音频数据或伴音数据进行降采样、预加重、加窗以及分帧处理。
41.进一步优化方案，所述提取模块包括标注单元和排序单元；
42.所述标注单元用于所述目标语音音频的音频特征进行标注处理，获取第一标识；
43.所述排序单元用于对标注处理后的所述目标语音音频的音频特征进行排序，获取排序列表。
44.进一步优化方案，所述提取模块具体为：将所述目标语音音频的音频特征进行标注处理，音频运行时将每一个音频特征进行标注，并将按照第一个音频标注为第一标识的处理方法对每一个音频按照以1为单位递增的方式进行音频标注，并将第一标识记为排序列表中的第一个对应关系，第二标识对应排序列表中的第二个对应关系，依照对应关系将列表按照顺序进行填充。
45.进一步优化方案，所述提取模块还包括纠察单元，所述纠察单元用于修改和检查所述排序列表中的音频标注和列表顺序的对应关系，修改音频标注和列表顺序保持一致，修改后对存储的排序列表进行更新。
46.进一步优化方案，所述筛选模块将所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，获取合格语音音频，包括：
47.对所述第一语音音频的音频特征进行特征打分处理，获取第一语音音频的特征值；
48.对所述目标语音音频的音频特征进行特征打分，获取目标语音音频的特征值；
49.所述第一语音音频的特征值和所述目标语音音频的特征值对应同一类特征，进行阈值筛选处理，将所述第一语音音频的特征值与所述阈值进行对比，所述第一语音音频的特征值符合阈值筛选时，则所述第一语音音频的特征值为合格语音音频，将所述目标语音音频的特征值与所述第一语音音频的特征值进行阈值对比筛选，判断所述目标语音音频的特征值是否为合格语音音频，获取合格语音音频数据库。
50.获取模块对所述第一语音音频的加密方法包括：
51.所述获取模块获取第一语音音频；
52.定义所述第一语音音频的数据长度为第一数据长度；
53.所述语音音频筛选系统还包括一数据库，所述数据库按照预设周期定时更新，从所述数据库中查数据长度为第二数据长度的密钥信息，且所述第二数据长度大于或等于所述第一数据长度；
54.将所述第一语音音频划分成k个音频数据块；
55.将所述密钥信息划分成k个密钥信息数据块；
56.采用算法确定每个所述音频数据块对应的密钥信息数据块；所述音频数据块与所述密钥信息数据块的数据长度相同；所述算法用于使得所述密钥信息数据块与所述音频数据块之间的对应关系具有不唯一性；
57.采用所述密钥信息数据块对所述音频数据块进行加密，得到加密后的第一语音音频。
58.进一步优化方案，所述打分模块设置评分维度，所述评分维度包括关键词覆盖率、语义覆盖率、质检差错值、语量、字错率和停顿频率标记；获取模型对应的评分维度，每个评分维度均对应一个预设分，将模型对应的评分维度与所有评分维度进行匹配获取得到对应的预设分，将模型匹配到的所有预设分进行求和得到总分。
59.基于用户语音生成特征序列，然后使用声学模型处理特征序列，再进行解码搜索，即可得到识别结果。在解码搜索时，需要用到预设重打分模型gf.fst和解码模型hclg.fst。在一些实施例中，预设重打分模型gf.fst是重打分模型生成模块270使用第一打分模型g1.fst和第二打分模型g2.fst提前生成的，预设重打分模型gf.fst保存了每个语音识别结果在第一打分模型g1.fst和第二打分模型g2.fst中的语音识别结果分数的差值。例如，重打分模型生成模块270基于语音识别结果分数一为0.6分，语音识别结果分数二为0.63分，规定差值为语音识别结果分数二减去语音识别结果分数一，则得到差值为0.03分，并将其保存在预设重打分模型gf.fst中。在对语音识别结果进行实时重打分时，候选结果获取模块220可以直接从预设重打分模型gf.fst中取出与语音识别结果对应的得分，即差值，将通过解码模型hclg.fst得到的语音识别结果的分数与预设重打分模型gf.fst中的对应得分求和，即可得到最终的语音识别结果的分数。
60.以上所述，仅为本技术较佳的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。

技术特征：

1.一种智能语音音频筛选系统，其特征在于，包括：获取模块、识别模块、提取模块、筛选模块和打分模块；所述获取模块用于获取目标语音音频的音频信息；所述识别模块用于识别所述目标语音音频的音频信息，获取所述目标语音音频的音频特征；所述提取模块用于对所述音频特征进行特征提取，获取第一语音音频的音频特征；所述筛选模块用于对所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，将符合阈值的所述第一语音音频的音频特征划分为合格语音音频；所述打分模块用于对所述合格语音音频进行打分。2.如权利要求1所述的智能语音音频筛选系统，其特征在于，所述获取目标语音音频的音频信息包括读取的视频信息，并提取视频数据中的音频信息。3.如权利要求1所述的智能语音音频筛选系统，其特征在于，所述识别模块包括去噪单元和分帧单元，所述去噪单元用于对所述目标语音音频的音频信息进行去噪处理，获取纯净的音频信息；所述分帧单元用于对所述纯净的音频信息进行分帧处理，基于所述纯净的音频信息进行降采样、预加重、加窗和分帧处理，获取所述目标语音音频的音频特征。4.如权利要求1所述的智能语音音频筛选系统，其特征在于，所述提取模块包括标注单元和排序单元；所述标注单元用于所述目标语音音频的音频特征进行标注处理，获取第一标识；所述排序单元用于对标注处理后的所述目标语音音频的音频特征进行排序，获取排序列表。5.如权利要求4所述的智能语音音频筛选系统，其特征在于，所述提取模块具体为：将所述目标语音音频的音频特征进行标注处理，音频运行时将每一个音频特征进行标注，并将按照第一个音频标注为第一标识的处理方法对每一个音频按照以1为单位递增的方式进行音频标注，并将第一标识记为排序列表中的第一个对应关系，第二标识对应排序列表中的第二个对应关系，依照对应关系将列表按照顺序进行填充。6.如权利要求5所述的智能语音音频筛选系统，其特征在于，所述提取模块还包括纠察单元，所述纠察单元用于修改和检查所述排序列表中的音频标注和列表顺序的对应关系，修改音频标注和列表顺序保持一致，修改后对存储的排序列表进行更新。7.如权利要求4所述的智能语音音频筛选系统，其特征在于，所述筛选模块将所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，获取合格语音音频，包括：对所述第一语音音频的音频特征进行特征打分处理，获取第一语音音频的特征值；对所述目标语音音频的音频特征进行特征打分，获取目标语音音频的特征值；所述第一语音音频的特征值和所述目标语音音频的特征值对应同一类特征，进行阈值筛选处理，将所述第一语音音频的特征值与所述阈值进行对比，所述第一语音音频的特征值符合阈值筛选时，则所述第一语音音频的特征值为合格语音音频，将所述目标语音音频
的特征值与所述第一语音音频的特征值进行阈值对比筛选，判断所述目标语音音频的特征值是否为合格语音音频，获取合格语音音频数据库。8.如权利要求1所述的智能语音音频筛选系统，其特征在于，所述打分模块设置评分维度，所述评分维度包括关键词覆盖率、语义覆盖率、质检差错值、语量、字错率和停顿频率标记；获取模型对应的评分维度，每个评分维度均对应一个预设分，将模型对应的评分维度与所有评分维度进行匹配获取得到对应的预设分，将模型匹配到的所有预设分进行求和得到总分。

技术总结

本发明公开了一种智能语音音频筛选系统,包括：获取模块、识别模块、提取模块、筛选模块和打分模块；所述获取模块用于获取目标语音音频的音频信息；所述识别模块用于识别所述目标语音音频的音频信息，获取所述目标语音音频的音频特征；所述提取模块用于对所述音频特征进行特征提取，获取第一语音音频的音频特征；所述筛选模块用于对所述第一语音音频的音频特征与所述目标语音音频的音频特征进行阈值筛选，将符合阈值的所述第一语音音频的音频特征划分为合格语音音频；所述打分模块用于对所述合格语音音频进行打分。本发明提高了筛选语音音频的速度和准确性。音频的速度和准确性。音频的速度和准确性。