一种基于HOG+SVM的短波通信话音检测方法与流程


一种基于hog+svm的短波通信话音检测方法
技术领域
1.本发明涉及短波通信侦控领域,尤其涉及一种话音自动检测方法。


背景技术:



2.在短波侦控工作中,经常对已知频率的短波电台进行24小时全时控守,以免漏掉突发重要情况。短波信号经过采集、识别、解调后生成音频数据,再由人工进行筛选和复听。
3.为了节省人力,目前多采用自动手段对录音进行检测,筛选出有效话音后再由人工进行听抄。当前主要话音检测方法是设定一个音量门限值,当音频数据的音量超过此门限值时作为话音起点,当音量持续一段时间低于门限值后结束话音提取。
4.但是,随着空间频谱环境的恶化,射频频谱变得非常拥挤,信道间相互干扰严重。被控频率通常在没有通话时也掺杂着强烈的噪声和干扰信号,极大降低了当前方法的话音检测准确率。
5.目前,工程应用中的改进的话音检测方法是利用话音在单位时间内音量波动幅度大且频繁,不像噪音几乎持续不断且音量变化幅度很小。但是,该改进方法在变化噪音和快速连贯的话音等情况下仍然存在较大的误检率,急需一种更加准确高效的从噪音中检测话音的方法。


技术实现要素:



6.本发明为解决背景技术中的问题,提出了一种基于hog+svm的短波通信话音检测方法。
7.本发明采用的技术方案为:
8.一种基于hog+svm的短波通信话音检测方法,包括以下步骤
9.步骤1,将音频数据分类为话音和噪音并切分成音频片段,以音频片段为基础生成语谱图,再对语谱图进行灰度化预处理;
10.步骤2,将语谱图划分为胞元,以胞元为单位计算每个像素的梯度幅值和梯度方向,统计每个胞元中不同方向上分布的梯度幅值,形成方向梯度直方图,计算图中全部胞元的方向梯度直方图即构成该语谱图的hog特征;
11.步骤3,以话音语谱图的hog特征为正向样本,噪音语谱图的hog特征为负向样本,训练svm分类器;
12.步骤4,设定检测窗口宽度,以检测窗口为单位,对短波通信录音数据进行扫描,基于窗口内的音频数据生成语谱图,对语谱图进行预处理后提取hog特征,再将hog 特征输入训练好的svm分类器进行分类,提取出话音数据。
13.进一步的,所述步骤1包括:
14.步骤1-1,将短波通信侦控工作中录制的音频数据分类为话音和噪音,其中话音作为训练时的正向样本,噪音作为训练时的负向样本;
15.步骤1-2,按预定的检测窗口和语谱图分辨率要求将话音和噪音数据切分成一个
个片段;
16.步骤1-3,基于音频片段,按预定分辨率要求生成语谱图;
17.步骤1-4,对语谱图进行灰度化处理,将图像的三个rgb颜分量转化为仅有一个分量的灰度值。
18.进一步的,所述步骤2包括:
19.步骤2-1,按预定的大小将语谱图划分成一个个胞元;
20.步骤2-2,计算胞元内每个像素的横坐标和纵坐标方向的梯度幅值,并据此计算每个像素位置的梯度方向值;
21.步骤2-3,将360度的梯度方向分成多个条带,遍历胞元内的所有像素点,统计落入每个条带内的梯度幅值,形成单个胞元的方向梯度直方图;
22.步骤2-4,遍历图像中的所有胞元,按步骤2-3的方式计算并统计每个胞元的方向梯度直方图,构成整个语谱图的hog特征。
23.进一步的,所述步骤3为:以话音语谱图的hog特征为正向样本,以噪音语谱图的hog特征为负向样本,训练svm分类器;通过组合多类型训练样本,调整分类器参数,使得svm分类器的分隔超平面在话音hog特征样本和噪音hog特征样本之间具有最大间距。
24.进一步的,所述步骤4包括:
25.步骤4-1,按照步骤1切分训练用的音频数据时的片段时长,设置检测窗口宽度,并以检测窗口为单位,顺序扫描在短波通信侦控业务中录制的音频数据;
26.步骤4-2,按照步骤1生成训练用语谱图时的图像分辨率,将每个检测窗口内的音频数据生成为语谱图,并对语谱图进行灰度化处理;
27.步骤4-3,从步骤4-2生成的语谱图中提取hog特征;
28.步骤4-4,将步骤4-3提取的hog特征输入步骤3训练好的svm分类器进行分类,检测窗口内是话音还是噪音,提取出话音数据。
29.本发明与现有技术相比的有益效果在于:
30.本发明的平均准确率要优于当前在工程项目中应用的以音量波动为条件的检测方法,且具有良好的泛化能力,能够适应不同语种、不同性别、不同对话形式的话音类型。
附图说明
31.图1是本发明方法的流程图。
32.图2是基于话音和噪音生成的语谱图的示例图。
33.图3方向梯度直方图统计原理示意图。
34.图4是话音语谱图hog特征示意图。
具体实施方式
35.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
36.一种基于hog+svm的短波通信话音检测方法,该方法中,hog是histogram oforiented gradient的缩写,即方向梯度直方图;svm是support vector machines的缩写,即支持向量机。
37.该方法包括以下步骤:
38.步骤1,人工将音频数据分类为话音和噪音,按模型训练要求切分成一个个片段,以音频片段为基础生成语谱图,再对语谱图进行灰度化预处理。
39.步骤2,将语谱图划分为一个个胞元,再以胞元为单位计算每个像素的梯度幅值和梯度方向,统计每个胞元中不同方向上分布的梯度幅值形成方向梯度直方图,计算图中全部胞元的方向梯度直方图即构成该语谱图的hog特征。
40.步骤3,以话音语谱图的hog特征为正向样本,噪音语谱图的hog特征为负向样本,训练svm分类器,使得训练后的svm分类器具有较好的泛化能力和适应性。
41.步骤4,设定检测窗口宽度,以检测窗口为单位,对短波通信录音数据进行扫描,基于窗口内的音频数据生成语谱图,对语谱图进行预处理后提取hog特征,再将hog 特征输入训练好的svm分类器进行分类,提取出话音数据。
42.进一步地,在一种实现方式中,所述步骤1包括:
43.步骤1-1,人工将短波通信侦控工作中录制的音频数据分类为话音和噪音,其中话音作为训练时的正向样本,噪音作为训练时的负向样本。
44.步骤1-2,按预定的检测窗口和语谱图分辨率要求将话音和噪音数据切分成一个个小片段。
45.步骤1-3,基于音频片段,按预定分辨率要求生成语谱图。
46.步骤1-4,对语谱图进行灰度化处理,将图像的三个rgb颜分量转化为仅有一个分量的灰度值。
47.进一步地,在一种实现方式中,所述步骤2包括:
48.步骤2-1,按预定的大小将语谱图划分成一个个胞元。
49.步骤2-2,计算胞元内每个像素的横坐标和纵坐标方向的梯度幅值,并据此计算每个像素位置的梯度方向值。
50.步骤2-3,将360度的梯度方向分成若干个条带,遍历胞元内的所有像素点,统计落入每个条带内的梯度幅值,形成单个胞元的方向梯度直方图。
51.步骤2-4,遍历图像中的所有胞元,按步骤2-3计算并统计每个胞元的方向梯度直方图,构成整个语谱图的hog特征。
52.进一步地,在一种实现方式中,所述步骤4包括:
53.步骤4-1,按步骤1切分训练用的音频数据时的片段时长设置检测窗口宽度,并以该检测窗口为单位顺序扫描在短波通信侦控业务中录制的音频数据。
54.步骤4-2,按步骤1生成训练用语谱图时的图像分辨率,将每个检测窗口内的音频数据生成为语谱图,并对语谱图进行灰度化处理。
55.步骤4-3,从步骤4-2生成的语谱图中提取hog特征。
56.步骤4-4,将步骤4-3提取的hog特征输入步骤3训练好的svm分类器进行分类,检测窗口内是话音还是噪音。
57.以下为以更具体的例子:
58.该实施例使用的计算机的cpu为i5-11400f,内存16gb,显卡为gtx1070;运行的软件环境为windows 10+pycharm2019.2.1+opencv v4.5.4。实验中使用的数据集均来自工程项目实际应用,话音样本数据从语种上涵盖了汉语、英语、俄语、日语、韩语、蒙语,从性别上
涵盖男性和女性,从对话形式上涵盖了双男性对话、双女性对话、男女对话、单男性自话、单女性自话。各类测试样本数据时长总计2540秒;噪音样本数据则取了不同音量的短波通信背景噪音1320秒。
59.如图1所示,本实施例方法包括以下步骤:
60.步骤1,人工将音频数据分类为话音和噪音,按模型训练要求切分成一个个片段,以音频片段为基础生成语谱图,再对语谱图进行灰度化预处理。
61.步骤2,将语谱图划分为一个个胞元,再以胞元为单位计算每个像素的梯度幅值和梯度方向,统计每个胞元中不同方向上分布的梯度幅值形成方向梯度直方图,计算图中全部胞元的方向梯度直方图即构成该语谱图的hog特征。
62.步骤3,以话音语谱图的hog特征为正向样本,噪音语谱图的hog特征为负向样本,训练svm分类器,使得训练后的svm分类器具有较好的泛化能力和适应性。
63.步骤4,设定检测窗口宽度,以检测窗口为单位,对短波通信录音数据进行扫描,基于窗口内的音频数据生成语谱图,对语谱图进行预处理后提取hog特征,再将hog 特征输入训练好的svm分类器进行分类,提取出话音数据。
64.本实施例中,步骤1包括:
65.步骤1-1,人工将短波通信侦控工作中录制的音频数据分类为话音和噪音,其中话音作为训练时的正向样本,噪音作为训练时的负向样本。
66.步骤1-2,在模型训练过程中,需要将连续的音频信号截取为音频片段,以便生成一幅幅语谱图作为样本数据用于训练。为了减少检出延迟,将音频信号截取为时长为5秒的片段。
67.步骤1-3,由于本方法的目的是区分噪音和话音的语谱图,而不是基于语谱图识别说话人身份或说话内容,无需关注共振峰、摩擦音等特性,只需关注代表基音的竖直条,因此语谱图的横向分辨率无需很大,宽高比应当尽量小,以便在实际检测时形成一个瘦长的检测窗口。本方法选择的语谱图分辨率为240
×
600。话音和噪音的语谱图示例如图 2所示。
68.步骤1-4,对彩的语谱图进行灰度化处理,将图像的三个rgb颜分量转化为仅有一个分量的灰度值,使每个像素的变化范围从0~16,581,375减小到0~255,可极大的提升算法计算速度。
69.步骤2包括:
70.步骤2-1,将语谱图划分成一个个胞元,本实施例中经反复实验最终选择的胞元大小为12
×
12。
71.步骤2-2,用如下公式计算胞元内每个像素的水平和竖直方向的梯度。
[0072][0073]
公式中的g
x
(x,y)、g
t
(x,y)、h(x,y)分别表示输入图像中的像素点(x,y)处的水平方向梯度、竖直方向梯度和灰度值。
[0074]
每个像素梯度幅值的计算公式如下:
[0075][0076]
每个像素的梯度方向的计算公式如下:
[0077][0078]
步骤2-3,以胞元为单位,将360度的梯度方向分成9个条带,遍历胞元内的所有像素点,统计落入每个条带内的梯度幅值,形成单个胞元的方向梯度直方图。统计原理如图3所示。每个胞元的特征维度为9。
[0079]
步骤2-4,遍历图像中的所有胞元,按步骤2-3计算并统计每个胞元的方向梯度直方图,构成整个语谱图的hog特征。话音语谱图的hog特征如图4所示。每幅语谱图的特征维度为9000。
[0080]
步骤3包括:
[0081]
svm分类器的核函数选择svm_linear线性分类,多项式函数维度设为3,惩罚系数设为0.01。用正负样本集对分类器进行训练。训练完成后用测试数据对分类器进行测试,以确保分类器具有较好的泛化能力和适应性。
[0082]
步骤4包括:
[0083]
步骤4-1,将检测窗口时域宽度设置为5秒,窗口分辨率设置为240
×
600,并以该检测窗口为单位顺序扫描在短波通信侦控业务中录制的音频数据。
[0084]
步骤4-2,将每个检测窗口内的音频数据按分辨率240
×
600生成为语谱图,并对语谱图进行灰度化处理。
[0085]
步骤4-3,从步骤4-2生成的语谱图中提取hog特征。
[0086]
步骤4-4,将步骤4-3提取的hog特征输入步骤3训练好的svm分类器进行分类,检测窗口内是话音还是噪音。
[0087]
本发明先基于短波通信音频数据生成语谱图,再从语谱图中提取hog特征,以hog 特征为输入,使用经过训练的svm区分噪音和话音,从而达到从短波通信的音频数据中检测出话音的目标。本发明具有检测准确率高、模型适应性强等优点,可以应用于从短波侦控工作中录制的音频数据中自动检测话音。

技术特征:


1.一种基于hog+svm的短波通信话音检测方法,其特征在于,包括以下步骤:步骤1,将音频数据分类为话音和噪音并切分成音频片段,以音频片段为基础生成语谱图,再对语谱图进行灰度化预处理;步骤2,将语谱图划分为胞元,以胞元为单位计算每个像素的梯度幅值和梯度方向,统计每个胞元中不同方向上分布的梯度幅值,形成方向梯度直方图,计算图中全部胞元的方向梯度直方图即构成该语谱图的hog特征;步骤3,以话音语谱图的hog特征为正向样本,噪音语谱图的hog特征为负向样本,训练svm分类器;步骤4,设定检测窗口宽度,以检测窗口为单位,对短波通信录音数据进行扫描,基于窗口内的音频数据生成语谱图,对语谱图进行预处理后提取hog特征,再将hog特征输入训练好的svm分类器进行分类,提取出话音数据。2.根据权利要求1所述的基于hog+svm的短波通信话音检测方法,其特征在于,所述步骤1包括:步骤1-1,将短波通信侦控工作中录制的音频数据分类为话音和噪音,其中话音作为训练时的正向样本,噪音作为训练时的负向样本;步骤1-2,按预定的检测窗口和语谱图分辨率要求将话音和噪音数据切分成一个个片段;步骤1-3,基于音频片段,按预定分辨率要求生成语谱图;步骤1-4,对语谱图进行灰度化处理,将图像的三个rgb颜分量转化为仅有一个分量的灰度值。3.根据权利要求1所述的基于hog+svm的短波通信话音检测方法,其特征在于,所述步骤2包括:步骤2-1,按预定的大小将语谱图划分成一个个胞元;步骤2-2,计算胞元内每个像素的横坐标和纵坐标方向的梯度幅值,并据此计算每个像素位置的梯度方向值;步骤2-3,将360度的梯度方向分成多个条带,遍历胞元内的所有像素点,统计落入每个条带内的梯度幅值,形成单个胞元的方向梯度直方图;步骤2-4,遍历图像中的所有胞元,按步骤2-3的方式计算并统计每个胞元的方向梯度直方图,构成整个语谱图的hog特征。4.根据权利要求1所述的基于hog+svm的短波通信话音检测方法,其特征在于,所述步骤3为:以话音语谱图的hog特征为正向样本,以噪音语谱图的hog特征为负向样本,训练svm分类器;通过组合多类型训练样本,调整分类器参数,使得svm分类器的分隔超平面在话音hog特征样本和噪音hog特征样本之间具有最大间距。5.根据权利要求1所述的基于hog+svm的短波通信话音检测方法,其特征在于,所述步骤4包括:步骤4-1,按照步骤1切分训练用的音频数据时的片段时长,设置检测窗口宽度,并以检测窗口为单位,顺序扫描在短波通信侦控业务中录制的音频数据;步骤4-2,按照步骤1生成训练用语谱图时的图像分辨率,将每个检测窗口内的音频数据生成为语谱图,并对语谱图进行灰度化处理;
步骤4-3,从步骤4-2生成的语谱图中提取hog特征;步骤4-4,将步骤4-3提取的hog特征输入步骤3训练好的svm分类器进行分类,检测窗口内是话音还是噪音,提取出话音数据。

技术总结


本发明提出了一种基于SVM+HOG的短波通信话音检测方法,可以应用于从短波侦控工作中录制的音频数据中自动检测话音。该方法先基于短波通信音频数据生成语谱图,再从语谱图中提取HOG特征,以HOG特征为输入,使用经过训练的SVM区分噪音和话音,从而达到从短波通信的音频数据中检测出话音的目标。本发明的话音检测算法具有检测准确率高、模型适应性强等优点。模型适应性强等优点。模型适应性强等优点。


技术研发人员:

白洁 陈路路 李宝莲 张玲 刘伟强 员建厦 陈莉 尹明辉 韩江龙 梁钰萱 杨佳贝

受保护的技术使用者:

中国电子科技集团公司第五十四研究所

技术研发日:

2022.02.24

技术公布日:

2022/7/26

本文发布于:2024-09-21 10:27:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/17254.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:步骤   话音   梯度   短波
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议