一种水声目标识别方法、装置与设备



1.本发明涉及信息处理技术领域,尤其涉及一种水声目标识别方法、装置与设备。


背景技术:



2.随着海洋的战略地位日益突显,开发利用海洋资源和空间成为一项重要的课题。声波是目前在海洋中唯一能够进行远距离传播的能量形式,水声目标识别对于海洋开发、国防安全有着重大意义,现已成为水声领域的研究热点之一。针对现代化战争中水下探测的需求,基于声音信号的水下目标分类识别也成为了水下探测领域的研究热点。由于被动声纳具有隐蔽性强,传输距离长等优点,水下目标辐射噪声通过被动声纳采集是水声目标识别的主要信息来源。被动声纳系统具有良好的隐蔽性和灵活性,因此,如何利用被动声纳获取的舰船辐射噪声进行水下目标探测与识别成为了亟需解决的问题。但由于各种舰船隐身技术的应用以及海洋环境的复杂多样,基于舰船辐射噪声的水下目标识别任务面临着巨大挑战。
3.近些年,深度学习不断发展,出现了许多端到端的特征提取能力很强的模型,这些模型广泛应用于各个领域,越来越多的人将其应用到水声目标识别。深度学习的方法是基于数据驱动的自适应学习,需要较大的数据量来支撑其从丰富的样本中学习到深层特征,数据集的大小直接关系到最终识别的准确性和模型的泛化能力,数据集过小可能会导致过拟合等问题的出现,影响最终验证集上的准确性。但是鉴于水下目标识别技术的应用场景和水下复杂环境的限制,大批量获取真实数据并不现实,复杂的水下环境也会极大的影响信号采集的结果,所以我们的实验数据并不能完全涵盖目标的全部特征。
4.目前在水声目标识别的过程中,需要将原始水声音频信息转换为水声特征向量,然后根据水声特征向量进行水声的识别。然而,一方面,由于客观环境的影响,无法获取大量的水声音频信息;另一方面,目前提取的水声特征向量形式比较单一,基于该两方面的原因,使得目前水声识别的结果不够准确。


技术实现要素:



5.本发明的目的在于解决上述现有技术存在的缺陷,提供一种预测结果更加准确的水声目标识别方法、装置与设备。
6.一种水声目标识别方法,包括:
7.获取水声音频信息;
8.根据所述水声音频信息,分别确定隐藏特征向量和时频特征向量;
9.将所述隐藏特征向量和时频特征向量进行拼接,并根据拼接后的特征向量进行分类预测。
10.进一步地,如上所述的水声目标识别方法,所述根据所述水声音频信息确定隐藏特征向量包括:
11.对所述水声音频信息进行特征抽取,以获取一个长度被压缩的特征向量;
12.根据所述长度被压缩的特征向量确定所述隐藏特征向量。
13.进一步地,如上所述的水声目标识别方法,所述对所述水声音频信息进行特征抽取,以获取一个长度被压缩的特征向量包括:
14.将所述水声音频信息分成两路,一路对所述水声音频信息进行特征抽取,得到第一降采样特征;一路对所述水声音频信息进行特征抽取、并对抽取的特征再次进行特征抽取,得到第二降采样特征;
15.将所述第一降采样特征和所述第二降采样特征相加,得到所述长度被压缩的特征向量。
16.进一步地,如上所述的水声目标识别方法,所述根据所述长度被压缩的特征向量确定所述隐藏特征向量包括:
17.将所述长度被压缩的特征向量输入经过训练的波形编码模型进行特征提取,得到所述隐藏特征向量;
18.所述训练的过程为:
19.获取未标注的人声音频信息和水声音频信息;
20.将所述未标注的人声音频信息和水声音频信息混合,得到混合音频信息;
21.将所述混合音频信息输入原始波形编码模型进行训练,得到经过训练的波形编码模型。
22.进一步地,如上所述的水声目标识别方法,所述根据所述水声音频信息确定时频特征向量包括:
23.根据所述水声音频信息确定所述水声音频信息的梅尔谱图;
24.根据所述水声音频信息的梅尔谱图确定所述时频特征向量。
25.一种水声目标识别装置,包括:
26.获取单元,用于获取目标水声音频信息;
27.经过训练的波形编码模型,用于根据所述水声音频信息,确定隐藏特征向量;
28.梅尔谱图编码模型,用于根据所述水声音频信息,确定时频特征向量;
29.拼接单元,用于将所述隐藏特征向量和时频特征向量进行拼接;
30.预测单元,用于对拼接后的特征向量进行分类预测。
31.进一步地,如上所述的水声目标识别装置,还包括特征抽取网络;
32.所述特征抽取网络设在所述获取单元与经过训练的波形编码模型之间,用于对所述水声音频信息进行降采样,以输出一个长度被压缩的特征向量;
33.以所述长度被压缩的特征向量作为所述经过训练的波形编码模型的输入。
34.进一步地,如上所述的水声目标识别装置,所述特征抽取网络包括:第一cnn模块、第二cnn模块、第三cnn模块;
35.所述第三cnn模块用于对所述水声音频信息进行特征抽取,得到第一降采样特征;
36.所述第一cnn模块用于对所述水声音频信息进行特征抽取网络,得到第三降采样特征;所述第二cnn模块用于对所述第三降采样特征进行特征抽取,得到第二降采样特征;
37.合并模块,用于将所述第一降采样特征与第二降采样特征相加,得到所述长度被压缩的特征向量。
38.进一步地,如上所述的水声目标识别装置,所述经过训练的波形编码模型为将原
始波形编码模型进行训练得到的模型;
39.训练的过程为:
40.获取未标注的人声音频信息和水声音频信息;
41.将所述未标注的人声音频信息和水声音频信息混合,得到混合音频信息;
42.将所述混合音频信息输入原始波形编码模型进行训练,得到经过训练的波形编码模型。
43.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述水声目标识别方法。
44.有益效果:
45.本发明提供的水声目标识别方法,通过将水声音频信息进行特征提取,分别提取出隐藏特征向量和时频特征向量,从而使得提取的特征向量更加丰富,然后根据将隐藏特征向量和时频特征向量拼接后的特征向量进行预测,从而提高了预测结果的精确度。
附图说明
46.图1为本发明水声目标识别方法流程图之一;
47.图2为本发明水声目标识别方法流程图之二;
48.图3为本发明提供的水声目标识别装置结构示意图;
49.图4为本发明特征抽取网络结构示意图;
50.图5是本发明提供的transformer encoder的结构示意图;
51.图6是本发明提供的电子设备的结构示意图。
具体实施方式
52.为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.现有的深度学习模型主要是基于卷积神经网络(cnn)实现的,具有稀疏交互、参数共享和等变表示的优点,擅长处理二维图像数据。通过卷积核完成特征的局部提取,然后通过池化降采样完成特征映射,特征逐层抽象提取与映射使得模型能够得到比浅层学习更为抽象稳定的特征。这种方法使得模型更加关注于样本的局部特征,但是对于舰船噪声的时频特征而言,同样重要的全局特征则较少被关注到。目前的深度学习的模型输入通常有波形图和时频图像两种。二者各有优点,均能为模型提供重要的特征信息,但是目前的方法基本都是单模态的输入,即输入为二者中的一种,从而使得最终预测的结果不够精确。
54.图1为本发明水声目标识别方法流程图之一,图2为本发明水声目标识别方法流程图之二,如图1、图2所示,该方法包括:
55.步骤101:获取水声音频信息。
56.步骤102:根据所述水声音频信息,分别确定隐藏特征向量和时频特征向量。
57.步骤103:将所述隐藏特征向量和时频特征向量进行拼接,并根据拼接后的特征向量进行分类预测。
58.具体地,一方面,首先通过一个以cnn组成的特征抽取网络对所述水声音频信息进行压缩,即f:x-》e,输出一个长度被压缩到原来1/4的向量e,之后将向量e送入预训练好的波形编码模型,提取出水声音频信息的隐藏特征向量r
wave

59.r
wave
=f
wave
(e;w
wave
)
60.另一方面,先提取出水声音频信息的梅尔谱图,即m,之后将梅尔谱图m送入梅尔谱图编码模型中,从时频信号中提取出时频特征向量r
mel

61.r
mel
=f
mel
(m;w
mel
)
62.最后将二者拼接起来,送入分类器中进行分类预测。
63.y
pred
=f
cla
(r
wave
,r
mel
;w
cla
)
64.本发明提供的水声目标识别方法,通过将水声音频信息进行特征提取,分别提取出隐藏特征向量和时频特征向量,从而使得提取的特征向量更加丰富,然后根据将隐藏特征向量和时频特征向量拼接后的特征向量进行预测,从而提高了预测结果的精确度。
65.进一步地,所述根据水声音频信息确定隐藏特征向量包括:对水声音频信息进行特征抽取,以获取一个长度被压缩的特征向量;根据所述长度被压缩的特征向量确定所述隐藏特征向量。
66.具体地,为了降低预训练好的波形编码模型的运算量,本发明通过先将水声音频信息进行特征抽取,通过特征抽取的方式将输入的水声音频信息进行自动降采样,同时尽可能保留所有必要信息,以获取一个长度被压缩的特征向量。同时,通过特征抽取还可以去除原始音频中的冗余信息,降低模型的运算量。然后以该长度被压缩的特征向量作为预训练好的波形编码模型的输入,可以高效地得到隐藏特征向量。
67.本发明提供的水声目标识别方法,通过将水声音频信息在送入预训练好的波形编码模型进行特征提取之前,先进行特征抽取,提高了波形编码模型对特征提取的效率。
68.下面对如何根据水声音频信息进行特征抽取,以获取一个长度被压缩的特征向量的实现过程进行详细的说明:
69.将水声音频信息分成两路,一路对所述水声音频信息进行特征抽取,得到第一降采样特征;一路对所述水声音频信息进行特征抽取、并对抽取的特征再次进行特征抽取,得到第二降采样特征;将所述第一降采样特征和所述第二降采样特征相加,得到所述长度被压缩的特征向量。
70.具体地,本发明将水声音频信息分成两路降采样以进行特征抽取,一路经过单核的cnn进行降采样,以提取特征信息;一路经过多核的cnn进行降采样操作,从而提取出一些原本会损失的特征信息,然后将两者相加,得到所述长度被压缩的特征向量。
71.本发明提供的水声目标识别方法,一方面,通过水声音频信息分成两路进行降采样,可以最大可能得保留必要信息,使得抽取的特征更加丰富,从而提高最终水声识别的精确度。另一方面,通过两路降采样,可以去除原始音频中的冗余信息,降低经过训练的波形编码模型的运算量,从而提高最终水声识别的效率。
72.下面对如何根据长度被压缩的特征向量确定隐藏特征向量进行说明:
73.将长度被压缩的特征向量输入经过训练的波形编码模型进行特征提取,得到隐藏特征向量。其中,经过训练的波形编码模型为将原始波形编码模型经过训练得到的。该训练的过程为:获取未标注的人声音频信息和水声音频信息;将未标注的人声音频信息和水声
音频信息混合,得到混合音频信息;将所述混合音频信息输入原始波形编码模型进行训练,得到经过训练的波形编码模型。
74.具体地,由于原始波形编码模型是用于对人声进行特征提取的,本发明为了使波形编码模型对水声音频信息同样能够进行特征提取,需要对原始波形编码模型进行训练,训练的过程为:将未标注的人声音频信息和水声音频信息混合后输入原始波形编码模型进行训练,从而使得经过训练的波形编码模型能够对水声音频信息进行有效识别。从而实现了对原始波形编码模型的迁移,通过训练,使得由对人声音频信息进行识别的波形编码模型迁移至对水声音频信息进行识别的波形编码模型。
75.本发明提供的水声目标识别方法,通过将长度被压缩的特征向量输入经过训练的波形编码模型进行特征提取,实现了波形编码模型的迁移,即由对人声音频信息进行识别的波形编码模型迁移至对水声音频信息能够进行有效识别的波形编码模型,从而提高了对水声音频信息识别的效率和精度。
76.本发明还提供一种水声目标识别装置,图3为本发明提供的水声目标识别装置结构示意图,如图3所示,该装置包括:
77.获取单元,用于获取目标水声音频信息;
78.特征抽取网络;用于对所述水声音频信息进行降采样,以输出一个长度被压缩的特征向量;以所述长度被压缩的特征向量作为经过训练的波形编码模型的输入。
79.经过训练的波形编码模型,用于根据所述水声音频信息,确定隐藏特征向量;
80.梅尔谱图编码模型,用于根据所述水声音频信息,确定时频特征向量;
81.拼接单元,用于将所述隐藏特征向量和时频特征向量进行拼接;
82.预测单元,用于对拼接后的特征向量进行分类预测。
83.进一步地,图4为本发明特征抽取网络结构示意图,如图4所示,所述特征抽取网络包括:第一cnn模块、第二cnn模块、第三cnn模块;
84.所述第三cnn模块用于对水声音频信息进行特征抽取,得到第一降采样特征;
85.所述第一cnn模块用于对水声音频信息进行特征抽取网络,得到第三降采样特征;第二cnn模块用于对第三降采样特征进行特征抽取,得到第二降采样特征;
86.合并模块,用于将所述第一降采样特征与第二降采样特征相加,得到所述长度被压缩的特征向量。
87.具体地,本发明将所述水声音频信息分成两路分别进行降采样操作,并将两路降采样的特征相加,得到一个长度被压缩的特征向量。其中,所述水声音频信息一路通过第三cnn模块对水声音频信息进行降采样来抽取特征,得到第一降采样特征。所述第三cnn模块为一个单核的神经网络。一路依次通过第一cnn模块和第二cnn模块进行降采样操作,进行多次特征提取,从而使得降采样的同时,提取出一些原本会损失的降采样特征,从而尽可能多的保留必要信息。
88.进一步地,所述第一cnn模块的输出、输出、卷积核、步长、填充分别为:1,64,10,2,4;所述第二cnn模块的输出、输出、卷积核、步长、填充分别为:64,1,10,2,4;所述第三cnn模块的输出、输出、卷积核、步长、填充分别为:1,1,10,4,4。
89.进一步地,在上述水声目标识别装置的基础上,所述经过训练的波形编码模型为将原始波形编码模型进行训练得到的模型;训练的过程为:获取未标注的人声音频信息和
水声音频信息;将所述未标注的人声音频信息和水声音频信息混合,得到混合音频信息;将所述混合音频信息输入原始波形编码模型进行训练,得到经过训练的波形编码模型。
90.下面对本发明提供的水声目标识别装置进行详细介绍:
91.本发明提供的装置主要由三部分组成:特征抽取网络、波形编码模型和梅尔谱图编码模型。一方面,首先通过一个以cnn组成的特征抽取网络对水声音频信息进行压缩,即f:x-》e。之后将其送入预训练好的模型波形编码模型,提取出水声音频信息的隐藏特征向量r
wave

92.r
wave
=f
wave
(e;w
wave
)
93.另一方面,先提取出水声音频信息的梅尔谱图,即m,之后将其送入梅尔谱图编码模型中,从时频信号中提取时频特征向量r
mel

94.r
mel
=f
mel
(m;w
mel
)
95.最后将二者拼接起来,送入分类器中进行分类预测。
96.y
pred
=f
cla
(r
wave
,r
mel
;w
cla
)
97.下面对特征抽取网络进行说明:
98.对于水下目标,其主要的噪声来自于机械噪声,集中在低频频段,与人声的频段存在着差别。而由于预训练模型是在人声数据上进行训练的,如果直接将水声音频输入,则会存在着预训练与下游训练的数据集上的差距。而如果将水声音频直接进行降采样输入,则会有可能丢失部分的必要信息。因此,我们设计了一个压缩网络,被用来将输入的音频进行自动降采样,同时尽可能保留所有必要信息。同时,它可以去除原始音频中的冗余信息,降低模型的运算量。该网络由多层卷积神经网络构成,输入原始音频x,输出一个长度被压缩到原来1/4的向量e。
99.波形编码模型
100.波形编码模型是一种以transformer为基础结构用以提取原始波形中的特征向量的自监督模型。该模型由三个部分组成:特征编码模块、上下文特征提取模块、量化模块。首先,原始波形输入到由卷积块、归一化层和gelu激活函数组成的特征编码模块中,用以做简单的特征编码。而之后的输出一方面在经过掩盖后被送入上下文特征提取模块中,用以学习上下文表征,另一方面送入量化模块用以学习离散化特征,最后将上下文表征和离散化特征进行对比学习以使得模型学习到原始波形的特征向量。
101.其中,所述特征编码模块是一个由若干层一维卷积神经网络组成的模型,用以对水声音频信息进行特征提取,将一维的原始音频做简单的特征提取成为二维的特征向量。使用了七层的卷积神经网络,步长为(5,2,2,2,2,2,2),卷积核宽度为(10,3,3,3,3,2,2),相当于每20毫秒产生一个512维的特征向量。
102.所述上下文特征提取模块是一个以transformer为基础结构的上下文特征网络,用以提取特征编码模块中输出的特征向量的上下文表征。
103.具体地,特征编码模块中的输出会被进行随机掩盖,随后被送入该上下文特征提取模块,然后使用被掩盖的特征向量的上下文表示来预测该向量的离散化映射。
104.所述量化模块用于对特征编码模块的输出进行离散化的操作,以实现特征空间的离散化。因为连续值进行预测会比较困难,离散化的预测目标更加容易一些。离散化的方法是先进行gumbel softmax操作,然后出向量中的最大值对应的码本的内容作为输出。
105.下面对本发明提供的波形编码模型中的损失函数进行介绍:
106.损失函数:损失函数分为两部分,分别是对比损失lm和离散损失ld。
107.l=lm+αld108.其中,所述对比损失主要是用来做掩盖的预测掩码t位置的向量为中心,求掩盖t位置向量后的ct,同时从同一句语音的所有掩盖帧里选取k个作为负例,正例则为qt。分别计算其与ct的相似性,使得正例尽可能相似,负例尽可能不相似。
[0109][0110]
离散损失ld主要是用来在量化过程中使每个g中的各个条目出现概率尽可能平均,鼓励尽可能平均的使用码本的各项内容。
[0111][0112]
下面对如何获取经过训练的波形编码模型的实现过程进行介绍:
[0113]
本发明首先使用大量的未标注的人声数据和部分水声数据混合,来对波形编码模型进行预训练,之后把波形编码模型的量化模块去掉,后接一个全连接层,作为经过训练的波形编码模型,该波形编码模型用于提取出压缩后的向量e的隐藏特征向量。
[0114]
具体地,即所述预先训练的波形编码模型包括:特征编码器、上下文特征提取模块、全连接层。压缩后的向量e经过特征编码模块进行特征提取,得到二维特征向量;将所述二维特征向量分别输入上下文特征提取模块和量化模块,通过所述上下文特征提取模块提取所述二维特征向量的上下文表征;通过所述量化模块对所述二维特征向量进行行离散化操作,以得到离散化的特征向量;将所述二维特征向量的上下文表征与所述离散化的特征向量进行对比来计算损失,通过损失调整所述上下文特征提取模块的参数,直到所述损失在预设范围内,以调整后的上下文特征提取模块作为经过训练的波形编码模型的上下文特征提取模块,然后将原波形编码模型中的量化模块去掉,在上下文特征提取模块之后接全连接层,得到经过训练的波形编码模型。
[0115]
下面对梅尔谱图编码模型进行介绍:
[0116]
当使用人声预训练的编码模型实现水声目标识别时,虽然可以更好的捕捉到时序信息,但是由于引入了特征提取网络,这就不可避免的会对频域信息造成影响。考虑到梅尔谱在时频分析的有效性,本发明通过引入transformer encoder来对梅尔谱进行特征提取。
[0117]
综上,本发明提供的模型中的波形编码模型和梅尔谱图编码模型都是由transformer encoder组成的。图5是本发明提供的transformer encoder的结构示意图,如图5所示,transformer主要是由位置编码模块、多头注意力模块、前向反馈三个模块组成。
[0118]
位置编码模块:为了使模型了解序列的位置信息,我们需要向其加入相对位置编码,即位置编码,
[0119][0120][0121]
其中,t代表的时间维度的位置,f代表的是频率的位置。这样编码可以反应其相对位置关系,使模型很容易学习到相对位置信息。
[0122]
多头注意力模块:注意力机制从直觉上来说和人类的注意力分配过程类似,在信息处理的过程中,对不同的信息分配以不同的注意力权重。计算主要分为三步,第一步是将q和k计算相似度得到权重,第二步是除以k的维度的1/2次方,并使用softmax函数对权重进行归一化,最后一步是将权重和相应的v进行加权求和。
[0123][0124]
而多头注意力即代表从多个不同的角度去观察信息的特征,并分配不同的注意力权重,使得信息得以在不同的特征子空间进行信息提取。
[0125]
multihead(q,k,v)=concat(head1,...,headh)wo[0126]
where headi=attention(qw
iq
,kw
ik
,vw
iv
)
[0127]
前向反馈模块:除了注意力层外,编码层中的每个层都包含一个完全连接的前向反馈,它由两个线性变换层组成,中间有一个relu激活。
[0128]
ffn(x)=max(0,xw1+b1)w2+b2[0129]
本发明所提出的方法,在对水中目标进行检测时,相比于其他的模型具有更高的准确率,同时在小样本的情况下同样可以获得较好的效果。
[0130]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communicationsinterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器830中的逻辑指令,以执行水声目标识别方法,该方法包括:
[0131]
获取水声音频信息;
[0132]
根据所述水声音频信息,分别确定隐藏特征向量和时频特征向量;
[0133]
将所述隐藏特征向量和时频特征向量进行拼接,并根据拼接后的特征向量进行分类预测。
[0134]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0135]
实验例:
[0136]
实验数据集选取于实测舰船辐射噪声,采集于丹江口湖试实验。共有三种不同类型的舰船,以多种航线、航速进行航行,并在南北各布置一个八通道的水听器进行被动采集数据,采样频率为48khz。每艘船选取9分钟的数据作为数据集,每条数据为单个通道的2s音频,共3*8*2*9*60/2=12960条数据。其中按照时间来划分,前80%作为训练集,后20%作为测试集,即训练集样本总数为10368,测试集样本总数为2592。
[0137]
超参数设置:我们选取每批量数据大小为32,学习率为0.0001,损失为交叉熵损失,优化器为adamw,并在第一个迭代进行线性的学习率上升,共训练60个迭代,其中每经过
20个迭代,学习率降低为原来的0.2倍。
[0138]
我们首先进行实验对比了不同的模型与不同的输入格式,主要选取了vgg、transformer两个模型和波形图、短时傅里叶变换图、梅尔谱图三种不同的输入格式,用以对比所提出模型的预测效果。实验结果显示,我们的模型的预测准确率为96.99%,相较于其他各自模型都具有明显的优势,见表1。
[0139]
表1
[0140][0141]
而后为了验证提出的压缩网络的有效性,我们进一步进行了对比实验。实验发现,仅仅使用波形编码的模型,而不使用预训练的权重时,准确率较低,这说明较少的水声数据不足以支撑庞大的模型训练。同时4k采样率的波形编码器效果也低于16k采样率的特征抽取网络+波形编码器。这二者说明,我们提出的模型效果较好不是因为大模型,而是迁移学习的作用,同时也说明了特征提取网络(压缩网络)相较于直接降采样的有效性,见表2。
[0142]
表2
[0143][0144]
为了验证提出的模型在小样本数据下的效果,本发明更改了数据集的数量重新实验。只选用水听器中的一个通道作为数据集,即数据量为810,分别选用20%、40%、60%、80%作为训练集进行训练。选用了以梅尔谱图作为输入的transformer模型、以波形图作为输入的vgg模型作为对比进行实验,实验结果显示,在选用20%的数据集训练时,由于数据量过少,各个模型都难以拟合。但是当数据集稍微增多时,尤其是在选用40%*810=324个样本及更多样本作为训练集以后,我们提出的模型能拥有相较于其他模型更高的准确率。这表明,本发明提供的装置,在小样本情况下,能拥有更加强大的预测能力。
[0145]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种水声目标识别方法,其特征在于:包括:获取水声音频信息;根据所述水声音频信息,分别确定隐藏特征向量和时频特征向量;将所述隐藏特征向量和时频特征向量进行拼接,并根据拼接后的特征向量进行分类预测。2.根据权利要求1所述的水声目标识别方法,其特征在于,所述根据所述水声音频信息确定隐藏特征向量包括:对所述水声音频信息进行特征抽取,以获取一个长度被压缩的特征向量;根据所述长度被压缩的特征向量确定所述隐藏特征向量。3.根据权利要求2所述的水声目标识别方法,其特征在于,所述对所述水声音频信息进行特征抽取,以获取一个长度被压缩的特征向量包括:将所述水声音频信息分成两路,一路对所述水声音频信息进行特征抽取,得到第一降采样特征;一路对所述水声音频信息进行特征抽取、并对抽取的特征再次进行特征抽取,得到第二降采样特征;将所述第一降采样特征和所述第二降采样特征相加,得到所述长度被压缩的特征向量。4.根据权利要求2所述的水声目标识别方法,其特征在于,所述根据所述长度被压缩的特征向量确定所述隐藏特征向量包括:将所述长度被压缩的特征向量输入经过训练的波形编码模型进行特征提取,得到所述隐藏特征向量;所述训练的过程为:获取未标注的人声音频信息和水声音频信息;将所述未标注的人声音频信息和水声音频信息混合,得到混合音频信息;将所述混合音频信息输入原始波形编码模型进行训练,得到经过训练的波形编码模型。5.根据权利要求2所述的水声目标识别方法,其特征在于,所述根据所述水声音频信息确定时频特征向量包括:根据所述水声音频信息确定所述水声音频信息的梅尔谱图;根据所述水声音频信息的梅尔谱图确定所述时频特征向量。6.一种水声目标识别装置,其特征包括:获取单元,用于获取目标水声音频信息;经过训练的波形编码模型,用于根据所述水声音频信息,确定隐藏特征向量;梅尔谱图编码模型,用于根据所述水声音频信息,确定时频特征向量;拼接单元,用于将所述隐藏特征向量和时频特征向量进行拼接;预测单元,用于对拼接后的特征向量进行分类预测。7.根据权利要求6所述的水声目标识别装置,其特征在于:还包括特征抽取网络;所述特征抽取网络设在所述获取单元与经过训练的波形编码模型之间,用于对所述水声音频信息进行降采样,以输出一个长度被压缩的特征向量;以所述长度被压缩的特征向量作为所述经过训练的波形编码模型的输入。
8.根据权利要求7所述的水声目标识别装置,其特征在于:所述特征抽取网络包括:第一cnn模块、第二cnn模块、第三cnn模块;所述第三cnn模块用于对所述水声音频信息进行特征抽取,得到第一降采样特征;所述第一cnn模块用于对所述水声音频信息进行特征抽取网络,得到第三降采样特征;所述第二cnn模块用于对所述第三降采样特征进行特征抽取,得到第二降采样特征;合并模块,用于将所述第一降采样特征与第二降采样特征相加,得到所述长度被压缩的特征向量。9.根据权利要求6所述的水声目标识别装置,其特征在于,所述经过训练的波形编码模型为将原始波形编码模型进行训练得到的模型;训练的过程为:获取未标注的人声音频信息和水声音频信息;将所述未标注的人声音频信息和水声音频信息混合,得到混合音频信息;将所述混合音频信息输入原始波形编码模型进行训练,得到经过训练的波形编码模型。10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述水声目标识别方法。

技术总结


本发明提供一种水声目标识别方法、装置与设备。该方法包括:获取水声音频信息;根据所述水声音频信息,分别确定隐藏特征向量和时频特征向量;将所述隐藏特征向量和时频特征向量进行拼接,并根据拼接后的特征向量进行分类预测。本发明提供的水声目标识别方法,通过将水声音频信息进行特征提取,分别提取出隐藏特征向量和时频特征向量,从而使得提取的特征向量更加丰富,然后根据将隐藏特征向量和时频特征向量拼接后的特征向量进行预测,从而提高了预测结果的精确度。测结果的精确度。测结果的精确度。


技术研发人员:

朱培灿 薛洋涛 李学龙 崔晓东 张飞 王震

受保护的技术使用者:

西北工业大学

技术研发日:

2022.07.06

技术公布日:

2022/11/3

本文发布于:2024-09-20 14:51:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/13471.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   向量   所述   水声
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议