基于水声辐射音频数据的船舶分类方法及系统

1.本技术涉及水声辐射音频数据处理技术领域，特别涉及一种基于水声辐射音频数据的船舶分类方法及系统。

背景技术：

2.随着航运业的快速发展，船舶量也不断增加。为了保障航运交通安全，维护航运交通秩序，提高营运效率，船舶准确分类显得尤为重要。
3.目前的船舶分类方法先通过短时傅里叶变换得到水声辐射音频数据的lofar(low frequency analysis and recording)谱，再从lofar谱中提取线谱获得水声辐射音频数据的特征向量，再进行分类。
4.但是船舶噪声产生原理非常复杂，水下的复杂环境也会使得船舶产生的水声辐射音频数据叠加严重的噪声。目前的船舶分类方法得到的分类结果类间相似度很大，分类效果差。

技术实现要素：

5.为了解决目前的船舶分类得到的分类结果类间相似度很大，分类效果差的问题，本技术通过以下方面提供了一种基于水声辐射音频数据的船舶分类方法及系统。
6.本技术的第一方面提供了一种基于水声辐射音频数据的船舶分类方法，包括：
7.获取训练数据，其中训练数据包括多个预先收集的样本水声辐射音频数据和对应的类别信息；
8.对样本水声辐射音频数据进行格式调整，得到样本中间音频数据；其中，各个样本中间音频数据的长度、通道数量以及采样频率相同；
9.对样本中间音频数据进行第一增强处理，得到样本增强音频数据；
10.将样本增强音频数据转换成样本梅尔谱图；
11.将样本梅尔谱图进行第二增强处理，得到样本待分类声谱图；
12.使用样本待分类声谱图和对应的类别信息对待训练的船舶分类模型进行训练，得到已训练的船舶分类模型；
13.使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。
14.可选的，所述船舶分类方法还包括：获取待分类船舶的目标水声辐射音频数据；
15.对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图。
16.可选的，对样本水声辐射音频数据进行格式调整，得到样本中间音频数据，包括：
17.将样本水声辐射音频数据中的第一音频通道复制到第二音频通道，得到样本双通道音频数据；
18.将样本双通道音频数据的采样频率按照44100hz进行标准化，得到样本标准音频数据；
19.将样本标准音频数据的音频长度调整成预设长度，得到样本中间音频数据。
20.可选的，将样本标准音频数据的音频长度调整成预设长度，得到样本中间音频数据，包括：
21.当样本标准音频数据的音频长度小于预设长度时，对样本标准音频数据采用静音填充的方式，得到样本中间音频数据；
22.当样本标准音频数据的音频长度大于预设长度时，对样本标准音频数据采用截断的方式，得到样本中间音频数据。
23.可选的，对样本中间音频数据进行第一增强处理，得到样本增强音频数据，包括：
24.将样本中间音频数据在时间维度上向左或者向右移动随机量，得到样本增强音频数据。
25.可选的，将样本梅尔谱图进行第二增强处理，得到样本待分类声谱图，包括：
26.在样本梅尔谱图上进行频率屏蔽和时间掩码操作，得到样本待分类声谱图。
27.可选的，船舶分类模型包括卷积神经网络、与卷积神经网络连接的二元自适应均值汇聚层、以及二元自适应均值汇聚层连接的分类器。
28.可选的，对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图，包括：
29.将目标水声辐射音频数据进行格式调整，得到目标中间音频数据，其中目标中间音频数据的长度、通道数量以及采样频率与样本中间音频数据相同；
30.对目标中间音频数据转换成目标梅尔谱图，其中目标待分类声谱图为目标梅尔谱图。
31.可选的，对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图，包括：
32.将目标水声辐射音频数据进行格式调整，得到目标中间音频数据，其中目标中间音频数据的长度、通道数量以及采样频率与样本中间音频数据相同；
33.将目标中间音频数据进行第一增强处理，得到目标增强音频数据；
34.将目标增强音频数据转换成目标梅尔谱图；
35.将目标梅尔谱图进行第二增强处理，得到目标待分类声谱图。
36.本技术第二方面提供了一种基于水声辐射音频数据的船舶分类系统，包括：
37.数据获取单元，用于获取待分类传播的目标水声辐射音频数据；
38.预处理单元，用于对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图；
39.分类单元，用于使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别；
40.其中分类单元中的已训练的船舶分类模型通过以下方法训练：
41.获取训练数据，其中训练数据包括多个预先收集的样本水声辐射音频数据和对应的类别信息；
42.对样本水声辐射音频数据进行格式调整，得到样本中间音频数据；其中，各个样本中间音频数据的长度、通道数量以及采样频率相同；
43.对样本中间音频数据进行第一增强处理，得到样本增强音频数据；
44.将样本增强音频数据转换成样本梅尔谱图；
45.将样本梅尔谱图进行第二增强处理，得到样本待分类声谱图；
46.使用样本待分类声谱图和对应的类别信息对待训练的船舶分类模型进行训练，得到已训练的船舶分类模型。
47.本技术提供了一种基于水声辐射音频数据的船舶分类方法及系统。所述船舶分类方法包括获取待分类船舶的目标水声辐射音频数据；对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图；使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。所述船舶分类方法得到的分类结果精度高。
附图说明
48.图1为本技术实施例提供的一种基于水声辐射音频数据的船舶分类方法的流程示意图；
49.图2为本技术实施例提供的一种基于水声辐射音频数据的船舶分类方法中的船舶分类模型的训练方法的流程示意图；
50.图3为本技术实施例提供的一种基于水声辐射音频数据的船舶分类方法中得到样本中间音频数据的流程示意图；
51.图4为本技术实施例提供的一种基于水声辐射音频数据的船舶分类系统的结构示意图。
具体实施方式
52.为了解决目前的船舶分类得到的分类结果类间相似度很大，分类效果差的问题，本技术通过以下实施例提供了一种基于水声辐射音频数据的船舶分类方法及系统。
53.参见图1，本技术第一实施例提供了一种基于水声辐射音频数据的船舶分类方法。如图1所示，所述船舶分类方法包括步骤11-步骤13。
54.步骤11，获取待分类船舶的目标水声辐射音频数据。
55.步骤12，对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图。
56.步骤13，使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。
57.在本实施例中，已训练的船舶分类模型通过图2所示的方法训练得到。如图2所示，已训练的船舶分类模型的训练方法包括步骤21-步骤26。
58.步骤21，获取训练数据，其中训练数据包括多个预先收集的样本水声辐射音频数据和对应的类别信息。
59.在一种实现方式中，训练数据使用公开的音频数据集，示例性的，使用deepship数据集。需要说明的是，本实施例中的船舶分类模型也可以使用其他数据集，只需知道每个音频数据对应的正确分类即可。在实际训练过程中，可以将deepship数据集中的音频数据按照8:2的比例分为训练集和测试集，其中训练集即本实施例所述的训练数据，测试集用于在船舶分类模型训练好之后验证训练好得到的模型的性能指标。
60.获取训练数据时，样本水声辐射音频数据是后缀名wav的可播放的音频数据。根据
所使用的样本水声辐射音频数据的文件结构，提取对应的csv(comma-separated values，字符分隔值)文件。cvs文件中包括每个水声辐射音频数据的文件名、路径和类别信息，提供了训练模型需要的信息。
61.步骤22，对样本水声辐射音频数据进行格式调整，得到样本中间音频数据；其中，各个样本中间音频数据的长度、通道数量以及采样频率相同。
62.不同数据集的音频数据所采用的通道数量、长度和采样频率可能存在不同；同一个数据集中的音频数据所采用的通道数量、长度和采样频率可能存在不同，所以要先对样本水声辐射音频数据进行格式调整，统一训练数据的格式。在一种实现方法，如图3所示，对样本水声辐射音频数据进行格式调整，得到样本中间音频数据，包括步骤31-步骤33。
63.步骤31，将样本水声辐射音频数据中的第一音频通道复制到第二音频通道，得到样本双通道音频数据。一些声音文件是单声道(即一个音频通道)，而大多数则是立体声(即两个音频通道)。由于船舶分类模型期望所有输入数据都具有相同的尺寸，因此统一将训练数据中第一个通道复制到第二个通道，即得到的样本双通道音频数据都具有两个音频通道。
64.步骤32，将样本双通道音频数据的采样频率按照44100hz进行标准化，得到样本标准音频数据。不同数据集的音频数据的采样频率可能是48000hz，也可能是44100hz。在本实施例中，将训练数据和待分类数据的采样频率都统一按照44100hz进行标准化。
65.步骤33，将样本标准音频数据的音频长度调整成预设长度，得到样本中间音频数据。
66.在一种实现方式中，当样本标准音频数据的音频长度小于预设长度时，对样本标准音频数据采用静音填充的方式，得到样本中间音频数据；当样本标准音频数据的音频长度大于预设长度时，对样本标准音频数据采用截断的方式，得到样本中间音频数据。
67.步骤23，对样本中间音频数据进行第一增强处理，得到样本增强音频数据。
68.在一种实现方式中，将样本中间音频数据在时间维度上向左或者向右移动随机量，得到所述样本增强音频数据。示例性的，应用时间偏移将音频左右移动随机量来对水声辐射数据进行数据增强。
69.步骤24，将样本增强音频数据转换成样本梅尔谱图。其中，因为音频数据经过傅里叶变换得到的声谱图较大，为了得到大小合适的音频数据的特征，并且保留音频数据的基本特征，本实施例采用梅尔谱图作为船舶分类模型的输入，保留了音频数据的基本特征，又减少了模型训练输入数据的大小，船舶分类模型的训练速度快。
70.步骤25，将样本梅尔谱图进行第二增强处理，得到样本待分类声谱图。
71.在一种实现方式中，在样本梅尔谱图上进行频率屏蔽和时间掩码操作，得到样本待分类声谱图。其中，频率屏蔽指在梅尔谱图上添加水平条来随机屏蔽一系列连续的频率；时间掩码是指使用竖线从频谱图中随机遮挡时间范围。本实施例得到的样本待分类声谱图的大小为16*2*64*344。
72.步骤24和步骤25对训练数据进行数据增强，增加训练数据的多样性，使得船舶分类模型能够更好的模拟“水下复杂环境使得船舶产生的水声辐射音频数据叠加严重的噪声”这一场景，提高训练出的船舶分类模型的分类准确率。
73.步骤26，使用样本待分类声谱图和对应的类别信息对待训练的船舶分类模型进行
训练得到已训练的船舶分类模型。
74.在一种实现方式中，船舶分类模型包括卷积神经网络、与卷积神经网络连接的二元自适应均值汇聚层、以及二元自适应均值汇聚层连接的分类器。卷积神经网络对输入的目标待分类声谱图进行特征提取，得到向量形式的特征数据；然后通过二元自适应均值汇聚层将特征数据进行整理，将特征数据重组成适合于分类器的格式输入到分类其中，最终分类器进行分类输出目标类别。
75.其中，卷积神经网络包括4个卷积层，第一个卷积层的卷积核大小为5*5，步长为2，激活函数为relu，之后三个卷积层的卷积核大小都为3*3，步长都为2，激活函数都为relu。关于分类器，示例性的，使用python包torch.nn.linear分类器。在使用的过程中，torch.nn.linear分类器只需将输入的特征数和输出的特征数传递给torch.nn.linear类，就会自动生成对应维度的权重参数和偏置。
76.需要说明的是，卷积神经网络中卷积层的数量不限于4层，可以是5层，也可以是3层，本技术对卷积神经网络中卷积层的数量不做具体限定。
77.船舶分类模型训练好之后，可以使用测试集来验证模型的分类准确率。在一种实现方式中，将公开的数据集deepship按照8:2的比例分成两部分，80％作为训练集，20％作为测试集，用于验证训练好的船舶分类模型的分类准确率。如果通过验证，发现训练的船舶分类模型的分类结果不好，可以通过以下两种方式进行改进：一个是改进训练数据集，通过收集更多的数据，或者使用数据增强技术扩充训练数据集；另一个是改进船舶分类模型的结构，例如，增加更多的卷积层。通过验证实验得到本实施例提供的船舶分类方法的分类准确率在90％
±
1.5％。
78.在一种实现方式中，在步骤12中，对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图，包括：将目标水声辐射音频数据进行格式调整，得到目标中间音频数据，其中目标中间音频数据的长度、通道数量以及采样频率与样本中间音频数据相同；对目标中间音频数据转换成目标梅尔谱图，其中目标待分类声谱图为目标梅尔谱图。
79.如此，目标水声辐射音频数据的数据格式按照船舶分类模型的训练数据的格式调整方法进行调整，先将音频数据格式进行统一，再转换成梅尔谱图，使用训练好的船舶分类模型进行分类，得到待分类船舶的目标类别。
80.示例性的，先对将目标水声辐射音频数据中的第一音频通道复制到第二音频通道，得到目标双通道音频数据；将目标双通道音频数据的采样频率按照44100hz进行标准化，得到目标标准音频数据；将目标标准音频数据的音频长度调整成预设长度，得到目标中间音频数据。
81.在另一种实现方式中，步骤12中，对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图，包括：将目标水声辐射音频数据进行格式调整，得到目标中间音频数据，其中目标中间音频数据的长度、通道数量以及采样频率与样本中间音频数据相同；将目标中间音频数据进行第一增强处理，得到目标增强音频数据；将目标增强音频数据转换成目标梅尔谱图；将目标梅尔谱图进行第二增强处理，得到目标待分类声谱图。
82.如此，在将音频数据格式进行统一之后，得到目标中间音频数据，再按照与样本数据相同的方式进行数据增强，再转换成目标梅尔谱图；然后对目标梅尔谱图进行又一轮的
数据增强，得到目标待分类声谱图，再使用训练好的船舶分类模型进行分类，得到待分类船舶的目标类别。
83.在这种实现方式中，不仅将目标水声辐射音频数据的数据格式进行了统一，还按照船舶分类模型的数据增强方式对目标中间音频数据进行了数据增强，对目标梅尔谱图也再次进行了增强，得到的目标待分类声谱图与船舶分类模型训练数据的样本待分类声谱图具有相似性，分类器更容易判断目标类别。
84.示例性的，将目标中间音频数据进行第一增强处理，得到目标增强音频数据，包括：将目标中间音频数据在时间维度上向左或者向右移动随机量，得到目标增强音频数据。将目标增强音频数据转换成目标梅尔谱图；将目标梅尔谱图进行第二增强处理，得到目标待分类声谱图，包括：在目标梅尔谱图上进行频率屏蔽和时间掩码操作，得到目标待分类声谱图
85.本实施例提供了一种基于水声辐射音频数据的船舶分类方法，所述船舶分类方法获取待分类船舶的目标水声辐射音频数据；对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图；使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。所述船舶分类方法得到的分类结果精度高。
86.与前述一种基于水声辐射音频数据的船舶分类方法的实施例相对应，本技术第二实施例提供了一种基于水声辐射音频数据的船舶分类系统。参见图4，所述船舶分类系统包括数据获取单元41、预处理单元42和分类单元43。
87.数据获取单元41，用于获取待分类传播的目标水声辐射音频数据。
88.预处理单元42，用于对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图。
89.分类单元43，用于使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。其中分类单元43中的已训练的船舶分类模型通过以下方法训练：获取训练数据，其中训练数据包括多个预先收集的样本水声辐射音频数据和对应的类别信息；对样本水声辐射音频数据进行格式调整，得到样本中间音频数据；其中，各个样本中间音频数据的长度、通道数量以及采样频率相同；对样本中间音频数据进行第一增强处理，得到样本增强音频数据；将样本增强音频数据转换成样本梅尔谱图；将样本梅尔谱图进行第二增强处理，得到样本待分类声谱图；使用样本待分类声谱图和对应的类别信息对待训练的船舶分类模型进行训练，得到已训练的船舶分类模型。
90.本技术提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本技术总的构思下的几个示例，并不构成本技术保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本技术方案所扩展出的任何其他实施方式都属于本技术的保护范围。

技术特征：

1.一种基于水声辐射音频数据的船舶分类方法，其特征在于，包括：获取训练数据，其中所述训练数据包括多个预先收集的样本水声辐射音频数据和对应的类别信息；对所述样本水声辐射音频数据进行格式调整，得到样本中间音频数据；其中，各个所述样本中间音频数据的长度、通道数量以及采样频率相同；对所述样本中间音频数据进行第一增强处理，得到样本增强音频数据；将所述样本增强音频数据转换成样本梅尔谱图；将所述样本梅尔谱图进行第二增强处理，得到样本待分类声谱图；使用所述样本待分类声谱图和对应的类别信息对待训练的船舶分类模型进行训练，得到已训练的船舶分类模型；使用所述已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。2.根据权利要求1所述的船舶分类方法，其特征在于，所述船舶分类方法还包括：获取所述待分类船舶的目标水声辐射音频数据；对所述目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图。3.根据权利要求1所述的船舶分类方法，其特征在于，所述对所述样本水声辐射音频数据进行格式调整，得到样本中间音频数据，包括：将所述样本水声辐射音频数据中的第一音频通道复制到第二音频通道，得到样本双通道音频数据；将所述样本双通道音频数据的采样频率按照44100hz进行标准化，得到样本标准音频数据；将所述样本标准音频数据的音频长度调整成预设长度，得到所述样本中间音频数据。4.根据权利要求2所述的船舶分类方法，其特征在于，所述将所述样本标准音频数据的音频长度调整成预设长度，得到所述样本中间音频数据，包括：当所述样本标准音频数据的音频长度小于所述预设长度时，对所述样本标准音频数据采用静音填充的方式，得到所述样本中间音频数据；当所述样本标准音频数据的音频长度大于所述预设长度时，对所述样本标准音频数据采用截断的方式，得到所述样本中间音频数据。5.根据权利要求1所述的船舶分类方法，其特征在于，所述对所述样本中间音频数据进行第一增强处理，得到样本增强音频数据，包括：将所述样本中间音频数据在时间维度上向左或者向右移动随机量，得到所述样本增强音频数据。6.根据权利要求1所述的船舶分类方法，其特征在于，所述将所述样本梅尔谱图进行第二增强处理，得到样本待分类声谱图，包括：在所述样本梅尔谱图上进行频率屏蔽和时间掩码操作，得到所述样本待分类声谱图。7.根据权利要求1所述的船舶分类方法，其特征在于，所述船舶分类模型包括卷积神经网络、与所述卷积神经网络连接的二元自适应均值汇聚层、以及所述二元自适应均值汇聚层连接的分类器。8.根据权利要求2所述的船舶分类方法，其特征在于，对所述目标水声辐射音频数据按
照预设转换方法进行处理，得到目标待分类声谱图，包括：将所述目标水声辐射音频数据进行格式调整，得到目标中间音频数据，其中所述目标中间音频数据的长度、通道数量以及采样频率与所述样本中间音频数据相同；对所述目标中间音频数据转换成目标梅尔谱图，其中所述目标待分类声谱图为所述目标梅尔谱图。9.根据权利要求2所述的船舶分类方法，其特征在于，对所述目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图，包括：将所述目标水声辐射音频数据进行格式调整，得到目标中间音频数据，其中所述目标中间音频数据的长度、通道数量以及采样频率与所述样本中间音频数据相同；将所述目标中间音频数据进行第一增强处理，得到目标增强音频数据；将所述目标增强音频数据转换成目标梅尔谱图；将所述目标梅尔谱图进行第二增强处理，得到目标待分类声谱图。10.一种基于水声辐射音频数据的船舶分类系统，其特征在于，包括：数据获取单元，用于获取待分类船舶的目标水声辐射音频数据；预处理单元，用于对所述目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图；分类单元，用于使用已训练的船舶分类模型对所述目标待分类声谱图进行分类处理，得到所述待分类船舶的目标类别；其中所述分类单元中的所述已训练的船舶分类模型通过以下方法训练：获取训练数据，其中所述训练数据包括多个预先收集的样本水声辐射音频数据和对应的类别信息；对所述样本水声辐射音频数据进行格式调整，得到样本中间音频数据；其中，各个所述样本中间音频数据的长度、通道数量以及采样频率相同；对所述样本中间音频数据进行第一增强处理，得到样本增强音频数据；将所述样本增强音频数据转换成样本梅尔谱图；将所述样本梅尔谱图进行第二增强处理，得到样本待分类声谱图；使用所述样本待分类声谱图和对应的类别信息对待训练的船舶分类模型进行训练，得到所述已训练的船舶分类模型。

技术总结

本申请提供了一种基于水声辐射音频数据的船舶分类方法及系统。所述船舶分类方法包括获取待分类船舶的目标水声辐射音频数据；对目标水声辐射音频数据按照预设转换方法进行处理，得到目标待分类声谱图；使用已训练的船舶分类模型对目标待分类声谱图进行分类处理，得到待分类船舶的目标类别。所述船舶分类方法得到的分类结果精度高。到的分类结果精度高。到的分类结果精度高。