一种单步渐进式表征转移学习的鸟声分类方法及装置



1.本发明涉及机器学习技术领域,尤其是一种单步渐进式表征转移学习的鸟声分类方法及装置。


背景技术:



2.鸟类物种的数量是评价环境质量的一个敏感指标,它们在生态平衡和生物多样性方面发挥着重要作用。近年来,《全球鸟类红名录》显示,一系列的鸟类物种正在逐渐威少。监测鸟类和收集鸟类数据成为鸟类物种保护的重要部分。在过去的十年中,被动声学监测(pam)已经成为鸟类监测的主要方法,通过在野生动物活动区域部署声学传周器记录动物鸣声,以非侵入的方式长期获取监测数据。pam收集的数据有助于我们更好分析鸟类活动以为其制定更有效的保护措施,然而,如何处理并利用这些数据确实一个巨大的挑战。
3.随着深度学习的快速发展,深度神经网络已经成功应用于鸟类物种监测和分类。在有监督分类学习下,如果有足够的标注数据,神经网络将会发挥优异的性能,否则将会导致模型发生过拟合现象。然而,给鸟叫声做标记是非常耗费人力与时间的,只有专业的鸟类学家或有经验的鸟类爱好者才能完成。随着自监督学习的出现,监督信息可以从大量的无标注数据中挖掘出来,使神经网络可以先在无标注的数据上进行通用的表征学习,后经过微调应用到下游分类任务。其中,对比学习是自监督学习中非常重要的一部分,被广泛运用在计算机视觉、自然语言处理等领域。对比学习的目标是利用对比损失函数使得正样本在特征空间中的表征距离被映射在一起,正样本和负样本之间在特征空间中的表征距离被拉开。其中正样本是来自于同一输入的增强副本或视图,而负样本是来自不同输入的增强副本或视图。将自监督学习方法迁移到鸟声信号识别领域,可以提高人们对无标注鸟声数据的利用率,降低对标注数据的依赖,同时保持特征泛化性。虽然自监督学习已经成功运用到各种下游任务,但是如果模型只是通过使用下游任务提供的标记信息进行微调,这可能无法利用自我监督学习的通用性和适用性。


技术实现要素:



4.有鉴于此,本发明实施例提供一种单步渐进式表征转移学习的鸟声分类方法及装置,以提高分类能力和泛化能力,并减少训练次数,提高训练效率。
5.本发明实施例的一方面提供了一种单步渐进式表征转移学习的鸟声分类方法,包括:
6.构建鸟声数据集;
7.提取所述鸟声数据集中鸟声数据的梅尔声谱图;
8.对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;
9.构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;
10.构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类
学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;
11.对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;
12.通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。
13.可选地,所述构建鸟声数据集,包括:
14.根据预设的鸟声类别数,预设每个类别的鸟声数据的总时长,进行鸟声数据的收集;其中,每个类别的数据总时长大于或等于1200秒;每个类别的数据包括至少一个音频文件,每个音频文件的时长大于或等于10秒,每个音频文件中的鸟声时长大于或等于音频总时长的50%;音频文件中连续的非鸟声声段的时长小于音频文件总时长的25%;
15.对收集到的鸟声数据集进行数据格式统一化处理;
16.采用分层抽样策略将所述鸟声数据集划分为训练集、验证集和测试集;
17.对所有数据进行独热编码,所述独热编码的编码长度等于鸟声数据集内的鸟类别数。
18.可选地,所述提取所述鸟声数据集中鸟声数据的梅尔声谱图,包括:
19.配置鸟声信号的数据采样点数、帧长信息、帧移信息,计算得到录音总分帧的帧数;
20.对任意相邻两帧进行帧叠处理,得到目标帧;
21.对所述目标帧进行加窗处理,得到加窗后的帧;
22.对每一个加窗后的帧进行dft运算,确定每一帧信号的幅度谱,以对频谱的频点进行分析;
23.根据分析得到的鸟类发声的实际频率上限和下限,根据梅尔频率与实际频率之间的转化关系,确定梅尔频率的上限和下限;
24.构建梅尔滤波器,在鸟声的频率范围内设置多个带通滤波器;
25.将鸟声信号的幅度谱通过梅尔滤波器函数,得到对应的梅尔声谱图。
26.可选地,所述对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图,包括以下至少之一:
27.按照预设的信噪比范围对随机类型的噪声数据进行切片后,叠加到鸟声信号上;所述噪声数据的类型包括白噪声、粉红噪声和棕噪声;
28.或者,将切片数据在时间轴上等距离划分成多份数据,然后将多份数据进行随机顺序的拼接,得到新的鸟声信号;
29.或者,将鸟声信号的所有采样点的幅度值乘以设定幅度增益因子,对鸟声信号进行随机幅度范围的音量调节;
30.或者,对鸟声信号进行时频掩蔽。
31.可选地,所述构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失,包括:
32.构建鸟声信号自监督表征学习分支模型;所述鸟声信号自监督表征学习分支模型包括编码器、投影层和预测层;
33.将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,通过带有梯度停止回传模块的余弦相似度损失函数计算鸟声信号自监督分类学习分支的第一损失。
34.可选地,所述构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失,包括:
35.构建鸟声信号有监督分类学习分支模型;所述鸟声信号有监督分类学习分支模型包括编码器和分类层;
36.将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,通过交叉熵损失函数计算鸟声信号有监督分类学习分支的第二损失。
37.可选地,所述方法还包括:通过配置优化器和学习率,对各条分支的模型进行更新优化;该步骤具体包括:
38.设置epoch次数与设置batchsize个数;
39.采用随机批量梯度下降优化器,并且配置初始学习率;
40.余弦退火学习率策略,选择学习率策略;
41.在训练过程中,当观测到验证集损失值下降转态趋于稳定时完成模型训练。
42.本发明实施例的另一方面还提供了一种单步渐进式表征转移学习的鸟声分类装置,包括:
43.第一模块,用于构建鸟声数据集;
44.第二模块,用于提取所述鸟声数据集中鸟声数据的梅尔声谱图;
45.第三模块,用于对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;
46.第四模块,用于构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;
47.第五模块,用于构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;
48.第六模块,用于对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;
49.第七模块,用于通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。
50.本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
51.所述存储器用于存储程序;
52.所述处理器执行所述程序实现如前面所述的方法。
53.本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
54.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
55.本发明的实施例构建鸟声数据集;提取所述鸟声数据集中鸟声数据的梅尔声谱图;对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;构建鸟声信号有监督分类学习分支,将
所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。本发明能够提高分类能力和泛化能力,并减少训练次数,提高训练效率。
附图说明
56.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
57.图1为本发明实施例提供的整体步骤流程图;
58.图2为本发明实施例提供的测试结果示意图。
具体实施方式
59.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
60.针对现有技术存在的问题,本发明实施例提供了一种单步渐进式表征转移学习的鸟声分类方法,包括:
61.构建鸟声数据集;
62.提取所述鸟声数据集中鸟声数据的梅尔声谱图;
63.对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;
64.构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;
65.构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;
66.对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;
67.通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。
68.可选地,所述构建鸟声数据集,包括:
69.根据预设的鸟声类别数,预设每个类别的鸟声数据的总时长,进行鸟声数据的收集;其中,每个类别的数据总时长大于或等于1200秒;每个类别的数据包括至少一个音频文件,每个音频文件的时长大于或等于10秒,每个音频文件中的鸟声时长大于或等于音频总时长的50%;音频文件中连续的非鸟声声段的时长小于音频文件总时长的25%;
70.对收集到的鸟声数据集进行数据格式统一化处理;
71.采用分层抽样策略将所述鸟声数据集划分为训练集、验证集和测试集;
72.对所有数据进行独热编码,所述独热编码的编码长度等于鸟声数据集内的鸟类别数。
73.可选地,所述提取所述鸟声数据集中鸟声数据的梅尔声谱图,包括:
74.配置鸟声信号的数据采样点数、帧长信息、帧移信息,计算得到录音总分帧的帧数;
75.对任意相邻两帧进行帧叠处理,得到目标帧;
76.对所述目标帧进行加窗处理,得到加窗后的帧;
77.对每一个加窗后的帧进行dft运算,确定每一帧信号的幅度谱,以对频谱的频点进行分析;
78.根据分析得到的鸟类发声的实际频率上限和下限,根据梅尔频率与实际频率之间的转化关系,确定梅尔频率的上限和下限;
79.构建梅尔滤波器,在鸟声的频率范围内设置多个带通滤波器;
80.将鸟声信号的幅度谱通过梅尔滤波器函数,得到对应的梅尔声谱图。
81.可选地,所述对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图,包括以下至少之一:
82.按照预设的信噪比范围对随机类型的噪声数据进行切片后,叠加到鸟声信号上;所述噪声数据的类型包括白噪声、粉红噪声和棕噪声;
83.或者,将切片数据在时间轴上等距离划分成多份数据,然后将多份数据进行随机顺序的拼接,得到新的鸟声信号;
84.或者,将鸟声信号的所有采样点的幅度值乘以设定幅度增益因子,对鸟声信号进行随机幅度范围的音量调节;
85.或者,对鸟声信号进行时频掩蔽。
86.可选地,所述构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失,包括:
87.构建鸟声信号自监督表征学习分支模型;所述鸟声信号自监督表征学习分支模型包括编码器、投影层和预测层;
88.将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,通过带有梯度停止回传模块的余弦相似度损失函数计算鸟声信号自监督分类学习分支的第一损失。
89.可选地,所述构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失,包括:
90.构建鸟声信号有监督分类学习分支模型;所述鸟声信号有监督分类学习分支模型包括编码器和分类层;
91.将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,通过交叉熵损失函数计算鸟声信号有监督分类学习分支的第二损失。
92.可选地,所述方法还包括:通过配置优化器和学习率,对各条分支的模型进行更新优化;该步骤具体包括:
93.设置epoch次数与设置batchsize个数;
94.采用随机批量梯度下降优化器,并且配置初始学习率;
95.余弦退火学习率策略,选择学习率策略;
96.在训练过程中,当观测到验证集损失值下降转态趋于稳定时完成模型训练。
97.本发明实施例的另一方面还提供了一种单步渐进式表征转移学习的鸟声分类装
置,包括:
98.第一模块,用于构建鸟声数据集;
99.第二模块,用于提取所述鸟声数据集中鸟声数据的梅尔声谱图;
100.第三模块,用于对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;
101.第四模块,用于构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;
102.第五模块,用于构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;
103.第六模块,用于对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;
104.第七模块,用于通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。
105.本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
106.所述存储器用于存储程序;
107.所述处理器执行所述程序实现如前面所述的方法。
108.本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
109.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
110.下面结合说明书附图,对本发明的具体实现过程进行详细描述:
111.如图1所示,本发明的整体步骤包括:
112.s1、构建鸟声数据集,并对数据集进行格式统一,训练集验证集划分;
113.s2、提取鸟声数据的梅尔声谱图;
114.s3、对声谱图进行两次不同的数据增强得到2个不同增强版本的增强声谱图;
115.s4、构建编码器、投影层和预测层,构建鸟声信号自监督表征学习分支;对步骤s3的增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的损失;
116.s5、构建编码器和分类层,构建鸟声信号有监督分类学习分支。对步骤s3的增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的损失;
117.s6、构建余弦退火策略,用于对步骤s5,s6得到损失进行加权得到最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;
118.s7、设置优化器,学习率,学习率策略用于更新各分支模型。训练完成后使用有监督分类学习分支模型来预测鸟鸣声;
119.其中,s1具体详情为:
120.1)、鸟声数据集的构建要求:鸟声类别数为ns,各个类别的鸟声数据总时长k
si
,i=
1,2,
…ns
,要求鸟声数据集内的每个类别数据总时长k
si
不低于1200秒,每个类别的数据可以包括若干个音频文件,各个类别中音频文件的时长不能短于10秒,各个音频文件中的鸟声时长不得小于音频文件总时长的50%,音频文件中连续的非鸟声段不能大于整个音频文件总时长的百分之25%。数据集构建要求如表1所示。
121.2)、对以上数据集进行数据格式统一化处理,音频格式:wav,采样频率:32000hz,音频通道数:单通道。
122.表1数据集构建要求
[0123][0124]
3)、采用分层抽样策略将数据集划分为训练集、验证集、测试集,比例为7:3。
[0125]
4)、对所有数据标签进行独热编码,编码长度等于鸟声数据集内的鸟类别数ns。
[0126]
步骤s2具体详情为:
[0127]
1)、记一个鸟声信号的数据采样点数n,设置帧长wlen为1024,帧移inc为512,得录音总分帧帧数nf,记分帧后的每一帧为x
in
(n,λ),其中n为采样点编号,λ为帧编号。
[0128][0129]
2)、将当前帧x
in
(n,λ)与上一帧x
in
(n,λ-1)进行长度为overlap=512的帧叠得到x
on
(n,λ),帧叠后的总长度仍然为wlen,n=0,1,

,wlen-1,。
[0130][0131]
3)、对x
on
(n,λ)进行加窗,窗的类型为汉明窗w(n,α),其中α取0.46,窗长等于帧长点数wlen=1024,由此得到所有加窗后的帧xw(λ,n)。
[0132][0133]
xw(n,λ)=x
on
(n,λ)*w(n,α)0≤n≤wlen-1
ꢀꢀ
(4)
[0134]
4)、对每一帧xw(n,λ)进行n=1024点的dft运算,取dft运算结果的模值得到每一帧信号的幅度谱x(λ,k),k表示频率点,λ为帧编号,由于傅里叶变换的对称性,只对频谱的前nf个频点进行分析,其中nf=n/2+1。
[0135][0136]
5)、根据大多数鸟类发声的实际频率上下限f
l
与fh(单位为hz),这里设置f
l
=300hz,fh=14000hz,根据梅尔频率与实际频率的转化关系:
[0137]
[0138]
待定出梅尔滤波器组的mel频率(单位为mel)上下限,分别为f
mel
(f
l
)与f
mel
(fh)。
[0139]
6)、接着构建梅尔滤波器组,在鸟声的频率范围[f
mel
(f
l
),f
mel
(fh)]内设置若干带通滤波器h(k,m),1≤m≤m,其中k表示频率点,m为滤波器的标号,m为待设滤波器的总数,这里取m=64。h(k,m)滤波器表达式见式(9),每个滤波器具有三角滤波特性,其中心频率为f(m),如式(10)所示。
[0140][0141][0142]
其中,f
l
为滤波器频率范围内的最低频率(单位为hz),fh为滤波器频率范围的最高频率,n为fft的长度,fs为采样频率,为f
mel
(f)的逆函数。
[0143]
7)、将鸟声信号的幅度谱x(k,λ)通过梅尔滤波器函数h(k,m)得到该鸟声信号的梅尔声谱图xh(m,λ)见(11)式。
[0144][0145]
步骤s3具体详情为:
[0146]
1)、对鸟声信号加入噪声数据。噪声类型为白噪声,粉红噪声,棕噪声,每次加入的噪声都为以上的随机一种,按照设定的信噪比范围(min_db,max_db)把噪声切片数据叠加到鸟声信号上。信噪比范围门限需事先设置,例如min_db=3,max_db=15。
[0147]
2)、对鸟声信号进行时间区间位移变换。即将切片数据在时间轴上等距离划分成n等份(n小于等于3),对n等份数据进行随机顺序的拼接,形成新的鸟声信号。
[0148]
3)、对鸟声信号进行音量变换。即将鸟声信号的所有采样点的幅度值乘以设定的幅度增益因子a=10
(b/20)
对其进行随机幅度范围的音量调节,其中b=(min_db,max_db),最大最小分贝门限需事先设置,例如min_db=-12,max_db=12。
[0149]
4)、对鸟声信号进行时频掩蔽。对梅尔谱xh(λ,m)进行频率掩蔽,频率掩蔽的策略是根据不同鸟种发声频率的范围所设置的。设置掩蔽频率通道[m,m+f
*
),其中m∈[f
l
,f
h-f
*
],即f从梅尔带通滤波器组频率上下限f
l
,fh中随机选择,f
*
是可调的掩蔽宽度,一般设置为物种发声频带宽度的20%。接着设置屏蔽频率通道数nf,一般设置为2。对梅尔谱xh(λ,m)进行时间掩蔽,设置掩蔽时间通道[λ,λ+t
*
),其中λ∈[1,总帧数-t
*
],t
*
是可调的时间帧掩蔽宽度,一般设置为切片分帧总帧数的20%(向上取整)。接着设置屏蔽时间通道数n
t
,一般设置为2。
[0150]
5)、以上步骤s3中的1,2,3,4的增强方式按概率p(例如p=0.5)进行随机发生组合作为鸟声信号的数据增强方法。
[0151]
6)、对已经完成时域数据增强方法的鸟声信号命名为增强声谱图。
[0152]
步骤s4具体详情为:
[0153]
1)、构建鸟声信号自监督表征学习分支模型。模型由3部分按顺序组成,分别为编码器,投影层,预测层。其中编码器,投影层与预测层的结构如下表2所示:
[0154]
表2自监督表征学习分支模型
[0155][0156][0157]
2)、自监督表征学习分支模型的损失函数为带有梯度停止回传模块的余弦相似度损失函数,具体如下:
[0158]
p1=h(g(f(x1)))z2=g(f(x1))
ꢀꢀ
(12)
[0159][0160][0161]
其中,x1、x2分别为鸟声信号x的两个不同的增强版本的增强声谱图,f(
·
)表示编码器,g(
·
)表示投影层,h(
·
)表示预测层,d(p1,z2)表示余弦相似度,stopgrad(
·
)表示该分支上的梯度不再进行后续的反向传播过程,p1,p2是图像经过编码器、投影层和预测层的输出向量,z1,z2是图像经过编码器和投影层的输出向量。
[0162]
步骤s5具体详情为:
[0163]
1)、构建鸟声信号有监督分类学习分支模型。模型由2部分按顺序组成,分别为编码器,分类层。其中编码器和分类层的结构如下表3所示:
[0164]
表3有监督分类学习分支模型
[0165]
[0166][0167]
2)、有监督分类学习模型的损失函数为交叉熵损失函数,具体如下:
[0168]
pred=c(f(x1))
ꢀꢀ
(15)
[0169]
l
ce
=crossentropyloss(pred,ture)
ꢀꢀ
(16)
[0170]
其中,x1为鸟声信号x的一个增强版本的增强声谱图,f(
·
)表示编码器,c(
·
)表示分类层,crossentroloss(
·
)为交叉熵损失函数。pred为经过编码器和分类层的输出向量,true是经过独热编码后的标签向量。
[0171]
步骤s6具体详情为:
[0172]
利用余弦退火策略对自监督表征学习分支模型的损失和有监督分类学习模型的损失进行加权,得到最终的损失函数,具体如下:
[0173]
l
final
=λ(t)l
ssl
+(1-λ(t))l
sl
ꢀꢀ
(17)
[0174]
l
ssl
=l
ssl
+1
ꢀꢀ
(18)
[0175]
l
sl
=l
ce
ꢀꢀ
(19)
[0176][0177]
其中t∈[1,epoch]]。
[0178]
步骤s7具体详情为:
[0179]
1)、设置epoch次数与设置batchsize个数,分别为100和32。
[0180]
2)、优化器选取。采用随机批量梯度下降优化器(batch_sgd),设置初始学习率为lnitial_lr为0.001
[0181]
3)、学习率策略选择。采用余弦退火学习率策略,策略具体如下式所示:
[0182][0183]
其中,new_lr是各个epoch训练开始时得到的新的学习率,lnitial_lr是初始的学习率,eta_min是参数eta_min表示最小学习率,t_max表示cos的周期的1/4。例如可设置lnitial_lr=1e-3,eta_min=1e-5,t_max=epoch。
[0184]
在训练过程中,当观测到验证集损失值下降转态趋于稳定时完成模型训练。
[0185]
如图2所示,本发明在智源研究院联合百鸟数据发布大型鸟鸣数据集birdsdata上取得精度为97.9%的成绩,具有显著的改进效果。
[0186]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0187]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考
虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0188]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0189]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0190]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0191]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0192]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0193]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0194]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:


1.一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,包括:构建鸟声数据集;提取所述鸟声数据集中鸟声数据的梅尔声谱图;对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。2.根据权利要求1所述的一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,所述构建鸟声数据集,包括:根据预设的鸟声类别数,预设每个类别的鸟声数据的总时长,进行鸟声数据的收集;其中,每个类别的数据总时长大于或等于1200秒;每个类别的数据包括至少一个音频文件,每个音频文件的时长大于或等于10秒,每个音频文件中的鸟声时长大于或等于音频总时长的50%;音频文件中连续的非鸟声声段的时长小于音频文件总时长的25%;对收集到的鸟声数据集进行数据格式统一化处理;采用分层抽样策略将所述鸟声数据集划分为训练集、验证集和测试集;对所有数据进行独热编码,所述独热编码的编码长度等于鸟声数据集内的鸟类别数。3.根据权利要求1所述的一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,所述提取所述鸟声数据集中鸟声数据的梅尔声谱图,包括:配置鸟声信号的数据采样点数、帧长信息、帧移信息,计算得到录音总分帧的帧数;对任意相邻两帧进行帧叠处理,得到目标帧;对所述目标帧进行加窗处理,得到加窗后的帧;对每一个加窗后的帧进行dft运算,确定每一帧信号的幅度谱,以对频谱的频点进行分析;根据分析得到的鸟类发声的实际频率上限和下限,根据梅尔频率与实际频率之间的转化关系,确定梅尔频率的上限和下限;构建梅尔滤波器,在鸟声的频率范围内设置多个带通滤波器;将鸟声信号的幅度谱通过梅尔滤波器函数,得到对应的梅尔声谱图。4.根据权利要求1所述的一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,所述对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图,包括以下至少之一:按照预设的信噪比范围对随机类型的噪声数据进行切片后,叠加到鸟声信号上;所述噪声数据的类型包括白噪声、粉红噪声和棕噪声;或者,将切片数据在时间轴上等距离划分成多份数据,然后将多份数据进行随机顺序的拼接,得到新的鸟声信号;或者,将鸟声信号的所有采样点的幅度值乘以设定幅度增益因子,对鸟声信号进行随
机幅度范围的音量调节;或者,对鸟声信号进行时频掩蔽。5.根据权利要求1所述的一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,所述构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失,包括:构建鸟声信号自监督表征学习分支模型;所述鸟声信号自监督表征学习分支模型包括编码器、投影层和预测层;将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,通过带有梯度停止回传模块的余弦相似度损失函数计算鸟声信号自监督分类学习分支的第一损失。6.根据权利要求1所述的一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,所述构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失,包括:构建鸟声信号有监督分类学习分支模型;所述鸟声信号有监督分类学习分支模型包括编码器和分类层;将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,通过交叉熵损失函数计算鸟声信号有监督分类学习分支的第二损失。7.根据权利要求1所述的一种单步渐进式表征转移学习的鸟声分类方法,其特征在于,所述方法还包括:通过配置优化器和学习率,对各条分支的模型进行更新优化;该步骤具体包括:设置epoch次数与设置batchsize个数;采用随机批量梯度下降优化器,并且配置初始学习率;余弦退火学习率策略,选择学习率策略;在训练过程中,当观测到验证集损失值下降转态趋于稳定时完成模型训练。8.一种单步渐进式表征转移学习的鸟声分类装置,其特征在于,包括:第一模块,用于构建鸟声数据集;第二模块,用于提取所述鸟声数据集中鸟声数据的梅尔声谱图;第三模块,用于对所述梅尔声谱图进行不同的数据增强处理,得到不同增强版本的增强声谱图;第四模块,用于构建鸟声信号自监督表征学习分支,将所述增强声谱图作为鸟声信号自监督表征学习分支的输入,计算鸟声信号自监督分类学习分支的第一损失;第五模块,用于构建鸟声信号有监督分类学习分支,将所述增强声谱图作为鸟声信号有监督分类学习分支的输入,计算鸟声信号有监督分类学习分支的第二损失;第六模块,用于对所述第一损失和所述第二损失进行加权,得到最终损失;所述最终损失用于更新自监督表征学习分支模型和有监督分类学习分支模型;第七模块,用于通过所述有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。9.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。

技术总结


本发明公开了一种单步渐进式表征转移学习的鸟声分类方法及装置,方法包括:构建鸟声数据集;提取鸟声数据的梅尔声谱图;对梅尔声谱图进行不同的数据增强处理,得到增强声谱图;构建鸟声信号自监督表征学习分支,将增强声谱图作为鸟声信号自监督表征学习分支的输入,计算第一损失;构建鸟声信号有监督分类学习分支,将增强声谱图作为鸟声信号有监督分类学习分支的输入,计算第二损失;对第一损失和第二损失进行加权,得到最终损失;通过有监督分类学习分支模型对待预测的鸟鸣声进行预测,确定鸟声类型。本发明能够提高分类能力和泛化能力,并减少训练次数,提高训练效率,可广泛应用于机器学习技术领域。用于机器学习技术领域。用于机器学习技术领域。


技术研发人员:

李清荣 张承云 高星辉 詹海松 李一帆

受保护的技术使用者:

广州大学

技术研发日:

2022.07.20

技术公布日:

2022/11/3

本文发布于:2024-09-20 11:56:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/13470.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:鸟声   所述   声谱   分支
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议