基于卷积神经网络的海面显著性目标检测

图像的显著性区域是指由于人类的视觉注意机制,人们会快速地搜索和定位图像中最感兴趣的区域。我国海域十分辽阔,海事海洋的监控管理越来越为重要,海面显著性检测是海事海洋监管图像处理中的重要的预处理步骤,能够迅速提取到图像中的重要关键信息,减少其计算量及处理时间,为后续的海面目标识别与跟踪等提供有效支持。但海面环境复杂,如海面目标经常受到云雾环绕、遮盖等情况,因此提取海面显著目标时容易丢失特征、存在伪影甚至丢失显著性区域。基于上述情况,如何有效地提取海面目标显著性区域一直是国内外科研工作者关注的热点问题。
传统的提取图像显著性区域方法,大致分为生物启发、频域残差、相位谱、背景检验方法等。其中,Itti等[1]以数学归纳的方法从图像强度、图像颜、目标结构三个方面描述了显著性目标特征。Achanta等[2]则在显著性领域上首次将注视点的预测转移到物体区域的二值图的预测上,并逐步发展为主要对图像目标进行检测。将图像中的每个像素颜值、平均颜值、彩图像中
基于卷积神经网络的海面显著性目标检测
贺钰博,刘坤
上海海事大学信息工程学院,上海201306
摘要:海面环境容易受到云雾等气象因素影响,采集到的海面图像对比度减小,噪声干扰较多,导致
目标显著性提取时较难准确完整地获取显著性区域。针对以上问题,提出了一种基于改进的Deeplabv3网络的海面显著性目标检测方法。引用空洞卷积和全局注意力模块提取更多的特征信息。将不同空洞率特征矩阵进行并联,融合图像上下文特征信息。对二分类交叉熵损失函数添加约束项来对云雾遮挡的显著性特征进行约束。通过对大型数据集预训练及海面云雾遮挡数据集的训练后,保存其模型。实验结果表明:提出方法获取的受云雾遮挡干扰时显著性区域变化较小且能够较为完整地描述显著性目标。在遮挡程度为30、50、70情况下,该方法的F-measure值相比于其他几种对比算法平均提高了22.12%、15.83%、13.30%。
关键词:海面目标;卷积神经网络;显著性检测;深度学习;Deeplabv3;全局注意力
文献标志码:A中图分类号:TP391.41doi:10.3778/j.issn.1002-8331.1912-0231
Detection of Sea-Surface Saliency Object Based on Convolutional Neural Network
HE Yubo,LIU Kun
College of Information Engineering,Shanghai Maritime University,Shanghai201306,China
Abstract:The sea-surface environment is obscured to meteorological factors such as fog and the contrast of sea-surface
images collected is reduced with more noise information interference,which makes it difficult to obtain the completed and accurate significance region when extracting the target significance.To solve the above problems,an improved algo-rithm is proposed for detecting sea-surface significance object in Deeplabv3network.More feature information is extracted by using empty convolution and introducing global attention module.Context information of different void rates is con-nected by fusing the characteristic matrices.Then,the constraint term is added to the binary cross entropy loss function to constrain the significance of cloud occlusion.The model is saved after the training of the large data set and the training of the sea surface cloud shielding data set.Experimental results show that the significance region obtained by the method in this paper can describe the target region completely and the significance region changes undetermined when it is disturbed by the proposed method can describe traget region.The average F-measure value of the proposed method is22.12%, 15.83%and13.30%higher than that of other comparison algorithms when the occlusion degree is30,50and70.
Key words:sea-surface object;convolution neural network;saliency detecting;deep learning;Deeplabv3;global attention
基金项目:国家自然科学基金(61803257)。
作者简介:贺钰博(1995—),男,硕士,主要研究领域为图像处理、深度学习、显著性目标检测,E-mail:****************;刘坤(1982—),女,博士,副教授,主要研究领域为智能信息处理与模式识别。
收稿日期:2019-12-16修回日期:2020-02-16文章编号:1002-8331(2021)06-0108-09
的距离作为显著性值,进行逐像素预测。Srivastava等[3]使用背景分块、Gabor滤波、目标与背景最小距离三个参数进行特征信息集合并计算,最后得出显著性目标。Cheng等[4]基于图像颜对比度和颜平滑程度对同频率像素进行排列,根据权值进行逐像素赋值,从而得出显著性图。海面气象环境复杂,云雾遮挡就是海面环境中常遇到的情况之一,传统方法提取被云雾遮挡的舰船等海面目标时会造成图像灰度差值减小,频域权重混乱,并损失一定的低级语义特征,进而影响后续显著性目标的边界轮廓、显著性范围,甚至导致图像无法提取显著性目标。因此面向海面环境的显著性提取时,传统方法在显著性提取时稳定性较差,显著性区域凸显不明显,易受到噪声干扰的影响。
近年来,深度学习逐渐在图像处理领域逐步得到应用。基于深度学习的显著性目标检测领域方法通过神经网络特征提取,可以获得更加丰富的高级语义信息,且由于数据训练量大,其网络参数的泛化能力较强,更能够利用好图像上下文信息。Zhao等[5]提出利用超像素分割和深度卷积神经网络结构框架,并且结合全局背景和局部背景的信息,得出最终的显著性图。Cheng 等[6]在使用VGG模型的基础上,提出了一种并联结构,使神经网络每一层提取的信息都进行并联,减少有用信息特征的损失,并且使用了条件随机场(CRF)进行最后显著性目标预测图的优化。Xi等[7]利用FCN[8]提出了一种端对端的网络,其算法不需要预处理及后期优化,并且提出了一种结合角度的损失函数,使神经网络可以更有效地学习。虽然以上深度学习方法增加了低级、高级语义对显著性的作用[9],并且融合不同层的内容信息,减轻网络加深对图像信息的分散性。但融合各层内容信息的同时,没有整合好高级和低级语义信息,并且只对最显著的目标进行融合对比,并未对云雾等噪声信息进行区分,所以导致无法平滑、精确地恢复边缘轮廓信息。
因此,本文针对海面目标易受海雾干扰的现象,提出了一种基于改进的Deeplabv3网络的云雾遮挡海面图像显著性检测方法。首先,创建海面云雾遮挡图像数据集,可以减小其他因素对显著性区域的影响并且使卷积神经网络能更有效地学习显著性特征。其次,在特征提取过程中使用了空洞卷积[10],可以不通过池化也获取较大的感受野从而提取更多的特征信息,因而对海面云雾遮挡目标的轮廓能够更加准确、平滑。然后,经过不同空洞率卷积的特征矩阵进行并联,融合上下文信息,使得显著性区
域结果更加准确完整。最后,对卷积神经网络原来使用的二分类交叉熵损失函数添加约束项来对其所提取到的显著性特征进行约束,使得从分类器中获取到的显著性目标图能够与真值图接近。实验结果表明本文方法与其他方法相比,在云雾遮挡的海面目标轮廓及显著性区域准确度上,无论是主观视觉评价还是客观指标评价都有着良好的表现。因此本文算法可应用于海面图像在云雾情况下显著性目标检测的预处理步骤,同时为进一步海面目标检测、目标追踪等图像任务提高其算法效率。
1改进的Deeplabv3网络模型
Deeplabv3算法模型[10]基于ResNet[11](Residual Network)残差网络作为网络骨架。ResNet具有较好的残差学习能力,增加网络深度的同时也优化了梯度退化的情况。
现代深度学习方法进行显著性检测时通过连续的池化和下采样层集成了多尺度上下文信息,降低了分辨率,直到获得全局预测。相反,精准的显著性区域预测需要多尺度上下文推理和全分辨率输出。因此,空洞卷积能够解决这一方面的相关问题。Deeplabv3网络在经过残差单元块之后,级联了空洞率(rate)为2的空洞卷积,并且采用了空间金字塔并行结构,利用不同的空洞率来学习多尺度信息特征。因此根据Deeplabv3网络结构的优势及特点,选择其网络结构来进行显著性目标检测。但其显著性结果经过测试后,对于出现一些海面复杂场景及显著性目标较小的情况时,无法准确定位显著性区域,目标轮廓不平滑或缺失。所以在进行显著性特征提取时,需要提高显著性特征的有效性,更具体
地说,由于显著性目标的边缘信息可能被初始显著性图过滤掉,最终的显著性目标结果很难被精确预测。
因此,提出了一个改进的Deeplabv3的网络模型,与Deeplabv3网络相比,引用视觉注意力机制,即增加全局注意力模块,其模块作用如下:
输入图像经过ResNet网络及空洞卷积过后,其特征映射经过optimization层和初始显著性映射时,可以使用注意力机制策略,使特征映射直接与显著性图相乘。当从全局注意力模块获得准确的显著性图时,该策略将有效地抑制遮挡信息的干扰。相反,如果云雾干扰区域归类为显著性区域,则该策略会导致异常分割结果。因此,需要提高初始海面显著性图的有效性。显著性目标的边缘信息可能受到云雾遮挡噪声信息干扰并且被初始显著性图过滤掉,并且在后续处理中难以恢复,因为难以精确预测。另外在实验过程中处于云雾遮挡条件下的目标很难被完全分割。所以提出了一个全局注意力模块,扩大初始海面显著性图的覆盖范围。
S h=MAX(f min_max(Conv g(S i,k)),S i)(1)上述公式表示一个有着高斯核k和偏置为0的卷积操作,其中f min_max其中表示一个归一化函数,来让显著图的范围变为[0,1]。而MAX()的操作表示取最大值函数,使其函数趋向于增加平滑后的S i中显著性区域的权重系数。相较于初始的注意力,提出的全局注意力机制增加了一定计算消耗,但是也进一步高亮了整体
显著性目标。并且高斯核参数设置为变量(Tensor )可以在训练中自动学习,改进的Deeplabv3网络结构如图1所示。
2基于改进的Deeplabv3网络海面云雾遮挡显著性目标检测
基于上述所提出的网络结构模型进行了面向海面图像显著性目标检测研究,为了有效抵抗云雾噪声的影响,提高模型训练的稳定性,对云雾遮挡图像中提取、分析到的云雾特征在神经网络显著性特征中进行遮挡特征约束。因此就可以得到一个能够较为有效抑制云雾的端对端网络,无需前期手动预处理及后期手动优化图像,其结构如图2所示。
模型的训练方法采用Pre-Training+Finetunning [12]方法进行模型的训练与特征提取,将其提取到的特征进行降维、上采样、归一化分类就可得出其受云雾遮挡影响图像的显著性目标图。其部分仿真结果如图3所示,经特征提取后尺寸为14×14通道数为256的特征图经通道合并降维,变为尺寸为14×14通道数为1的特征图,而此时的特征图显著性区域并不明显。于是经归一化分类后,显著性区域及非显
著性区域分类明显,再经上采样后,得到大小为256×256的显著性目标结果。由于Pre-Training 相比于Finetunning 缺少了云雾数据,所以Pre-Training 的仿真结果受云雾影响程度较大,并从显
著性目标仿真结果中可以看出,Finetunning 的仿真结果表现较好。
2.1数据集的建立
贴片变压器在OUT-OMRON [13]和SOC6K [14]
公开数据集中选取
图1改进的Deeplabv3网络结构
显著性区域特征
云雾特征约束
Sigmoid 分类器
归一化分类
双线性
上采样
全局注意
力模块
ResNet-50卷积、池化
输入输出大小比
16
污水处理方法16
16
rate =2、4
并联16
1
1
池化+1×1Conv
1×1Conv 3×3Conv rate =6
3×3Conv rate =12
3×3Conv rate =18
Pooling
图2基于改进的Deeplabv3
网络海面云雾遮挡显著性检测算法
Pre-training 过程提取特征
Finetunning 过程提取特征
通道合并降维
14×14×256
14×14×114×14×1
224×224×1
图3
Pre-Training+Finetunning 训练过程部分特征仿真图
光纤电话机300张海面图片,由于云雾遮挡情况下的图片较少,所以使用柏林噪声进行人工遮挡,然后设置不同的柏林系数来获取30、40、50、60、70五个不同遮挡程度的云雾遮挡图片,并且将其数据集扩充至1800张,选取其1500张作为训练集,300张作为测试集。虽然测试集规模小,但其中背景相对复杂,并均为多显著性目标图,因此具有很高的参考性和测试价值。但即使扩充了数据集,对于神经网络的训练仍然属于少样本训练情况。于是使用Pretrainning+Finetuning的方法进行网络模型的训练,它通过在其他大样本训练中进行预训练并保存其学习的权重,在此基础上进行自己模型的训练,可以有效解决小样本数据集的问题,获得更加准确的模型。因此使用MSRA10K[15]大型公开显著性目标数据集作为预训练数据集,其中含有10000张高像素图片及相对应的10000张人工标注好的真值图验证集,进行100次的迭代,然后保存其网络模型参数。
2.2网络训练
完成模型权重及偏置的初始化设置后,首先假设输入图像的尺寸及通道数为224×224×3,然后使用ResNet50网络进行特征提取,其中最后一层的特征卷积池化后得到14×14×2048的特征图,去掉其ResNet50的全连接层并且级联rate=2、4的空洞卷积层和全局注意力模块。由于空洞卷积不降低其尺寸,所以最后得到是14×14×2048的特征图。
从神经网络提取到14×14×2048的特征图分别通过以下操作:
(1)通过使用256个步长为1的1×1卷积核,得到其特征信息从14×14×2048降维至14×14×256的特征图。
(2)通过使用256个卷积核为3×3,rate=6、12、18的空洞卷积操作分别得到3个14×14×256的特征图。
(3)通过卷积核为256的全局平均池化处理得到14×14×256的特征图。
将其5个14×14×256的特征图矩阵进行并联操作,得到14×14×1280的特征图,经过池化后得到14×14×256的特征图,然后降维至尺寸大小为14×14×1的二维特征矩阵,经双线性上采样后,最终得到大小及通道数为224×224×1的显著性目标图,其过程部分卷积层特征仿真图如图4所示。本文算法将每个通道提取到的关键特征分为两类,相当于对显著性结果图进行逐像素0/1分类:预测像素点为1时即显著性区域、为0时即非显著性区域。
本文优化器算法采用Adam梯度下降法[16](Adaptive Moment Estimation)。Batch_size设置为2,Train_size 设置为352,训练迭代次数为100,初始学习率设置为0.0001。学习率更新策略使用指数衰减法,训练过程中,计算网络模型权重偏差和最终结果输出目标图与真值图的误差,完成前向传播。然后根据损失函数判断其偏差及误差,进行反向传播更新网络权值,并完成数据集的迭代,其过程为:
x l j=f(∑
i∈Mj
x l-1i*k l ij+b l j)(2)其中,x l-1是l-1层的输出,也就是l层的输入,M j表示选择的输入特征图组合,K ij是输入的第i种特征图和输出的第j种特征图之间的连接所用的卷积核,b j是第j种特征图对应的偏置,f是激活函数。
在其预训练模型中固定的权重及偏置的基础上,进行目标云雾遮挡数据集的训练,由于预训练数据集和训练数据集图像目标和真值图较为相近,故预训练参数与训练参数相同,最后训练结束保存其训练模型。如图5所示,利用Pytorch及可视化工具Visdom得出最终的训练、测试过程中loss曲线收敛情况,在训练时迭代10次左右后loss函数能够较为稳定的收敛,在测试时loss函数能够稳定收敛在0.3左右,说明其模型训练结果较为有效和稳定。
网络训练的实质就是损失函数的优化,因此进行特征分析来优化目标函数,使网络尽可能有效的学习。2.3特征分析
海面图像容易受到云雾干扰,导致显著性提取目标轮廓时发生不规则形变、显著性区域误判和显著性目标数量无法准确预测等,影响后续显著性目标图的质量。若将遮挡图像的特征与清晰图像的特征的差异减小,
制备乙酸乙酯的装置
(b)(c)(d)(e)(f)
虚拟传真
224x224x356x56x25628x28x51228x28x102414x14x204814x14x204814x14x256224x224x1
(a)(g)(h)(a)仿真图像(b)ResNet50
Layer1
(c)ResNet50
Layer2
(d)ResNet50
Layer3
(e)ResNet50
Layer4
(f)全局注
意力模块
(g)并联后
池化
(h)显著性
目标图224×224×356×56×25628×28×51228×28×102414×14×204814×14×204814×14×256224×224×1
⋱⋱⋱⋱⋱⋱
图4本文算法训练时部分卷积层特征仿真图
使云雾遮挡噪声特征尽量剔除,那么所得显著性目标结果将较为接近其真值图。因此本文采用特征约束函数来约束云雾遮挡噪声特征,再计算与其真值图之间的误差,通过神经网络的训练,误差逐渐变小,直到得到最终的训练模型。因此针对上述问题设计目标函数:
L =L BCE +λL GF
(3)
其中,λ为目标函数云雾遮挡抵抗系数。L BCE 是二分类交叉熵损失函数,其表达式为:
L BCE =-1N ∑n ∈N -ωn [y n ⋅In σ(x n )+(1-y n )⋅In(1-σ(x n ))](4)
其中,x ,y 为输入二维特征矩阵和其对应的真值图标签,其数值结果均为二维矩阵数组,ω为其对应权值且为自适应变量,随着网络参数的迭代收敛进行改变,将其全部数值代入式(4)即可得到损失函数的值。
本文选用导向滤波作为云雾噪声约束方法,是因为与普通的滤波方式相比,导向滤波在滤波处理过程中加入引导图像中的信息,实现了双边滤波更好的保护边缘及保持边缘的细节。L GF 是目标函数云雾遮挡特征约束项,主要针对训练图像施加,经过约束项计算云雾遮挡特征,然后与神经网络提取的特征进行融合,可以有效抵抗与显著性区域无关的信息影响,提高网络学习效率,其特征约束项L GF 定义为:
L GF =1N ∑n ∈N
(P wh (n )-ΔQ wh (n ))
(5)
其中,P wh 表示大小为为w ×h 的二维特征输入特征矩阵;
ΔQ wh 表示为输入图像进行导向滤波云雾特征约束后所得二维特征矩阵:
ΔQ wh =æèççççççöø
÷÷
÷÷÷÷
q 11q 12…q 1h q 21q 22…q 2h ⋮⋮⋮q w 1q w 2⋯q wh (6)
q i =∑j
W ij (P wh )P j
(7)W ij (G )=1||W 2∑i ,j ∈W
(1+(g i -μk )(g j -μk )
σ2+ε)
(8)
定义W ij 为滤波窗口,q i 为二维特征矩阵中的元
素,P j 为输入图像P wh 的像素,
||W 是窗口的像素总数,μk 为引导图在窗口W 的平均值,σ2为引导图在窗口W 的方差。整理公式(3)~(5)可得目标函数L 为:
L =-1N ∑n ∈N
-ωn [y n ⋅In σ(x n )+(1-y )⋅In(1-σ(x n ))]+
λN ∑n ∈N
(P wh (n )-ΔQ wh (n ))(9)
为了能够直观地理解约束函数对所提取特征的差异,因此引用信息论中的信息熵来度量特征信息[17],熵越大表示图像受云雾特征影响越严重,所含特征越复杂。如表1所示,列出了测试集图像生成的特征在不同遮挡程度下,有无约束函数的平均特征信息熵值与遮挡程度为0时的平均特征熵值差,可以看出随着云雾遮挡程度的加深,无约束目标函数的特征熵值差变化较为明显,而有约束目标函数的特征熵值差虽然也存在变化,但与未加约束条件相比其变化趋势相对较小。说明约束项能够有效地从提取出的特征中,抑制云雾遮挡所带来的影响,因此通过有约束项的目标函数,可以为后续显著性区域的提取及判定提供较为准确的目标结果。
3仿真实验结果对比与分析
3.1实验环境
本文实验是基于64位的Windows 操作系统,CPU 为Intel Xeon Silver 4114和GPU 为NVIDIA GeForce RTX 2080Ti 的深度学习服务器,采用深度学习框架为热轧板
云雾遮挡程度
03040506070
有约束项
熵值1.55±0.142.46±0.232.18±0.183.15±0.262.22±0.213.84±0.39
与遮挡程度为0时的熵值差
—0.90±0.090.63±0.111.59±0.200.67±0.182.28±0.27
无约束项
熵值1.48±0.162.78±0.293.13±0.243.23±0.353.23±0.335.52±0.51
与遮挡程度为0时的熵值差
—1.30±0.211.68±0.191.75±0.271.75±0.244.03±0.38
表1
不同云雾遮挡程度下的平均特征熵值及平均熵值差
102030405060708090100
1.0
0.90.80.70.60.50.40.30.20.10
迭代次数
收敛函数值
Train Loss
2550
751001251501752001.00.90.80.70.60.50.40.30.20.10
测试样本数量
收敛函数值
Test Loss
图5本文网络训练、测试loss 函数收敛曲线

本文发布于:2024-09-24 16:26:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/143418.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:显著性   目标   特征   云雾
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议