基于改进MnasNet网络的低分辨率图像分类算法

142传感器与微系统(Transducer  and  Microsystem  Technologies)2021年第40卷第2期
DOI : 10.13873/J. 1000-9787(2021)02-0142-04
基于改进MnasNet 网络的低分辨率图像分类算法*
*收稿日期=2019-07-09
*基金项目:国家自然科学基金资助项目(5136501乙61305019);江西省研究生创新专项资金资助项目(YC2018-S328)
杨国亮,朱晨,李放,吴志刚
(江西理工大学电气工程与自动化学院,江西赣州341000)
摘 要:针对MnasNet 网络在CIFAR-10等低分辨率图像数据集上识别率较低的问题,提出一种基于金字 塔型的轻量化卷积瓶颈块取代原网络中的倒置残差瓶颈块,构建改进的MnasNet 网络(PSMnasNel)。首 先,基于图片的分辨率,调整部分瓶颈块的下采样;然后结合空间金字塔池化方法构建金字塔结构瓶颈 (PSBottleneck)块;最后在金字塔型的轻量化卷积瓶颈块中引入超参数控制瓶颈块的空间复杂度和时间复 杂度。在CIN1C-10低分辨率图像数据集的实验结果表明:由金字塔型的轻量化卷积瓶颈块组成的PS-
MnasNet 网络的参数量比原MnasNet 网络减少约22.3%,而且网络的分类精度提高约13.3 %。关键词:轻量化卷积神经网络;图像分类;金字塔结构;低分辨率图像
中图分类号:TP183 文献标识码:A  文章编号:1000-9787(2021 )02-0142-04Classification  algorithm  of  low-resolution  images  based  on
improved  MnasNet *
YANG  Guoliang , ZHU  Chen , LI  Fang, WU  Zhigang
(School  of  Electrical  Engineering  and  Automation , Jiangxi  University  of  Science  and  Technology , Ganzhou  341000, China )
Abstract : Aiming  at  the  problem  of  low  recognition  rate  of  MnasNet  network  on  low-resolution  image  datasets , e. g. CIFAR-10, propose  a  lightweight  convolutional  bottleneck  block  based  on  pyramid  structure  for  building  a  novel  PSMnasNel  network ・ Firstly , adjust  the  downsampling  in  some  bottleneck  blocks  what  based  on  the  resolution  of  the  image. Then , utilize  the  spatial  pyramid  pooling  method  to  construct  the  pyramid  structure  bottleneck  (PSBottleneck) block. Finally , hypeiparametric  beta  is  embedded  into  the  PSBottlene
ck  to  control  the  spatial  complexity  and  time  complexity. The  experimental  results  in  the  CINIC-10 clalasel  show  th a l  the  PSMnasNel  network  consisting  of  the  PSBottleneck  has  a  parameter  reduction  of  approximately  22. 3 % compared  to  the  original  MnasNet  network ・ At  the  same  time ,the  classification  precicion  of  the  network  is  increased  by  nearly  13.3%・ Keywords : lightweight  convolutional  neural  network  ; images  classification  ; pyiamid  structure  ; low-resolution  images
0引言图像识别作为计算机视觉的基本任务之一,已被广泛 应用于安防⑴、交通⑵、医疗等领域。低分辨率图像作为 一种数据量小、易于传输的数据表达形式,占据了全部图片 相当大的比重。常见于商品"go,社交账号头像等对图像 细节要求不高的领域,或者是摄像时镜头与目标距离较远, 导致物体在整张图片中占用像素点较少的目标图像,例如 地理系统的遥感图像、航拍图像等。研究发现卷积层的数量(深度)在神经网络中扮演至
关重要的角,VGG,GoogLeNet,ResNet ⑶等具有更深层结 构的神经网络相继出现,刷新神经网络的分类精度,而与之 伴随的是算法中参数量的巨大增加,无法应用于容量有限 的嵌入式设备中,实际应用受限。为解决这一问题,研究者
们提出了如 MobileNet ⑷,MobileNetV2[5] , MnasNet ⑹等人 轻量化卷积神经网络,大量减少网络计
算的参数量,并能够 保持与ResNet 等算法相近的准确度,降低网络的复杂度。 部分轻量化卷积神经网络的应用也有限制,据文献[6]所 述,MnasNet 网络在常用分辨率图像(224 x224)中识别速 度快、精度高,但是识别低分辨率图像的精度一般。本文针对MnasNet 网络在无法高效识别低分辨率图像
内容问题,对网络模块进行改进,将改进后的网络模块在 CIFAR-10数据集中做消融实验,寻最优的网络架构,并 于CINIC-10数据集中验证。
第2期杨国亮,等:基于改进MnasNet 网络的低分辨率图像分类算法1431算法介绍1. 1轻量化卷积结构利用深度可分离卷积结构的MobileNel 网络不同于标 准卷积将输入特征图计算、输出一次完成,深度可分离卷积 将这一过程分解成深度卷积(deplhwise)和逐点卷积(point ­wise) 两个步骤完成。深度卷积将输入的每张特征图进行单独计算,逐点卷 积就是1x1的卷积用于将每个深度卷积的输出组合为一 个整体。假设输入一个H x W x M 的特征图X,输出特征图 Y 为H x W x N,卷积核的尺寸为K,则普通卷积的计算量为芒xMxNxHxW 而深度可分离卷积的计算量为K 2 xMxHxW+MxNxHxW  将两种卷积的计算量进行比对K 2 xMx//x 即1 1/C 2 xMxNxHxW  一 N  K 2假设卷积神经网络使用K=3的卷积核,则相对标准卷 积结构,可分离卷积将计算量降低了 8~9倍。1-1.1倒置残差瓶颈块MobileNetv2网络创新性提出了线性瓶颈和倒置残差块 两种改进方法,主要表现为在MobileNet 网络的可分离卷积 模块的输入端加入1x1的逐点卷积;引入膨胀系数控制 卷积模块的卷积通道数;构造残差模块。倒置瓶颈块的应 用进一步降低了网络的复杂度,其将模块中第一个1 XI 卷 积层对输入特征图的通道做/倍的膨胀,
最后一个1 XI 卷 积层将膨胀的通道收敛,降低模块的计算量。可分离卷积 (SepConv )模块和倒置残差瓶颈(Bottleneck )块的结构如 图1所示。(1)(2)(3)
(a)可分离卷积模块结构(b)倒置残差瓶颈块结构 图1深层可分离卷积的结构1.1.2 MnasNet MnasNel 网络的结构由标准卷积、深度可分离卷积和倒 置残差瓶颈块等共同组成,主体结构的排布和MobileNetv2 网络相似。不同的是,MnasNet 网络在部分卷积层中使用 5 X5的卷积核,加大网络的感受野,提升算法的识别精度; 调整深度可分离卷积的通道扩张系数,缩减算法的运行时 间;网络浅层部分的卷积层增加,减少深层部分的卷积层, 网络的深度不变。这些改进使MnasNet 网络在ImageNet 数 据集测试结果更加优秀,检索速度是MobileNetv2网络的 1.5倍而且分类精度不降低。  1.2 改进的MnasNet 网络1.2.1金字塔型轻量化卷积瓶颈块
Yang  M 等人⑺提出利用密集的金字塔结构(DenseASPP) 可以提取更为丰富的图片特征,在场景分割中取得了优秀 的表现结果。受其启发,本文将MnasNet 网络中瓶颈块的 单一的深度可分离卷积构建为具有金字塔结构的多个深度
可分离卷积的组合。文献[7]中使用的DenseASPP 结构由5个密集连接的 空洞卷积⑻组成,通过改变每个空洞卷积的空洞系数扩张 滤波器的尺寸,实现扩大卷积层感受野的目的;另一方面,
每个滤波器的输出通过“concal ”连接⑼方式组合成一个整 体,构建具有金字塔结构的多尺度特征图。
本文没有将空 洞卷积运用到深度可分离卷积中改变滤波器的尺寸,因为 空洞卷积虽然可以减少网络的参数量,但是滤波器中补'0' 的部分仍旧参与计算,并且限制了滤波器输出的连接方式。
文献[10]提出使用更小的滤波器级联代替较大的滤波器可
以极大地减少神经网络的参数量和计算复杂度,但考虑到 当前批规范方法已经结合到深度可分离卷积模块中,这样 的方式已经不再适合。本文假设基于金字塔结构瓶颈(PS-
Bottleneck)块的输入特征图尺寸为H  xW  xM,输出特征图 尺寸为HxWxN,其中一组为5 x5的滤波器,另一组为2 个级联的3x3滤波器C 5x5 =HxWxMx  (25 +/V) (4)C 3x3 =HxJFxMx(9+/V) (5)=>C 5x5 <2x C 3x 3,当/V>7 时由式(4)和式(5)知,对于感受野大小相同的情况下, 当川>7吋,一个5 X5的滤波器的计算量略低于两个级联 的3x3滤波器的计算量。因此,本文采用直接改变滤波器
尺寸的方式构建滤波器的金字塔结构——金字塔的每层仅
有一个滤波器;金字塔最上层的滤波器尺寸最小,为3 x3,
由小到大向下排列,第i 层滤波器的尺寸为K n ,K n  =2n  +1 ;
滤波器的输出既可以采用残差连接的元素和方式组合,亦
可以采用通道拼接的方式组合,送入下一个PSBottleneck
块。PSBottleneck 块的结构如图2所示。
由于PSBotlleneck 块内的每层滤波器都共享逐点卷积
的输出作为输入,极大地增加了网络的参数量和计算量,本 文引入超参数0控制逐点卷积的输出,减小网络的空间复 杂度和时间复杂度;0作用于每个PSBottleneck 块的第一个 逐点卷积,调节输入滤波器的特征通道数。引入超参数0 后的PSBotlleneck 块的计算量为n q=H  xW  xM  x (3TM  +H x W  X07W  x  工磴 +
i  = 1
HxWx/3TMxN  (6)
调节超参数0,
可以实现比原瓶颈块更小的计算量和
144传感器与微系统第40卷
中华会务网Q
PSBottlenect
图2PSBottleneck块结构
参数量。相较于原瓶颈块,改进的PSBottleneck块从结构上扩展了深度可分离卷积的层数,并重新设定深度可分离卷积的卷积核尺寸,其构成形式类似于Inception的多级卷积核并行结构;在参数方面,引入超参数0,灵活调整网络的空间复杂度和时间复杂度,在准确率和速度间实现平衡。改进后的PSBottleneck块结构依然保持着瓶颈块的形式,使用简单、可控。
1.2.2PSMnasNet网络
本文首先将MnasNet网络参数设置依照MobileNetV2网络的设置逐步更改,然后在CIFAR-10数据集上测试,实验结果表明过多的下采样次数和在网络深层部分过大的卷积核尺寸是原MnasNet网络不适用于对低分辨率图像进行特征区分的主要原因。
PSMnasNet网络结构基于调整下采样后的MnasNet网络架构,使用PSBottleneck块替换原网络中的倒置残差瓶颈块并根据特征图尺寸设置匹配的池化层。PSMnasNet网络结构如表1所示。
表1PSMnasNet网络结构
Input Operator K T C N S 32x32x3Conv2d33211 32x32x32SepConv311611 32x32xl6PSBottleneck」732431 32x32x24PSBottleneck_2734032 16xl6x40PSBottleneck_3768031 16xl6x80PSBottleneck_4569622
8x8x96PSBottleneck_55619241 8x8xl92PSBottleneck_65632011 8x8x320Conv2d1-12811
表1中K指代PSBottleneck块中滤波器的最大尺寸,特征图分辨率大于等于16时,采用滤波器尺寸分别为(3,5, 7)的3级PSBottleneck块;特征图分辨率大于等于8时,采用滤波器尺寸为(3,5)的2级PSBollleneck块。7■指代通道的膨胀系数;C指代网络的通道数;N指代模块的重复次数;S指代卷积模块的步长,S作用于每个重复的PSBottle-neck块的第一个模块中,其余模块的步长均为1。PSMnas­Net网络全部使用PSBottleneck块,网络下采样2次,最终输出分辨率为8x8的特征图;另外,PSMnasNet的网络结构与原MnasNet网络保持一致,包括网络中瓶颈块的排列方式、组合次数和特征图通道数、通道的膨胀系数等等。
2实验与分析
本文的实验条件为Ubuntul4.04系统,GTX10708G 显卡,PyTorchO.4.1o
2.1CIFAR-10
CIFAR-10数据集包含有60000张32x32的低分辨率图像,其测试结果是网络验证自身算法性能的一项重要指标。本文将改进后的网络在CIFAR-10数据集上测试,分析超参数0和PSBottleneck块的滤波器尺寸对网络的影响。
本文遵循文献[11]使用的训练策略:优化器使用随机梯度下降方法;初始学习率为0.1,150次迭代后学习率下调10倍,225次迭代后再次下调10倍;设定动量为0.9;权重衰减为1x10-4;batch size设定为128;共计迭代320个周期。
本文首先测试MnasNet网络的实验结果作为基线:MnasNet网络的下采样次数是5,参数量有3.19M,获得了84.92%的分类精度;调整后得到的MnasNet-FT网络的下采样次数为2,参数量不变,计算量上升,网络的分类精度提高到93.90%o
然后,本文比较PSBottleneck块中特征的连接方式'Add'和'Concat'对网络性能的影响。设定0=0.25,混合使用k=5/7的PSBottleneck块,使用'Add'方式的网络参数量为0.94M,分类精度达93.97%;而使用'Concat'方式的网络参数量为1-31M,分类精度达94.37%。综合比较后,本文在PSBollleneck块中选用’Concat'连接方式。姚文元墓
住家创业
本文固定PSBottleneck块的滤波器混合使用K=5(二层滤波器)和K=7(三层滤波器),分别设定0为0.10, 0.25,0.50,0.75,如图4所示,通过实验日志记录网络准确率变化过程。由图3观察可知:当0=0.10时‘PSMnasNet 网络的参数量不到原网络的1/5,但分类精度却提高了8%,比MnasNet-FT网络减少约0.9%;当0=0.25时,PS­MnasNet网络的分类精度已经超出MnasNet-FT网络约0.5%,而且参数量减少约60%;0对网络精度的影响存在上限,当0=0.75时,网络精度随迭代次数的变化和0=0.50时的基本重合,网络的参数量增加,但分类效果不再提升,此时的最佳分类精度为94.85%。
图4是固定0=0.25后,PSBottleneck块的滤波器尺寸k影响网络分类精度变化的折现图。PSBottleneck块的滤波器尺寸%同样影响网络的参数量和分类性能,但幅度不大。通常而言,PSBollleneck块的滤波器尺寸k越大,网络的参
第2期杨国亮,等:基于改进MnasNet网络的低分辨率图像分类算法145
Epochs
图3超参数0的网络分类精度
数量越大,分类精度也越高;但是需要注意的是,特征图尺
寸经过下采样减小后,滤波器尺寸应随着下降,否则为了保持卷积操作前后特征图尺寸的不变,需对
特征图进行过多的填充,影响提取特征的鲁棒性。如图4中所示,混合使用2层PSBottleneck块仏=5)和3层PSBottleneck块(k=7)超过全部使用3层PSBottleneck块仏=7)约0.2%的分类精度。
Epochs
图4PSBottleneck块的滤波器尺寸k的网络分类精度
在CIFAR-10数摒集的实验中,PSMnasNel网络的分类精度比MnasNet网络提升了10%,其中9%来源于网络下采样次数的调整,另外的1%则源自PSBottleneck块的应用。PSBottleneck块采用更大的感受野和并行级联的滤波器结构,提取更为丰富的图片特征,实现网络准确率的提升。PS­MnasNel网络精度的提升存在上限,当0=0.50时,网络的分类精度已接近极值点;0继续增大,只能使网络的空间复杂度增加,而网络的分类精度增加非常微小。另外,超参数0与网络的参数量呈现线性关系:y=/3x+b o其中y为网络的参数量,力是0=1时所有PSBottleneck块的参数量,约为4.7M, b是网络中非PSBottleneck块网络层的参数量,约为0.13M。
2.2CINIC-10
随着深度学习的快速发展,图片数量限制了CIFAR-10数据集问评价指标的置信度。作为CIFAR-10数据集的扩充QNIC-10⑺数据集有图片27万张,均为32x32的低分辨率图像,和CTFAR-10数据集相同的
10个分类;图片平均分布于训练集、验证集和测试集中;图片一部分来源于CI-FAR-10数据集,另一部分来源于下采样的ImageNet图像,图像的识别难度加大,算法在真实背景下物体识别能力的置信度更高。如图5所示,本文从CINIC-10数据集的每个分类中随机抽取5张图片,从左向右依次是飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。
本文将CINIC-10数据集的验证集图像融入到训练集中,此时的CINIC-10数据集训练集中含有18万图片,测试
图5CINIC-10数据集10个子类图
集有9万张图片。CINIC-10数据集官方给出的训练策略和超参数为:优化器为随机梯度下降方法;学习率为初始为0.1,余弦退火下降至0:moment为0.9;权重衰减为1X 10-4;批为训练批64,测试批50;迭代次数为300。
本文采用在CIFAR-10数据集上分类精度和网络参数量均衡的PSMnasNet网络(0=0.25,混合使用滤波器最大尺寸为5和7的PSBottleneck块)应用于CINIC-10数据集,并与当前一些经典的卷积神经网络比对,实验结果如表2所示。
表2CINIC-10数据集中部分经典网络的性能表
网络参数*/106精度/%
VGG-1614.7387.77
ResNet—1811.1790.27
Googl-eNel  6.1791.13
DenseNetl21  6.9691.24
MobileNet  3.2282.00
MnasNet  3.1974.72本文PSMnasNet  1.318&06如图6所示,PSMnasNet网络对CINIC-10数据集中10个子集的分类精度的排序与原MnasNet网络一致,从高到低依次是青蛙、飞机、船、马、汽车、鸟、卡车、鹿、猫和狗,但各子集的分类精度有着较大的改善,尤其是识别效果最差的狗类子集图像,PSMnasNet网络提高了约25%的分类精度。
・PAMnasNet■MnaxNet
MnaxNet83.76.72.61.70.55.86.79.81.77.
图6CINIC-10数据集10分类精度直方图
3结论
MnasNet网络作为当前一种高效的轻量化卷积神经网络,由于自身的部分结构限制,不适合运用于低分辨率图像识别领域。本文根据低分辨率图像的特点,适当调整网络的结构,并在CIFAR-10和CINIC-10数据集中进行验证,实验结果表明,PSMnasNet网络对低分辨率图像有着良好的识别效果,而且网络的参数量更少,空间复杂度更低,可以用于代替MnasNet网络执行低分辨率图像的分类。
(下转第153页
设计上海2016
第2期文昊天,等:基于椭圆结构元素的自适应形态学运算方法153
属性丢失过多;椭圆结构元素闭运算抑制了噪声,在产生少量人为边缘情况下边缘保持效果较好。
(a)噪声图像(b)方向自适应线(c)圆形结构元素(d)自适应椭圆
形结构元素结构元素
图6周期噪声闭运算仿真实验
3结论
为了抑制图像做形态学运算导致边缘属性改变的情况,提出了一种介于线形(方向自适应)和圆形之间的椭圆结构元素,由于椭圆结构元素随着目标的改变而自适应改变,连接图像明暗特征属性的同时尽可能适应目标边缘,因此本文方法对图像做自适应形态学运算时梯度幅值偏差较小,抗噪性能较好,图像失真较低。
参考文献:
[1]MATHERON G.Random sets and integral geometry[M].New
York:WiUey,1975.
[2]SERRA P J.Image analysis and mathematical morphology[M].
Cambridge:Academic Press,1982.
[3]马鹏,王小鹏,张永芳,等.基于多尺度自适应均衡的遥感图
像边缘检测方法[J].传感器与微系统,2018,37(10):147-149. [4]刘艳莉,桂志国•基于形态学的可变权值匹配自适应图像增
强算法[J]•电子与信息学报,2014,36(6):1285一1291・[5]邓飞跃,杨绍普,郭文武,等•基于自适应多尺度形态学AVG・
Hal滤波的滚动轴承故障特征提取方法[J].振动工程学报,2017,30(6):1056-1065.[6]TENG Y,ZHANG Y,CHEN Y,et al.Adaptive morphological fil­
tering method for structural fusion restoration of hyperspeclral images[J].IEEE Journal of Selected Topics in Applied Earth Ob­servations&Remote Sensing,2016,9(2):655—667.
[7]MALLAT K,YOUSSEF R.Adaptive morphological closing based
on inertia tensor for structuring element estimation[C]〃8th Inter­national Symposium on Signal Image Video and Communication, IEEE,2016:253-258.
[8]傅其凤,葛杏卫,刘浩•基于形态学多结构元边缘提取方法的
刘桂苏
龙摄天下研究[J]•传感器与微系统,2007,26(6):65-66,69.
[9]胡丽琴,宋丽梅.基于灰度形态学的红细胞图像边缘检
测[J]•传感器与微系统,2009,28(3):98-100.
[10]马塾亮,王俊平,邓晟,等.图空间上自适应形态学算子[J]・
电子学报,2018,46(1):118-126.
[11]张波,汤春明•基于相对总变差模型与自适应形态学的织物
瑕疵检测[J]・纺织学报,2017,38(5):145-149,162. [12]CAMMOUN L,CASTANOMORAGA C A,MUNOZMORENO E,et
al.A review of tensors and tensor signal processing[J].Tensors in Image Processing&Computer Vision,2009(217):1—32. [13]XUE W,ZHANG L, MOU X,et al.Gradient magnitude smilarity
deviation:A highly efficient perceptual image quality index[J].
IEEE Transactions on Image Processing,2014,23(2):684—695.
作者简介:
文昊天(1993-),男,硕士研究生,研究方向为图像分析与理解,E-mail:875225327@qq0
王小鹏(1969-),男,通讯作者,教授,博士研究生导师,主要研究领域为图像处理和分析,E-mail:wan
gxpl969@sina。
(上接第145页)
参考文献:
[1]王俊岭,彭雯•基于Daubechies小波的人脸识别算法[J].江
西理工大学学报,2017,38(3):81-85.
[2]朱锋彬,应娜•基于改进卷积神经网络的快速车辆检测[J].
传感器与微系统,2018,37(12):153-155,160.
[3]曹川,张红英•基于改进残差网络的人脸识别算法[J].传感
器与微系统,2018,37(8):127-129,133.
[4]HOWARD A G,ZHU M,CHEN B,et al.Mobilenets:Efficient
convolutional neural networks for mobile vision applications[J].
arXiv preprint arXiv:1704.04861,2017.
[5]SANDLER M,HOWARD A,ZHU M,et al.Mobilenetv2:Inverted
residuals and linear bottlenecks[C]〃CVPR,Salt Lake City, USA,2018:4510-4520.
[6TAN M,CHEN B,PANG R,el al.Mnasnet:Plalfoiin-aware neu­ral architecture search for mobile[C]〃CVPR,Long Beach, USA,2019:2820一282&
[7YANG M,YU K,ZHANG C,et al.Denseaspp for semantic segmentation in street scenes[C]//CVPR,Salt Lake City, USA,
2018:3684-3692.
[8]高琳,宋伟东,谭海,等•多尺度膨胀卷积神经网络资源三号
卫星影像云识别[J]•光学学报,2019,39(1):299-307. [9]HUANG G,LIU Z,VAN DER MAATEN L,et al.Densely
connected convolutional networks[C]//CVPR,Hawaii,USA, 2017:4700-4708.
[10]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolu­
tions[C]〃CVPR, Boston,USA,2015:1-9.
[11]ZHANG H,CISSE M,DAUPHIN Y N,et al.Mixup:Beyond
empirical risk minimization[J].arXiv preprint arXiv:1710.
09412,2017.
[12]DARLOW L N,CROWLEY E J,ANTONIOU A, et al.CINIC-10
is not ImageNel or CIFAR-10[J].arXiv preprinl arXiv:1810.
03505,201&
作者简介:
杨国亮(1973-),男,博士,教授,研究领域为模式识别与图像处理,智能控制。
朱晨(1994-),男,通讯作者,硕士研究生,研究方向为深度学习,计算机视觉

本文发布于:2024-09-22 08:31:16,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/475189.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网络   卷积   图像   分类   结构   精度
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议