基于残差的优化卷积神经网络服装分类算法

CN 43-1258/T P ISSN 1007-130X
计算机工程与科学
Com puter Engineering & Science
40卷第2期2018年2月 Vol. 40,No. 2,Feb. 2018
文章编号:1007-130X(2018)02-0354-07
基于残差的优化卷积神经网络服装分类算法
张振焕,周彩兰,梁媛
(武汉理工大学计算机学院,湖北武汉430070)
针对目前服装分类算法在解决多类别服装分类问题时分类精度一般的问题,提出了一种基于
残差的优化卷积神经网络服装分类算法,在网络中使用了如下三种优化方法:(1)调整批量归一化层、激活 函数层与卷积层在网络中的排列顺序;(2)“池化层+卷积层”的并行池化结构;(3)使用全局均值池化层替 换全连接层。经过由香港中文大学多媒体实验室提供的多类别大型服装数据集(D eepFashion )和标准数 据集CIFA R-10上的实验表明,所提出的网络模型在处理图片的速度和分类精度方面都优于V G G N et 和 A lex N et,且得到了目前为止已知的在D eepF ashion 数据集上最好的分类准确率。该网络也可以更好地
应用于目标检测和图像分割领域。
关键词:深度学习;残差网络;多类别服装分类;卷积神经网络优化
中图分类号:
TP181
文献标志码
:A
d o i :10. 3969/j. issn. 1007-130X. 2018. 02. 023
An optimized clothing classification algorithm  based on residual convolutional neural network
A bstract : Aiming at the problem  that the current clothing classification algorithm  has general accura­cy in solving the m ulti-category clothing classification, this paper proposes an optim ized clothing classifi­cation algorithm  based on residual convolutional neural netw ork, and uses the following three optim iza­tion m ethods in the n etw ork : 1) T he orders of batch norm alized layer (
B N ) , activation function (R elu) and convolution layer in the netw ork are adjusted ; 2) A parallel pooling structure of "pool layer + con­voluted layer" is adopted ; 3) The full connection layer is replaced by the global mean pooling layer. E x­perim ents on the m ulti-category large-scale clothing data set (D eepFashion) provided by the m ultim edia laboratory, the Chinese university of H ong Kong and the standard data set CIFAR-10 show that the pro­posed netw ork model is superior to V G G N et and A lexN et in image processing speed and classification accuracy, and obtains the best classification accuracy on D eepFashion data set so far. T he netw ork can also be better applied to target detection and image segm entation.
Key w ords : deep learning ; residual n etw ork ; m ultiple categories clothing classification ; co
nvolution neural netw ork optim ization
随着智能手机和平板电脑的迅速普及,移动互
展也标志着服装商务新模式的出现。人们不再局
ZH A N G  Z hen-huan,ZH O U  C ai-lan,LIA N G  Yuan
(School of Com puter Science,W uhan U niversity of T echnology,W uhan 430070,China)
1引言
联网飞速发展,近几年网络购物作为一种新兴的商
务模式,以其廉价、便捷的特点占据了极大的市场, 并广泛地被大众所接受。服装电子商务的迅猛发收稿日期:2017-08-01;修回日期:2017-10-05
通信地址
=430070湖北省武汉市武汉理工大学计算机学院
Address :
School of Computer Science, Wuhan. University of Technology»Wuhan. 430070 , Hubei»P. R. China
张振焕等:基于残差的优化卷积神经网络服装分类算法355
限于时间和地点,通过一部联网的手机就能轻松获 得想要的商品。为了使消费者能快速准确地搜索 到自己想要的服饰,如今购物网站如淘宝、京东、天猫商城主要通过图像及文本标注的方式描述商品 信息,用户通过在搜索栏中输人关键字获取商品链 接。然而,当用户需求商品的周边信息不明确时,这种基于关键字文本的检索方式有时很难获取用 户的真实需求,而且随着每天大量新图像的产生,需要消耗大量人力物力来对图像进行精准的文本 标注。同时,由于不同人对同一幅图像可能产生不 同的理解,在对图像进行文本标注时,会产生主观 性和不确定性,进而影响检索结果。
针对服装图像的检索,研究者们提出了基于图 像内容的服装分类和检索算法。传统的服装识别 分类技术主要借助数字图像处理、模式识别的方 法,通过对图像检测分割、特征提取等操作,基本上 都是基于底层的视觉特征或人工设计的视觉特征 来实现服装的分类。但是,由于服装图像包含非常 多的细分类,也存在非常多的视觉变化,包括光照、形变、拍摄视角、镜头缩放尺度、背景影响等等,使 得人工设计特征越来越难以满足实际分类的需求。
随着深度学习的兴起,卷积神经网络在人脸识 别、图像分类与物体检测的方向上都取得了很多 重要的进展,也为深度学习在服装分类中的应用奠 定了坚实的基础。近两年,研究者们就把深度学习 与
服装分类结合,并取得了不错的效果。Kiapour 等人[1]把Street-to-S h o p的服装检索场景形式化 为Crossdom ain的商品相似度学习问题,并设计了 一种用于特定类别的相似度计算的网络参数学习 方式。但是,此文只基于离线卷积神经网络CNN (Convolutional Neural N e tw o rk)特征学习相似度,并没有进行端到端模型的探索。与上文不同,H u a n g等人[2]在处理街拍场景(Street Scenario)与电商场景(Shopping Scenario)服装图像之间的 检索问题时,提出了一种端到端的双路神经网络模 型 D A R N (Dual Attribute-aw are Ranking N et­w o rk)来学习深度特征 。但是 ,在面对更细粒度属 性的分类时,该模型的分类能力还显不足。来自香 港中文大学的L iu等人[3]收集了一个规模更大且 语义标注更全面的服装数据集DeepFashion,还提 出了一种FashionNet,融合了大类、属性、服装ID 以及关键点四种监督信息来进行服装特征学习。厉智等人[4]提出基于深度卷积神经网络的改进服 装图像分类检索算法,采用深度卷积神经网络从数 据库中自动学习服装的类别特征并建立哈希索引,实现服装图像的高效分类和快速索引。
服装分类是服装检测、服饰检索的基本工作,上述研究工作都使用深度卷积神经网络学习服装 分类,从网络低层开始逐层学习服装图像特征的分 布,并在网络的全连接层将特征图抽象为多维的特 征向量,最终将特征向量输人分类器计算每个类别 的得分,得分最高的输出即被视为该图像的分类结 果。在选择用于服装分类的深度卷积网络时,不仅 需要考虑分类的准确率,还需要考虑图片处理的实 时性。如今深度卷积网络的改进朝着通过增加用 于提取特征的卷积层的数量来提升模型的分类能 力
发展。但是,深度卷积网络存在以下两个问题:(1)随着卷积网络深度的加深,训练网络时由于会 出现梯度消失或梯度爆炸的问题而使训练变得困 难[5’6]。随着深度残差网络[7]的提出,通过给每个 卷积层增加一个从输人直接到达输出的恒等映射 连接,使得反向传播时需要计算的梯度大于或等于 1,不会随着逐层传播而变得很小很小,从而解决深 层网络训练时梯度消失的问题。(2)随着网络模型 结构变得复杂,网络模型的参数变多,虽然这样做 可以提升准确率,但是随之带来的便是更大的计算 量和更高的内存需求,这会极大地影响模型对输人 图像的处理速度,当需要实时处理巨量的用户输人 图像时,就需要计算能力更强的G P U服务器作支 撑来达到实时处理图像的要求。因此,本文通过改 进网络结构来加快网络处理图像时的计算速度,以达到对输人图像更快的准确分类。
2基于残差的优化卷积神经网络服装分类算法
从2010年至今,每年举办的11^¥1^(11113-geNet Large Scale Visual Recognition Challenge)图像分类比赛是评估图像分类算法的一个重要赛 事。其中,2010年和2011年的获胜队伍都是采用 的传统图像分类算法,主要使用SIFT(Scale In­variant Feature T ra n s fo rm)、LBP(Local Binary Pattern)[8]等算法来手动提取特征,再将提取的特 征用于训练 S V M(Support Vector Machine)等分 类器进行分类。直到2012年的比赛中,K rizhevsky等人[9]提出的A le x N e t首次将深度学 习应用于大规模图像分类,并取得了 16. 4%的错 误率。该错误率比使用传统算法的第2名的参赛 队伍低了大约10%。之后卷积网络结构朝着网络 层数更深、卷积层个数更多的方向改进。比如16
356Computer Engineering & Science 计算机工程与科学2018,40(2)
层的 VG G N et[l u]、28 层的 G〇〇gLeNet[11]a及之异 深度残差网络的出现,都表明了层数更深的网络模 型在图像分类任务上取得了更好的分类效果。目貧在对用手学习服装图像特征的深度卷积网络的 选择i t,大多数研究者使用的是A le x N e t和VG G-N e t这两种网络,其中文献[1,2,4]使用了 A lex-N e t,文献[3]使用了 V G G N et。上述文献中用于 分类的服装类别在15〜25类不等,而在解决更多 类别的服装分类问题时,比如DeepFashion服装数 据集拥有46个服装类别*由于A le x N e t和VG G-N M都属数较少的网络,网络学习能力和表征 能力都受到网络层数的限制。因此,本文提出了基 宁残差的优化深度卷积神经网络,用于更多类别的 服装分类。
2.1基于残差的连续小滤波器结构
php5
本文提出T一种新的基于残差的优化卷积神 经网络服装分类模型,该网络的主要组成部分如图 1所示,由两个小滤波器(3 * 3的卷积核大小)的连 续卷积层和从输人到输出的直接连接构成》_其中a-为网络输人层或上一1层的输出,绘过非线性卷积层 得到/00,与自身的恒等映射相加构成该结构的 输出
F ig u re  1 C ontin uou s sm a ll filte r stru c tu re based o n residual
图1基于残差的连续小滤波器结构
卷积神经网络一般由卷积层和池化层构成,在 煎向传播中肩定寅度和高虞的滤波器在网络的输 入图像或上一个卷积层的输出特征图上做滑动(更 精确地说是卷积),然.启'计算整个滤波器和输人图 像任一处的内积并加_|一个偏置项得到,再将值应 用到一个非线性的激活函数上,得到T一个卷积层 的输人特征图。设与第々层的第,y个输出特征图 做卷积运算的々一 1层的特征图中的所选子集为 M,.,输人记为x广1,使用权值和偏置项^,激活 函数为/(•),爾对应的输*特征4为:
^ = /( )a.)
ieMj
本文采用两个连续的滤波器大小为3 * 3的卷 积层,使得图像经过两次非线性激活函数计算,增强了模型对于复杂程度和非线性程度的表达能力 和泛化能力。西为考虑到使用更多连续的滤波器 组合会使得模型层数增多,参数.更多,当数据集不 时训练容易出现过拟合的情况;同时会増加提型 处理图像的时间,_此选择使用两个连续的小滤波 器卷积层铕构。
卷积神经网络在每次训练完一小抵羞的图像 之后,代价函数会计算预测结果与真实值的距离并 得到一个用乎反向传播时从输出层开始逐层柱前
更新网络权重的损失值。设/t w为代价函数求得 的损失值,代价函数为/(•),则的计算公式如下+
loss =/(〇…)(2)其中,是网络第M S的输出特征图是第K自 的输人也是第H—1 :层的输出,每一层输出特征图 的计算公式如下:
〇n =f n:(i… y W n,b n)(3)随着卷积神经网络的不断加深,反向传播时用 于更新权童的梯度会逐雇变小,导致无法对网络前 面几层的权重进行调整…公式U)所示为反向传播 时对网络第一层求偏导数的梯度计算公式:dlos.s= d f…(.h,bn)........d f! (ii ,t〇! ,bj)
&i<i di,i di%
(4)
从公式(4)可以看出卷积神经网络层数很
多时,通过反向传播计算得到的浅层梯度已经很小 很小,几乎无法对浅层网络权值进行更新,进而减 弱了浅层网络的学习能力s
如图1所示,残差连接是一种快速连接[1=];直 接跨越一层或多层,它将输入通过恒等映射转换成 输出。此时每一层的梯度计算公式如下:
=d(in+f(i…^vn,b…)) =J+d fU…,zvn,b…) 3in3in3in
(5)
在网络中加入残差连接,可以使得梯度在反向 传播时永远大于或等于],解决了探层网络训练困 难前间题》
2.2残差网络中的激活层
在卷积神经网络中加人激活函数,可以提升网 络的非线性建模能力。如果没有激活函数,那么网 络仅能够表达线性映射,即使网络有根多卷积层 整个网络和单島神经网络也是等价的,甚此在网络 中加入激活函数是很有必要的,本文采用文献 3]中提出的线性.校^^7D.R eLU_:(R e fttifie d L in-eax U n its)/(:■*)=m ax(〇,a;:)作为激活函数
。ReLU
张振馨等;屬宁残差的_优化卷积神邀H络服装分鱗眞翁357
函数能够在《>〇 B寸保持梯度不衰减,从而缓解梯度
消貴_问题.,.寿传统激活函数sigmoidstUih相比可以 更快地达到相同的训练误差和更高的准确率。
深度卷积神经网络的训练,实际上是一个学习 数据分布的过程《训练网络时每一层的权重都在 发生变化。网络浅层权重更新时,该层的输出特征 图也随之发生变化,导致下一层的权重需要重新学 习这个新的数据分布,进而会影响之后每一层的权 重更新。由苧每一层需要的学习率不一样^■在训练网络时通常要使用较小的学习率才能保证代价函 数的损失值有所下降,这会影响网络的训练速度^ 而本文加人批邊卵一.化■Cbatch noiinalization〕[14]算法,先对每一匿的输人数据做一个厲一化处理 (归一化为均值为标准差为1),使得数据分布稳 定,在训练时就I I以使用较大的学习率,从而加快 网络收敛,提高训练速度。
如图2所示为一般的”卷积层+B N晨 +Re-U J层”的排序顺序,B珂层和ReLU层都会放在卷
积层之后。
F ig u re  2 O rd e r in th e tra d itio n a l n e tw o rk
«2传统网络中的排列聽身
这样的排序顺序在残差网络中存在以下两个 问题:(1)残差模块的输人分成两个支路向深层传 递,而右边非线性支路的输人特征图直接经过卷积 崖、,并未经过B N g的归一化处理,这样便失去了 引入B N层的意义,*(2)由于R e L U函数的恒疋性,非线性支路的最后输出总是非负的,_此随着层数 的加深,输人会逐层叠加变大,这样很可能会影响 网络的表征能力_。本文针对上述存在.的_苘个问题,提出种新的用于非线性支路中的“B K M+
R eIA J_+卷积层”的排列顺序,如图3所示,图中 虚线框内的网络结构其实还是和图2所示的传统 结_构一样,本文提出的排列方法根好地将传统方法 应用到残差网络中,既保持了左边支路的恒等映 射,叉保证了右边支路具有非线性学习能力,I加快了网络训练速度。
F ig u re  3 O rd e r in th e re s id u a l n e tw o rk
图_參殘.羞网络_中的排.到__爾詹
2.3并行池化结构
卷积网络由卷积层和池化层組成,网络通过池 化来降低卷积层输出的特征向置,同时改善分类结 果,使模型不易出现过拟合。常见的两种池化层为 平均池化层和最大池化层。乎均池化层的作用是
指在池化过程中,对指定的池化域内所有值求和并 提取其平均数作为子采样特征图中的值,•最大池化 层则是提取指定的池化域内的最大值作为子采样 图的特征值。一般的卷积网络在降处理时直接在卷积层之谙加人池化层,由于对特征图进行池化 操作之后会丢失3/4的特征信息,这样会导致模型 的特征表达能力遇到瓶颈。
本文的池化层部分选择了 “最大池化+卷积 层”的并行化模块的池化结构,加人额外的卷积层,逋过卷积的方:式:學习特征的同时縮小特征:圈,..齡决 了传统网络池化操作时会出现特征信息丢失的问 题。采用最大池化层是因为提取池化域内的最大 值更有利于学习图像的纹理分布,
2.4全局均值池化
对于分类问题,传统卷积神经网络&15]会将最 启一个卷积_的特征图通过量化之后与全连接© 连接,最后再连接一个用于分类的so ftn ia x逻辑回 归分类M。然而,由于金连接崖参数个数太多,网络参数大部分都聚集在全连接层,这样会使得网络 模型容易出现过拟合现象,降低了网络泛化能力。
本文将一般:网络中的全连接雇替换为乎均池 化层。与全连接层不词的是,我们对最后一个卷积 fe输出的每个特征图进行全局均值池化,使得每张 特征图都可以得到一个输出结果。采用均值池化,可以大大减少网络参数个数,避免模型过拟合,
358
海因里希Computer Engineering Science
计算机工程与科学
2018,40(2)财税201215号
度上都优于VG G Net 和AlexNet 。相较于Alex -
N et ,VG G Net 基于3 * 3
的卷积核构建了更深的
网络结构•结合文献[j u 中同样是将深属网络
G oogLeM et 用〒W 像分类翁事(ILS V R G ) #取# 了很好的结果.都表明了当卷积神经网络达到一定 的深度之前,随着M 络层数加深,模型的学习能力 和表征能力越强.收敛也越快。但是,当两络规模 达到一定的深度之后v 提型的分类精度并不会随着 层数的增加而增加,网络训练会出现梯度弥散M 的
问题,
2.5
2.0
快模型训练速度和计算速度;另一方面,每张特征 图相爾宁一个输出特征.该特征即表示输出类别的 特征.
3实验及结果分析
关务3.1实验准备
本文通过在两个标准数据集上做实验来验怔 本文网络的性能t .C lF A R -W 和香港中文大学:多媒 体实验室提供的服装数据集]DeepFashion *
实验平台包括:P C 机,Intel  Core  显卡塑号
G T X 1070, 8 GB  显;:存U buntu  操作系统,c..affe  深.
度学习框架。_实验中,本文提出了:一个:翁的网
络一ReS -Bashio :n N e t ,网聲框架主要由九个如:圏_ 1 所示的残差模块组合而成.每三个残差模块之后都 连接一个”最大池化+卷积层”的并行化模块的池 化结构用于网络降维。为:f 防止模型过拟含,在第 2个并行池化绪构之脖添加dropout  .屢,将该层任 意一半的输出特征图上的像素偉设置为0。特别 地•在最后的分类输出属I 使用全局均值池化层替 代了全连接层f ,本文将该网络与目前常用的服装 分类的经典卷积禅縴网络A le xN e t 、V G G N a t 作性 能比较。由于.未采用完全的网络训练优化方法,无 法达到最优的精度,但都保证了每个河络采用相同 的训练方法e
本文采用小批董梯度下降方法(M ini-bateli
gradient  Descent )和常用_的梯度下障优化_
法---动慧钱(,M om m tran .)来训练模切|练时对数据集采用m ir r o r 的数据增__3虽方式,增大数 据集。学习率的调整采用固定的更新策略•初始学 习率设置为〇. 01,在C IFA R -10数据集上i 的训练 中分到在epochs 、120: epochs  和
epochs  时
将学石率降低为_t :一次的〇. 18而在I^epFfislTiQn 数据集的测试中,则设查了分别在10 ep 〇C hs 、20
epochs .和3.0:€po .e _h s 时将學謂:率降低为.怎>一'次的
0..1。
3.2
CIFAR -10
C IFA R -10数据集包含10个类别的图像,共
有:抑:(}如张图像作为训练集,张圏像作为
测试集验证。每张图像大小为32 * 32,网络训练 和测试时输人处理的每批图像数量为50张。如图 4所示为_今网络的训练收敛情况,纵坐标为损失 值,横坐标为训练迭代次数。从图4和表1中可以 看出.本文提出的优化残差网络在准确率和收敛速
—Res-FaahionNet
•~• AlexNet
--VGGNet
tlO
4
0    2    4    6 8 10 12 14 16 18
Uers
F ig u re  4
N e tw o r k  tr a in in g  converge nce
图4网络训练收敛情况
一汽马自达俱乐部Table 1 Comparison of the three network models
表i 三种网络模型的对比
网络模型
Topi 准确率AM 网络训练 消耗内存
/
(MB)训练时间(秒
/200 次迭代)
网络层数
AlexNet
87. 12  1 05988VGGNet 89. 24  3 6684016Res FashionNet
92. 12
6 145
78
33
那么既然现在的网络训练方法难以训练我们 认为的网络层数越深.学习能力越好的模型,本文 对此何题的改进想法是尝试降低模型学习的难度, 让前馈网络4^习到的映射关系由原来的#叉)二X  变成^幻二^^幻十叉,其中叉是网络中每一层 的输人。我们可以转换为学习一个残差函数 5X X )=g (X ) — -Y 。
只要 f 〇O =0,就构成了一个 恒等映射g (X ) = X 。下面举例说明网络引人残差 效果会更好9
假设P T X )是输人经过线性函数的求和前网 络映射,g (X )是从输入到求和后的网络映射.
g O O =F (X )+X a 比如把输人5映射到输出
计算机工程与应用5.1.那么引人残差前是F '(5) =5. 1 •引人残差后 是f  C 5) = 5 • 1,容(幻=F  (5) + 5,F  (5) = I  1 s 这里 的广和F 都表示线性函数映射,下面怔明引入残 差后的映射对输出的变化更敏感。假设输出从5.1
s s o l J T m

本文发布于:2024-09-21 01:28:03,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/413131.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:网络   分类   卷积   服装   图像   特征   学习
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议