首页 > 学术百科

多尺度区域特征的细粒度分类算法研究

第51卷第3期2019年9月

郑州大学学报(理学版)

J.Zhengzhou Univ.(Nat.Sci.Ed.)

Vol.51No.3

Sep.2019

多尺度区域特征的细粒度分类算法研究

熊昌镇，蒋杰

(北方工业大学城市道路交通智能控制技术北京市重点实验室北京100144)

摘要：为了避免复杂背景对精细目标分类的影响，充分利用卷积神经网络提取的目标全局和局部信息进行细粒度任务的研究，提出了一种多尺度区域特征的细粒度目标检测与分类算法•该方法先使用FASTER-RCNN框架训练3个尺度区域的卷积模型进行多尺度目标区域定位，对定位的结果进行包围盒约束和海伦约束以优化提高定位的精确度，然后将提取多个尺度区域的特征进行组合，并用支持向量机训练细粒度

分类器•在Caltech-UCSD鸟类数据集和CompCars车型数据集上进行实验测试•实验结果表明该算法在Caltech-UCSD鸟类数据集的分类正确率达到

82.8%，比没有使用多尺度区域特征的分类算法提高了7.5%，比基于部件的分类方法提高了8.9%；在CompCars车

型数据集的分类正确率达到93.5%，比没有使用多尺度区域特征的分类算法提高了8.3%，比最优的GoooleNet精细目标分类算法提高了2.3%，验证了该算法的有效性.

关键词：精细识别；神经网络微调；包围盒约束；海伦约束算法

中图分类号：TP391文献标志码：A文章编号：1671-6841(2019)03-0055-06

DOI：10.13705/j.issn.1671U841.2018157

0引言

细粒度检测任务是对具有相同结构，但是存在一些细微差异的对象进行识别，这需要提取表征对象细微差异的特征才能实现正确的识别.传统的特征表示有灰度特征、颜特征*1］、梯度直方图特征*2+、费舍尔向量特征*3］、核描述子*4］等特征，但这些传统的特征在细粒度识别方法上都无法取得制作电子杂志的软件

良好的效果.随着深度学习的兴起，产生了一些与深度学习相关的细粒度分类和检测的成果，如Yang等*5］使用GoogleNet*6］研究了CompCars数据集在各卷积模型下的精细分类效果Eochor等*7］提出一种使用车辆的3D矩形标注信息，及视角向量等附加信息作为卷积神经网络的输入，来进行车型精细识别的方法，取得了良好的效果-Zin等*8］通过车辆的部分零件定位信息拟合出车辆的3D模型，从而将车辆的3D信息用于细粒度分类，取得了较好的分类效果Eermanet等*9］研究了注意力模型在细粒度分类中的应用Evo等*10］研究了在卷积神经网络中用两级注意力模型来进行细粒度分类的工作，从而有效避免了使用代价较大的包围盒标注以及部分零件标注的工作Ea.es等*11］研究了费舍尔向量表征目标部分零件定位信息来进行细粒度分类的方法，取得了不错的结果.Berg等*2］对每对关键点学习一个描述子，从而学习到一系列有高度差异性的中间特征用于识别.Chai 等*3］发现联合学习局部定位和前景分割信息有助于细粒度分类任务-Branson等*12］发现集成低层和高层的特征可以有效地改善细粒度识别-Simon等*13］提出一系列神经激活的方法，可以通过无监督学习来学习部分零件模型Erause等*14］在无监督学习的条件下，通过共同分割的方法生成部分零件来进行细粒度的识别.

随着神经网络模型的不断优化，目标检测领域的研究也取得了很多成果，特别是基于区域卷积神经网络的目标检测算法，即RCNN*15］.在此基础上出现了SPPNET*16］、FAST-RCNN*17］、FASTER-RCNN*18］等改进的算法.从传统的目标检测算法到最新的FASTER-RCNN等目标检测算法和模型的快速更新,IMAGENET数据集的检测精度和检测时间得到很大提升.最重要的识别精度、定位

准确性、实时性几个方面都得到了较大的提升.还有一些深度学习目标检测的算法采用回归的方法，如YOLO*19］和SSD*20］.YOLO将输入图像分成S xS 个格子，每个格子负责检测落入该格子的物体，选择目标窗口和原来标记窗口的交叠率最高的检测框作为物

收稿日期：2018-05-22

基金项目：国家重点研发计划项目(2017YFC0821102).

作者简介：熊昌镇(1979—)，男，福建三明人，副教授，主要从事视频分析和机器学习研究,E-mait：xczkiong@163zcm；通信作者：蒋杰1990—)，男，湖南永州人，硕士研究生，主要从事视频分析和深度学习算法研究,E-mail：614903520@qq.

56郑州大学学报（理学版）第51卷体检测输出.SSD 是基于一个前向传播CNN 网络，产生一系列固定大小的包围盒检测框，判断每一个检测框中包含物体实例的可能性，最后采用一个非极大值抑制算法得到最终的预测结果.

Sun 等*21 +研究了在FASTER-RCNN 框架下将样本送入卷积网络进行训练，并对输入卷积网络训练的图像做多尺度缩放，又利用串联多个卷积特征层的池化结果作为最后的池化层做人脸细粒度识别的任务. Zhang 等*22+研究了基于部分区域的卷积神经网络检测方法，并基于部分区域卷积网络的特征

电影魔方2003

进行细粒度检测，即将RCNN 改进用于细粒度检测，取得了很好的结果.唐斯琪等*23］研究了一种基于特征图融合的多列卷积神经网络的人密度估计算法，取得了较好的效果.朱威威等*2I ］提出了一种鲁棒性自适应模糊C 均值算法，得到了更好的图像分割质量.

为了避免图像背景对细粒度识别算法的影响，以及定位表征目标物体全局信息和局部特征信息的多尺度区域，从而构建并组合更能表征目标特性的高维度特征向量.本文在FASTER-RCNN 框架下，在文献*22］的基础上，提出一种基于多尺度区域卷积特征的细粒度分类算法.首先利用多尺度区域数据集对FASTER- RCNN 框架下的模型进行微调训练，产生多个网络模型，检测出物体的多尺度区域特征，然后使用包围盒约束和海伦约束将多尺度区域特征整合在一起，训练支持向量机分类器进行细粒度的图像识别.

1多尺度区域特征分类算法

1.1多尺度区域信息标注

为了微调多个区域尺度的FASTER-RCNN 的网络模型，需要对训练数据进行多尺度目标区域标注.将检测的目标区域分为3个尺度，最内层的尺度为p 0区域，中间的尺度为P i 区域，最外围的部分为完整的目标区域.目标区域包含P i 和P +区域，P i 区域包含P +区域.其中最内层P +区域的标注信息和中间部分P i 区域的标注信息分别为

二 F M 0. 25 ( f 一兀1)= (1 + 0 25 ((2 - (1)F + = F +0.75(f — F )=(1 + 0 75((2 - (J F 1 = F + 0. 15 ( f — ^1)

(

1 = (1 + 0 15 ((

2 - (1)F 1 = F +0. @5 ( f — ^1)

(1 = (1 + 0 @5 ((2 - (1)

式中：f ，（1 ,f ，（2分别为目标物体最外围区域的左下角和右上角的横、纵坐标值；F 0，（0，F 0和（0分别为目标物体中心部分P0标注信息的左下角和右上角的横、纵坐标值&F 1‘F 1和（分别为目标物体中心部分P1 标注信息的左下角和右上角的横、纵坐标值.算法设计的最少尺度的区域标注信息，即最内层的P0区域基本上恰好只包含目标的像素信息或者说只含有极少量的背景信息，最外围的区域标注信息即为目标整体的图像标注信息，为了更好地应用包围盒约束算法和海伦约束算法，使得3个尺度的标注信息的边界依次存在一定的距离，中间层的标注边缘选用的是位于最外围和最内层中间的标注信息的边界距离几乎相等的位置，为了更好地降低背景的影响，设定中间层的标注边界稍偏向最内层一些.

1.2包围盒约束的算法

根据多尺度区域互相包含的关系，可以对检测的结果进行包围盒约束算法优化.为有效筛选出准确包含多尺度区域信息的检测框，并使得检测出的多尺度区域检测框的质量和检测的定位准确度有所提高，需要设计P1区域包含在物体目标区域内,P0区域包含在P1区域内，即

1，如果区域“各边界落在区域.各边界内#

个像素0，其他*&（P ） = 0&（P0）0&（P 1） 01（P0）（ 0.

设置#值为10，选择满足上述关系的检测框，并且优先选择FASTER-RCNN 检测的包含目标物体得分概率分数依大到小排序靠前的检测框.式中box 表示检测到的完整目标区域.

1.3海伦约束算法由于包围盒约束仅能确定各尺度区域的包含关系，无法很好将所有尺度区域的检测框中心点约束在同一个像素点.各尺度区域检测框的中心点即为各区域检测框对角线的交点，

而将所有尺度检测框中心点约束

第3期熊昌镇，等：多尺度区域特征的细粒度分类算法研究57在同一个像素点可以求出检测位置更精确的检测框，平面上不在同一条直线上的3个点唯一确定一个外接圆，故而首先计算多尺度区域的中心点坐标.目标物体的检测中心点坐标计算公式、目标物体中间层区域检测框P #的中心点坐标公式以及目标物体最内层区域检测框P +的中心点坐标公式分别为

F # + F *(1 +(22

F # + x*122

2各中心点坐标之间的距离分别用#、X 、$表示•定义#为最内层区域p 0中心点和最外围的目标整体区域中心点的距离；定义X 为中间层区域P 1中心点和最外围的目标整体区域中心点的距离；定义$为最内层区域 P +中心点和中间层区域P 1中心点的距离•计算各中心点坐标之间的距离公式分别为

# =槡 x $ )2 + (($ )2 ,X =槡x $ -x 1)2 + (($ -( 1)2 ,$ =槡F 1 )2 + ()2.

各尺度区域中心点组成的三角形的周长的一半用p 表示，计算连接各中心坐标的三角形的外接圆面积用s 表示，即

P = ( #+X+c ) /2, s = ^p ( P - a ) (P - X ) (P - c ).

设置面积s 的最大值为120，即计算出的面积s 的大小不能超过120，挑选FASTER-RCNN 提取的候选框中包含物体得分概率分数排序靠前，且满足海伦检测约束条件的目标物体和各尺度区域检测框•

1.4多尺度区域特征分类器

在用包围盒约束算法和海伦约束算法进行多尺度目标定位优化后$采用多尺度区域模型分别提取目标的3个尺度区域的特征.每个尺度区域的特征为4 096维，将3个4 096维的特征串联组合后形成12 288维的特征，然后使用支持向量机训练分类器.

2实验结果

实验的平台为Ubuntu16. 04系统下的Matlab R2015b ，所有的实验均在配置为Intel Core 15-4590 CPU , GTX1070 GPU ，内存为8 GB 的台式电脑上完成.实验中所用的车型数据集为CompCars 数据，实验共使用其中的431个类型不同的汽车模型，共计20 673张图片，随机抽取70%的图片作为训练数据集，30%的图片为测试数据集.实验所用的鸟类数据集为Caltech-UCSD 鸟类数据集，共使用鸟类数据集图片11 788张，共200 个类别.其中50%的图片作为训练集,50%的图片作为测试集.实验所用的网络模型为ImageNet 数据集上预训练的牛津大学几何视觉组(visuat eeemetry group , VGG )的VGG-19模型.在此模型的基础上进行网络微调得到3个尺度区域特征的模型.微调训练的参数采用分阶段学习率，在模型训练15万次迭代之前采用0. 001 的学习率，在模型训练15万次迭代之后设置学习率为0. 000 1.

图1实线矩形框和虚线矩形框分别显示了 3个尺度的目标定位结果和采用包围盒和海伦约束前后的结果.图1 ( a )和(d )表示整体目标区域定位的结果，图1( b )和(e )表示P 1区域定位的结果，图1 ( ＜和(f )表示 P 0区域定位的结果.图1( a )的车型图片的整体目标区域定位的结果存在偏差，图1 ( d )和(e )的鸟类图片的整体目标区域定位的结果存在偏差，采用2种约束优化的定位的结果用虚线矩形框显示，可以看出约束优化后的结果定位更加精确.从图1 ( ＜和(f )的区域检测结果可以看出，最小尺度的区域基本上消除了背景的影响或者只有少量的背景信息.并且由图可知算法构建的最小尺度的特征信息很好反映了目标物体中心矩形区域的局部信息，算法构建的中间层区域特征信息反映了较大范围的目标局部信息，算法构建的最大尺度的特征信息即为目标的全局信息，是一种比较普适的方法.

本文算法在Caltech-UCSD 鸟类数据集和CompCars 车型数据集精细化分类的结果如下所述.在Caltech- UCSD 鸟类数据集中只用单个目标整体区域的特征的分类准确率为0. 753，仅使用包围盒约束算法优化并将 3个尺度区域特征组合训练分类器进行分类的准确率为0. 791，仅使用海伦约束算法优化的分类准确率为 0. 805 ；组合包围盒约束和海伦约束优化后的分类准确率为0. 828.在CompCars 车型数据集上只用单个目标整体区域的特征的分类准确率为0. 852，仅使用包围盒约束算法优化并将3

个尺度区域特征组合训练分类

荷花淀教学反思

58郑州大学学报(理学版)第51卷

(a)车型图片整体目标定位效果(b)车型图片0区域定位的效果(c)车型图片厲区域定位的效果

(d)鸟类图片整体目标定位效果(e)鸟类图片刃区域定位的效果

(f)鸟类图片刃区域定位的效果

图1目标检测约束算法前后效果图

Fig.l Pictures before and after target detection constraint algorithm

lw6b-252器进行分类的准确率为0.，仅使用海伦约束算法优化的分类准确率为0.903，组合包围盒约束和海伦约束优化后的分类准确率为0.935.实验表明提出的算法有效地构建了高维度的特征信息，提高了细粒度分类的准确度，提出的包围盒约束算法和海伦约束算法能进一步提高细粒度分类的准确率，相比未使用高维度特征信息的包围盒约束算法和海伦约束算法之前，在Caltech-UCSD鸟类数据集上准确率提高7.5%，在CompCare数据集上准确率提高8.3%.

本文算法与其他算法在Caltech-UCSD鸟类数据集上的对比结果如下所述.Berg等**+采用梯度直方图特征方法的准确率为0.568；Chat等*3+采用费舍尔向量特征方法的准确率为0.594；Gawes等*11+采用费舍尔向量表征目标部分零件定位信息来进行细粒度分类的准确率为0.627；Lin等***+采用基于部分区域的卷积神经网络检测方法和基于部分区域卷积网络特征的准确率为0.739；Branson等*12+采用集成底层和高层特征的方法的准确率为0.57；Simon等*13+采用一系列神经激活的方法，并通过无监督学习来学习部分零件模型的方法的准确率为0.810；Krauss等*14+采用在无监督学习的条件下，通过共同分割的方法生成部分零件来进行细粒度的识别的准确率为0.820；本文算法的准确率为0.828，比Zhang等*8+的算法提高了8.9%.相比于其他的性能较优的算法，如Branson*12+、Simon*13+、Krauss*14+的算法也有一个较好结果，验证了本文算法的有效性•本文算法与其他算法在CompCas数据集上的对比结果如下所述.其中AlexNet的分类准确率为0.819, CaffeNet的分类准确率为0.816,GoogL

eNet的分类准确率为0.912，本文算法比最优的GoogLeNet模型算法的结果多了2.3%，在CompCara数据集上取得了很好的结果，也验证了本文算法的有效性.

3结论

本文提出了一种多尺度区域特征的精细目标分类方法.该方法通过训练3个尺度的区域特征卷积网络，并检测3个尺度的区域位置，通过包围盒约束和海伦约束方法优化目标定位区域，然后提取3个尺度的区域特征训练支持向量机分类器•在Caltech-UCSD鸟类数据集上和CompCara数据集上的实验表明，采用多尺度区域标注信息分别训练卷积网络模型来进行多尺度区域特征分类算法是有效的•采用包围盒约束算法和海伦约束算法的目标分类算法在Caltech-UCSD鸟类数据集及CompCara数据集上准确率都有较大的提高厢比于AlexNet、CaffeNet在CompCara数据集上实验的算法，优势更加明显，说明本文提出的算法是非常有效的.后续研究考虑加入其他辅助信息(如颜信息)进行细粒度的任务研究.

参考文献：

*1+GOERING C,RODNER E,FREYTAG A,et at.Nonparametrio part transfea for fine-grained recoonition*C+//Computea Vision and Pattern Recoonition.Washington,2014：2489-2496.

第3期熊昌镇，等：多尺度区域特征的细粒度分类算法研究59

[2]BERG T,BELHUMEUR P N.POOF：Part-based one-vs.-one features for fine-grained categorization,face verification,and

Attribute Estimation[C]//Computer Vision and Pattern Recegnition.Washington,2013：955-962.

[3+CHAI Y,LEMPITSKY V,ZISSERMAN A.Symbiotic segmentation and pari localization for fine-grained categorization[C+/ IEEE Internationat Conference on Computer Vision.Washington,2013：321-328.

[4]ZHANG N,FARRELL R,IANDOLA F,ei ai.Deformable pai descriptors for fine-grained recognition and attribute prediction

[C+/IEEE Internationat Conference on Computer Vision.Washington,2014：729-736.

[5+YANG L,LUO P,CHEN C L,ei ai.A larae-vcaie cai datasei for fine-grained cateeorization and vvrification[C+/Computei Vision and Pattern Recccnition.Washington,2015：3973-3981.

[6+SZEGEDY C,LIE W,JIA Y,ei ai.Going deeper with convolutions[C+/Computei Vision and Pattern Recocnmion.Washingion,2015：1-9.

[7+SOCHOR J,HEROUT A,HAVEL J.B ox C cs：3D boxei ss CNN inpui foi improvvd fine-grained vvhicie reccgnitmn[C+/ IEEE Conference on Computei Vision and Pattern Recocnition.Washington,2016：3006-3015.

[8+LIN Y L,MORARIT V I,HSU W,ei ai.Jointiy optimizing3D model fitting and fine-grained classification[C+/Europem Conference on Computea Vision.Berlin,2014:466-480.

[9+SERMANET P,FROME A,REAL E.Attention for fine-grained categorization[J].Computea science,2014,10(1)：224-300. [10+XIAO T,XU Y,YANG K,et ai.The application of two-levve attention models in deep ccnvvlutional neural network for finegrained image classification[C+/Computea Vision and Pattern Recocnition.Washington,2015:842-850.

[11+GAVVES E,FERNANDO B,SNOEK CG M,et aS Fine-grained catevorization by Cignments[C+/HEE International Confea enceon CompueeiVoioon.Waihongeon,2013：1713-1720.

[12+BRANSON S,VAN H G,BELONGI S,et aS Bird species(^—10101(X1using pose normalized deep convvlutional Nets[C+/ British Machine Vision Conference.Berlin,2014:87-101.

[13+SIMON M,RODNER E.Neural activation constellations:unsupervised part modei disccvera with c

cnvolutional networks[C+/IEEE International Conferencc on Computer Vision.Washington,2016：1143-1151.

[14+KRAUSE J,JIN H,YANG J,et ai.Fine-grained recognition without part annotations[C+/IEEE Conferencc on Computer Vision and Pattern Reccgnition.Washington,2015：5546-5555.

[15+GIASHIAK R,DONAHUE J,DARRELL T,et ai.Rich feature hierarchies for accurate object detection and semantic sevmentfl tion[C+/IEEE Conferencc on Computer Vision and Pattern Reccgnition.Washington,2014:580-587.

[16+HE K,ZHANG X,REN S,et ai.Spatial pyramid pooling in deep ccnvvlutional netforks for visual reccgnition[J+.IEEE transactions on pattern analysis and machine inteHicencc,2015,37(9):1904.

[17+GIRSHICK R.Fast R-VNN[C+/IEEE International Conferencc on Computer Vision.Washington,2015:1440-1448.

[18]REN S,HE K,GIASHICK R,et ai.Fast R-CNN：towards reei-time object detection with region proposal neteorks[J+.IEEE

transactions on pattern analysis and machine intellicencc,2015,39(6):1137-1149.

[19+REDMON J,DIVVALA S,GIRSHHK R,et ai.You oniy look oncc:unified,real-timc object detection[C+/IEEE Conferencc on Computer Vision and Pattern Reccgnition.Washington,2016：779-788.

[20+LIE W,ANGUELOV D,ERHAN D,et ai.SSD:singic shot multiboe detcctor[C+/Europecn Conferencc on Computer Vision.

Berlin,2016：21-37.

[21+SUN X,WU P,HOI S C H.Face detection using deep learning：an improvvd faster R-CNN approach[J+.Ncuroccmputing, 2018,299：42-50.

[22+ZHANG N,DONAHUE J,GIRSHICK R,et ai.Part-based R-CNN s for fine-grained categora detection[M+.Cham：Springer Intermational Publishing,2014.

[23]唐斯琪，陶蔚，张梁梁，等.一种多列特征图融合的深度人计数算法[J].郑州大学学报(理学版)，2018,50(2)：69-75,

医疗设备结构设计[24]朱威威，赵岩松，李艳灵.一种基于集合划分的鲁棒性自适应模糊聚类分割算法[J]•信阳师范学院学报(自然科学版),

江西医学院第二附属医院2019,32(1)：146-152.

本文发布于:2024-09-25 04:27:55，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/212523.html

上一篇：基于扫描线法的数字线划图中多边形相交检测算法

下一篇：【分享】《全空间三维模型数据格式及服务接口规范》（M3D）解读二：标准引领高质发展