基于图像检测识别的数据增强技术

李永盛，何佳洲，刘义海，赵国清

(江苏自动化研究所，江苏连云港222061

)摘要：当前，在图像目标检测识别方面，深度学习技术已经成为研究的热点㊂然而深度学习在进行网络训练时需要

摒弃精致的利己主义使用大量的样本，当样本数目较少时，得到的训练模型其检测效果往往不佳㊂介绍了彩变换㊁水平翻转㊁旋转㊁亮度变换㊁缩放㊁裁剪㊁添加噪声等不同数据增强方法，并结合V O C 2007数据集，采用数据增强技术实现样本扩充㊂实验结果表明对样本进行数据增强处理，均可以在一定程度上提高图像检测精度㊂特别是彩变换㊁水平翻转㊁旋转㊁

亮度变换和缩放这五种方法扩展训练集，对最终检测效果提升较为明显㊂

关键词：数据增强；深度学习；图像检测

中图分类号:T N 911.73 文献标识码:A 文章编号:C N 32-1413(2021)01-0066-05

D O I :10.16426/j .c n k i .j

c d z d k .2021.01.014D a t a E n h a n c e m e n t T e c h n o l o g y B a s e d o n I m a g e D e t e c t i o n a n d R e c o g

n i t i o n L I Y o n g -s h e n g ,H E J i a -z h o u ,L I U Y i -h a i ,Z H A O G u o -q i n g

(J i a n g s u A u t o m a t i o n R e s e a r c h I n s t i t u t e ,L i a n y u n g a n g 2

22061,C h i n a )A b s t r a c t :A t p r e s e n t ,d e e p l e a r n i n g t e c h n o l o g y h a s b e c o m e a h o t r e s e a r c h d i r e c t i o n i n i m a g e t a r g e t d e t e c t i o n a n d r e c o g n i t i o n .H o w e v e r ,a l a r g e n u m b e r o f s a m p l e s a r e n e e d e d f o r n e t w o r k t r a i n i n g i

n d e e p l e a r n i n g .W h e n t h e n u m b e r o f s a m p l e s i s s m a l l ,t h e d e t e c t i o n e f f e c t o f t h e t r a i n i n g m

o d e l o b -t a i n e d i s o f t e n p o o r .I n t h i s p a p

e r ,d i

f f e r e n t d a t a e n h a n c e m e n t m e t h o d s s u c h a s c o l o r t r a n s f o r m a -t i o n ,h o r i z o n t a l f l i p ,r o t a t i o n ,b r i

h t n e s s t r a n s f o r m a t

i o n ,s c a l i n g ,c l i p p i n g a n d a d d i n g n

o i s e a r e i n -t r o d u c e d .C o m b i n e d w i t h V O C 2007d a t a s e t ,d a t a e n h a n c e m e n t t e c h n o l o g y i s a d o p

t e d t o r e a l i z e s a m p l e e x p a n s i o n .T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e i m a g e d e t e c t i o n a c c u r a c y c

a n

b e i m -p r o v e d t o s o m e e x t e n t t h r o u g h d a t a e n h a n

c e m e n t p r o c e s s i n g

.I n p a r t i c u l a r ,t h e f i v e m e t h o d s o f c o l -o r t r a n s f o r m a t i o n ,h o r i z o n t a l r e v e r s a l ,r o t a t i o n ,b r i g h t n e s s t r a n s f o r m a t i o n a n d s c a l i n g c a n e x p

a n d t h e t r a i n i n g s e t ,w h i c h i m p r o v e t h e d e t e c t i o n e f f e c t s i g n i f i c a n t l y .K e y w

o r d s :d a t a e n h a n c e m e n t ;d e e p l e a r n i n g ;i m a g e d e t e c t i o n 收稿日期:20200512

0 引言

近些年来，关于图像处理技术[1]

研究成为计算

机应用的热点方向之一，其在军事㊁医疗㊁交通等领域有广阔的应用前景㊂传统的机器学习需要根据人的专业知识去设计复杂的特征提取器，并且不同的识别目标对应的目标提取特征也往往不同，在实际

应用中鲁棒性差以及泛化能力弱㊂H i n t o n 等[2]

人

在2006年首次提出深度学习,

采用了多层次神经网络结构去训练样本数据㊂由于深度学习[3]不需要人

工设计特征，它是依据大量的数据样本，通过神经网络反复迭代训练得到物体的特征，其特征模型的泛

化能力更强，对物体的识别效果也更佳㊂2009年

L E E 等人[4]

首次使用深度学习网络技术处理音频数据，在不同的音频分类任务上面进行实验，取得了良好的表现㊂D E S E L A E R S 等人[5]基于深度学习

网络处理语音翻译，大大提高了音译效果㊂G L O -

R O T 等人[6]

利用深度学习方法,

在情感分析中实验结果优于其他已有的方法㊂2011年R A N Z A T O 等

人[7]在识别人脸图像中使用深度学习网络，可以较

2021年2月舰船电子对抗

F e b .2021

第44卷第1期

S H I P B O A R D E L E C T R O N I C C O U N T E R M E A S U R E

V o l .44N o .1

好地处理图像中的遮挡问题㊂L E E等人[8]提出了一种无监督学习模型，由于其良好的稀疏性，可以获取更多的图像特征㊂T A Y L O R等人[9]提出了一种人类运动数据的非线性生成模型，该模型利用深度学习网络进行训练，能够较好地对运动捕捉期间丢失的数据进行补充㊂

通过多年研究表明，样本数量的多少直接影响着模型识别效果㊂当数据集较少时，训练得到模型容易出现过拟合现象，导致测试性能降低㊂通常来说，得到1个海量的数据集是进行训练的前提，也是保证获得良好训练效果的关键㊂然而大量的数据样本有时是无法获取的，针对目前公开的一些大型数据集，比如I m a g e N e t㊁MN I S T㊁C O C O等，如果直接拿来用在实际的某个专业领域的图像应用中，其效果并不是特别理想㊂因此针对小样本数据集，如何通过有效的数据增强技术将原本数据集扩大几倍甚至几十倍，非常具有现实意义㊂

在本文中，利用数据增强技术对V O C2007数据集进行扩充，借助深度学习中目标检测S S D算法[10]，通过实验对比来验证数据增强对改善训练模型的有效性㊂

1相关工作

1.1理论研究

目前，根据检测思想的不同，检测算法主要分为两阶段目标检测算法和单阶段目标检测算法㊂

两阶段目标检测算法将检测问题分为2个阶段，先选取候选区域，然后对候选区域进行分类和位置调整，从而输出目标检测结果㊂这类算法的典型代表是R-C N N[11]系列算法，如R-C N N㊁F a s t e r R-C N N等㊂

休闲农业园区规划设计单阶段目标检测算法将检测过程简化为端到端的问题，只需将图片处理1次，能同时得到目标的位置和类别信息，并且其准确率和速度都能得到极大提升㊂这类算法的典型代表有Y O L O[12]㊁S S D等㊂S S D算法作为单阶段目标检测算法的代表，可视为Y O L O和F a s t e r R-C N N的结合，它采用V G G16作为主干网络，用卷积层来替代最后的全连接层㊂S S D算法简单高效，消除了区域提取阶段，将全部计算封装到单个网络中，便于后面进行训练㊂1.2数据标注

目前的机器学习，通常是进行有监督的学习㊂

所谓的有监督学习，就是针对得到的数据集进行标注㊂在本文中，采用l a b e l I m g软件进行图像标注㊂l a b e l I m g有2种数据标注格式，分别为P a s c a l V O C

和Y O L O，本文中由于采取S S D算法验证，故采用P a s c a l V O C格式标注㊂

该软件操作非常简单，打开软件界面后，通过点击O p e n打开所需要标注的图像，选择标注的数据格式为P a s c a l V O C，再点击C r e a t e\n R e c t B o x，对图像中的目标进行标注㊂最后点击S a v e保存得到一个所需的x m l文件㊂

2数据增强

本文主要采用彩变换㊁水平翻转㊁旋转㊁亮度变换㊁缩放[13]㊁裁剪[14]以及添加椒盐噪声等7种数据增强方式㊂

2.1彩变换

在实际生活中，可以看到很多造型一样而颜不同的物体，比如同款的红汽车与白汽车等㊂因此，通过彩变换操作，改变图像中目标的颜，进而达到有效扩充样本集㊂对图像进行彩变换操作，效果如图1所示㊂

图1原图与彩变换

www.902008

2.2水平翻转

在图像预处理中，对图像进行水平翻转是最常用的扩增方法之一㊂首先，实现图像水平翻转的代码简单明了，对于大部分图像而言容易操作，可以直接使样本集的数量翻一番㊂另外，水平翻转不会大幅度地改变检测目标的整体结构，可以保证生成的新图像样本具备有效性㊂对图像进行水平操作，效果如图2所示㊂

图2原图与水平翻转

陈柳钦第1期李永盛等：基于图像检测识别的数据增强技术

2.3旋转

对图像进行旋转操作，是非常有必要的数据增强方式之一㊂原因大概有2种：其一，由于拍摄角度不同，或者由于被拍摄物体的运动，图片中物体的各部分方位可能发生运动，即有时会呈现出物体的旋转；其二，在图像目标标注过程中，由于标注框为矩形，因此只有当图像中的目标处于水平或者竖直位置时，才可以进行精准标注㊂而一旦目标处于倾斜位置，则标注时会引入额外干扰，进而影响后面训练导致训练效果不佳㊂通过适当的旋转可使目标处于水平或者竖直位置，便于精准标注㊂通过旋转

操作，新生成的图像会存在黑边，如果想去掉黑边，可以进一步对生成的新图像进行适当裁剪㊂本文对图像进行旋转操作(未去除黑边)，效果如图3所示㊂

图3原图与旋转

2.4亮度变换

拍照时，不仅受物体运动的影响，也会受到天明暗影响，这就是最常见的亮度变换㊂有的时候在拍照时光线较暗，导致对亮度的鲁棒性很差，因此使用亮度增强技术在图像处理中变得愈加重要㊂在介绍亮度变换之前，简单了解H S V(H u e,S a t u r a t i o n, V a l u e)颜空间㊂H S V是由A.R.S m i t h在1978年提出的一种颜空间[15]，其中3个重要参数分别为调H㊁饱和度S和亮度V，而作亮度变换就是在V平面上做计算㊂对图像进行亮度变换操作，效果如图4所示㊂

图4原图与亮度变换

2.5缩放

同一个物体，由于拍摄时距离目标的远近不一样，会导致不同图像中同一目标的尺度不同㊂因此，为了提高目标的检测精度，需要对已有图像进行缩

放，比如将大尺度的图像缩小㊂缩放通常是将图像

的短边(或长边)固定到某个值，然后长边(或短边)

根据一定的比例进行放大或者缩小㊂缩放有2种方式，一种是向外缩放，即最终图像尺寸超过原图像;

另一种是向内缩放，得到新图像尺寸小于与图像㊂

防护桩在缩放时，需要注意当新图像和原图像的长宽比相

差较大时，会造成图像失真，因此要尽量做到等比例

缩放㊂对图像进行缩放操作，将长宽均缩小为原来

的一半，效果如图5所示(原图分辨率是500ˑ344，大小是29.6k B；缩小后的图像分辨率是250ˑ167，大小是7.66k B)㊂

图5原图与缩放

2.6裁剪

在实际图像中，会出现2种常见的情况：一种是目标物有可能只被拍摄到某一部分；另一种是目标物被其他物体遮挡㊂这2种情况形成的结果是需要检测的目标物不能呈现完整形状㊂为了更好地学习这

部分目标，有必要对完整的目标物进行裁剪，扩充原始的数据集㊂另外需要注意，在裁剪时，如果生成的新图像中被保留的部分太少，也会导致训练效果差，容易形成局部重复检测的问题㊂因此在裁剪后的新图像中，原目标物剩余部分至少要保留一半以上，才能保证对后面的模型训练产生积极影响㊂对图像进行裁剪操作，效果如图6所示㊂

图6原图与裁剪

2.7添加噪声

拍摄图像时，由于天气或者摄像机里面元部件等原因，比如下雨㊁雾霾㊁感应器失效等，会使得成像效果模糊㊂为了能够改善对模糊图像的检测效果,

86舰船电子对抗第44卷

可以事先在训练集中的图像上面加入一些噪声，使得训练模型的鲁棒性更好㊂添加噪声，通常是指在原图像中引入噪声，进而生成新的图像，常用噪声有2种,

分别为椒盐噪声和高斯噪声㊂其中椒盐噪声，又名脉冲噪声，它是一种随机出现的白点(盐噪声)或黑点(椒噪声)，可以较好拟合生活中雨天拍照情景㊂而高斯噪声是指概率密度函数服从高斯分布的噪声㊂在本文中，只对图像添加了椒盐噪声，效果如图7所示

㊂

图7 原图与添加椒盐噪声

3 实验对比

作为一个公开的标准数据集,V O C 2007数据集

通常是图像检测的基准㊂在V O C 2007的原始数据集中，包含训练集的5011张，测试集的4952张,

共计9963张，包括20个种类㊂从表1可以看出

P e r s o n 的数量较多，其他类别的数量均比较少㊂另外，每个类别后面对应的数字，是指正样本图像个数，并非目标数量㊂

在本文实验中，深度学习框架使用的是P y

-t o r c h ，目标检测算法采用的是S S D 算法，网络结构选取的是V G G 16网络㊂由于V O C 2007数据集里面P e r s o n 类样本数量多，不再对此类别进行数据增强，只对其余19类进行数据扩增㊂第1组，训练集为原来的训练集5011张,

测试集也为原来的测试集,4952张;

第2组，采用彩变换㊁水平翻转㊁旋转㊁亮度变换，放缩变换等5种方式，共生成新的

1000张图像,

全部加入训练集，此时训练集共6011张，而测试集保持4952张不变;

第3组，采用裁剪方式得到新的200张图像，全部加入训练集，此时训练集5211张,

测试集保持不变；第4组，采用添加椒盐噪声得到新图像200张，将200张新图像全部加入训练集，此时训练集5211张,

测试集依然不变；第5组，将前面几组中采用数据增强方式得到的新图像1400张全部加入训练集,

此时训练集图像有6411张，测试集依然不变㊂实验结果如表2，其中m A P 为平均精度均值,

其数值越大代表检测精度越高㊂

表1 V O C 2007数据集的各个种类信息

类别训练集(5011

)测试集(4952

)a e r o p l a n e 238204b i c y c l e 243239b i r d

330282b o a t 181172b o t t l e 244212b u s 186174c a r 713721c a t 337322c h a i r 445417c o w

141127d i n i n g t a b l e 200190d o g 421418h o r s e 287274m o t o r b i k e 245222

e r s o n 2008

2007p o t t e d p l a n t 245224s h e e p 96

97s o f a 229223t r a i n 261259t v m o n i t o r 256229表2 5组实验结果对比

序号训练集(张)测试集(张)平均精度均值(%)第1组5011

4952

73.2第2组6011

4952

78.6第3组5211

4952

73.8第4组5211

4952

74.2第5组

6411

4952

79.1

根据实验结果可知,

第2组得到的训练模型测试效果较好，对比第1组有明显的提升，说明通过彩变换㊁水平翻转㊁旋转㊁亮度变换，缩放等数据增强

方式，可以有效改善检测效果；第3组提升效果最少，一方面可能是因为增加的新样本数目最少，另一方面可能是裁剪后的目标特征不明显，导致测试时检测精度提升效果低；第4组检测效果也一般，推测原因是在V O C 2007测试集中很少有添加噪声的图

像，因此将添加噪声的200张新图像加入训练集，对最终测试效果影响不多；第5组的测试效果最好，这种结果是意料之中的，因为它是将所有的新增数据样本全部加入训练集，充分说明了数据增强技术对提升图像目标检测具有显著效果㊂

4 总结与展望

经济社会发展

面对深度学习中样本数据量少的问题，本文介

6第1期

李永盛等：基于图像检测识别的数据增强技术

绍了彩变换㊁水平翻转㊁旋转㊁亮度变换，缩放㊁裁剪㊁添加噪声等数据增强方式的特点㊂为了观察不同数据增强方法的效果，在公开的V O C2007数据集上，采用这些数据增强技术进行训练样本扩充，并设计了5组对比实验㊂实验结果表明对样本进行数据增强处理后，均可以在一定程度上提高图像检测精度㊂其中，通过彩变换㊁水平翻转㊁旋转㊁亮度变换和缩放这5种方法扩展训练集，检测效果提升明显㊂随着数据增强技术的不断发展，下面有一些新的数据增强方向值得关注:

(1)利用生成对抗网络(G A N)进行数据增强[16]㊂基于G A N[17]本身巨大的数据生成潜力，相信未来随着对G A N的不断深入研究，人们可以获得大量高质量的新图像样本，从而可以极大地解决训练样本数据少的问题㊂

(2)通过多张图像拼接进行数据增强㊂随机图像裁剪和修补技术(R I C A P)[18]能够随机对4幅图像分别进行不同的裁剪，然后拼接修补，最终获得新图像㊂这种类型的新图像由于混合了4幅图像的标签，

从而可以大大提高数据样本的多样性，同时还可以在某种程度上缓解参数过拟合现象㊂

参考文献

[1] H E K M,Z HA N G X Y,R E N S Q,e t a l.D e e p r e s i d u a l

l e a r n i n g f o r i m a g e r e c o g n i t i o n[C]//I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.L a s V e-

g a s,N V,U S A:I E E E,2016:770778.

[2] H I N T O N G E.,O S I N D E R O S,T E H Y W.A f a s t

l e a r n i n g a l g o r i t h m f o r d e e p b e l i e f n e t s[J].N e u r a l

C o m p u t a t i o n,2006,18(7):15271554.

[3] S C HM I D HU B E R J.D e e p l e a r n i n g i n n e u r a l n e t w o r k s:

a n o v e r v i e w[J].N e u r a l N e t w o r k s,2015,61(4):85

117.

[4] L E E H,P HAM P,L A R GMA N Y,e t a l.U n s u p e r v i s e d

f e a t u r e l e a r n i n

g f o r a u d i o c l a s s i f i c a t i o n u s i n g c o n v o l u-

t i o n a l d e e p b e l i e f n e t w o r k s[C]//A d v a n c e s i n N e u r a l

I n f o r m a t i o n P r o c e s s i n g S y s t e m s,2009:10961104.

[5] D E S E L A E R S T,HA S A N S,B E N D E R O,e t a l.A d e e p

l e a r n i n g a p p r o a c h t o m a c h i n e t r a n s l i t e r a t i o n[C]//P r o-

c e e

d i n g s o f t h

e F o u r t h W o r k s h o p o n S t a t i s t i c a l M a-

c h i n e T r a n s l a t i o n,2009:233241.[6] G L O R O T X,B O R D E S A,B E N G I O Y.D o m a i n a

d a p t a-

t i o n f o r l a r g e-s c a l e s e n t i m e n t c l a s s i f i c a t i o n:A d e e p l e a r n i n g a p p r o a c h[C]//I C M L,2011:10241028.

[7] R A N Z A T O M A,S U S S K I N D J,MN I H V,e t a l.O n

d e e p g e n e r a t i v e m o d e l s w i t h a p p l i c a t i o n s t o r e c o g n i-

t i o n.[C]//C V P R2011.I E E E,2011:28572864. [8] L E E H,E K A N A D HAM C,N G A Y.S p a r s e d e e p b e-

l i e f n e t m o d e l f o r v i s u a l a r e a V2[C]//A d v a n c e s i n

N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s,2007:873

880.

[9] T A Y L O R G W,H I N T O N G E,R OW E I S S T.M o d e l-

i n g h u m a n m o t i o n u s i n g b i n a r y l a t e n t v a r i a b l e s[C]//

A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s,

2007:13451352.

[10]L I U W,A N G U E L OWD,E R HA N D,e t a l.S S D:S i n-

g l e s h o t m u l t i b o x d e t e c t o r[C]//E u r o p e a n C o n f e r e n c e

o n C o m p u t e r V i s i o n.S p r i n g e r,C h a m,2016:2137.

[11]G I R S H I C K R,D O N A HU E J,D A R R E L L T,e t a l.

R i c h f e a t u r e h i e r a r c h i e s f o r a c c u r a t e o b j e c t d e t e c t i o n

a n d s e m a n t i c s e g m e n t a t i o n[C]//I E E E C o n f e r e n c e o n

C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n,2014:580

587.

[12]R E D MO N J,D I V V A L A S,G I R S H I C K R,e t a l.Y o u

o n l y l o o k o n c e:u n i f i e d,r e a l-t i m e o b j e c t d e t e c t i o n[C]//

I E E E C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n

R e c o g n i t i o n,2016:779788.

[13]黄长专，王彪，杨忠.图像分割方法研究[J].计算机技

术与发展,2009,19(6):7679.

[14]K R I Z H E V S K Y A,S U T S K E V E R I,H I N T O N G.I m a-

g e n e t c l a s s i f i c a t i o n w i t h d e e p c o n v o l u t i o n a l n e u r a l n e t-

w o r k s[J].C o mm u n i c a t i o n s o f T h e A C M,2017,60(6): 8490.

[15]S M I T H A R.C o l o r g a m u t t r a n s f o r m p a i r s[J].A C M

S i g g r a p h C o m p u t e r G r a p h i c s,1978,12(3):1219.

[16]陈文兵，管正雄，陈允杰.基于条件生成式对抗网络的

数据增强方法[J].计算机应用,2018,38(11):3305

3311.

[17]G O O D F E L L OW I,P O U G E T-A B A D I E J,M I R Z A M,

e t a l.G e n e r a t i v e a d v e r s a r i a l n e t s[C]//A d v a n c e s i n

N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s,2014:2672

2680.

[18]T A K A HA S H I R,MA T S U B A R A T,U E HA R A K R.

R a n d o m i m a g e c r o p p i n g a n d p a t c h i n g d a t a a u g m e n t a-t i o n f o r d e e p c n n s[C]//A s i a n C o n f e r e n c e o n M a c h i n e L e a r n i n g,2018:786798.

07舰船电子对抗第44卷

本文发布于:2024-09-22 17:33:09，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/116786.html

上一篇：opencv库的基本使用（python）

下一篇：改进自适应中值滤波算法研究

标签：图像数据进行检测目标训练增强

留言与评论（共有 0 条评论）