文献精读——(第一篇)《深度卷积神经网络在计算机视觉中的应用研究综述》

⽂献精读——(第⼀篇)《深度卷积神经⽹络在计算机视觉中
的应⽤研究综述》
本⼈学习机器学习、深度学习已经有⼀段时间了,考虑到毕业之后的就业⽅向和⾃⼰的毕业论⽂,最终确定主要研究⽅向为图像识别,主要研究的算法为基于CNN的各种图像分类模型(研究深度学习⼀定要确定研究领域,毕竟时间有限,不要盲⽬的看许多深度学习⽂献,最后杂⽽不精)。如果,毕业之前有时间或者读博的话会从事⽬标检测相关的研究。同时,如果有志同道和之⼠,可以联系我,⼤家相互学习,如果⼈多可以建个,哈哈。富士宝电磁炉电路图
正⽂:《深度卷积神经⽹络在计算机视觉中的应⽤研究综述》笔记
摘要部分
着⼤数据时代的到来,含更多隐含层的深度卷积神经⽹络(Convolutional neural networks,CNNs)具有更复杂的⽹络结构,与传统机器学习⽅法相⽐具有更强⼤的特征学习和特征表达能⼒。使⽤深度学习算法训练的卷积神经⽹络模型⾃提出以来在计算机视觉领域的多个⼤规模识别任务上取得了令⼈瞩⽬的成绩。本⽂⾸先简要介绍深度学习和卷积神经⽹络的兴起与发展,概述卷积神经⽹络的基本模型结构、卷积特征提取和池化操作。然后综述了基于深度学习的卷积神经⽹络模型在图像分类、物体检测、姿态估
计、图像分割和⼈脸识别等多个计算机视觉应⽤领域中的研究现状和发展趋势,主要从典型的⽹络结构的构建、训练⽅法和性能表现3个⽅⾯进⾏介绍。最后对⽬前研究中存在的⼀些问题进⾏简要的总结和讨论,并展望未来发展的新⽅向。
关键词:深度学习;卷积神经⽹络;图像识别;⽬标检测;计算机视觉
总结:
1)与传统神经⽹络⽐好在哪⾥? 答:具有更强⼤的特征学习和特征表达能⼒。
2)成绩如何:多个⼤规模识别任务上取得了令⼈瞩⽬的成绩(本⼈主要研究特定领域的“⼩规模”识别任务,希望有较好的识别效果)
3)摘要主要从卷积⽹络的基本结构、卷积⽹络的应⽤领域(重要介绍典型⽹络)
引⾔(不要觉得没有⽤,它会为你捋清知识脉络,如果写论⽂的话会启发你的研究⽅向)
正⽂笔记
图像识别是⼀种利⽤计算机对图像进⾏处理、分析和理解,以识
别各种不同模式的⽬标和对象的技术,是计算机视觉领域的⼀个主要研
究⽅向,在以图像为主体的智能化数据采集与处理中具有⼗分重要的作
⽤和影响。使⽤图像识别技术能够有效地处理特定⽬标物体的检测和识别(如⼈脸、⼿写字符或是商品)、图像的分类标注以及主观图像质量评估等问题。⽬前图像识别技术在图像搜索、商品推荐、⽤户⾏为分析以及⼈脸识别等互联⽹应⽤产品中具有巨⼤的商业市场和良好的应⽤前景,同时在智能机器⼈、⽆⼈⾃动驾驶和⽆⼈机等⾼新科技产业以及⽣物学、医学和地质学等众多学科领域具有⼴阔的应⽤前景。
主要交待研究背景,说明图像识别是什么,(总感觉他说的图像分类是基于检测后的分类)
早期的图像识别系统主要采⽤尺度不变特征变换(Scale—invariant feature transform,SIFT)和⽅向梯度直⽅图(Histogram of oriented gradients,HOG)等特征提取⽅法,然后将提取到的特征输⼊⾄分类器中进⾏分类识别。这些特征本质上是⼀种⼿⼯设计的特征,对不同的识别问题,提取到的特征好坏对系统性能有着直接的影响,因
介绍早期图像识别的⽅法:使⽤SIFT和HOG提取特征,再⽤分类器分类。
缺点是:特征需要⼈⼯设计、需要结合识别的相关领域。
注:所以使⽤深度学习可以⾃主提取特征,⽽在学习过程中同时学习分类器以及分类器所需要的变换特征就是表征学习
对不同的识别问题,提取到的特征好坏对系统性能有着直接的影响,因
此需要研究⼈员对所要解决的问题领域进⾏深⼊的研究,以设计出适应
性更好的特征,从⽽提⾼系统的性能。这个时期的图像识别系统⼀般都
是针对某个特定的识别任务,且数据的规模不⼤,泛化能⼒较差,难以
在实际应⽤问题当中实现精准的识别效果。
深度学习是机器学习的⼀个分⽀,是近些年来机器学习领域取得
的重⼤突破和研究热点之⼀。2006年,加拿⼤多伦多⼤学教授、机器
学习领域的泰⽃Geoffery Hinton和他的学⽣Ruslan Salakhutdinov
在国际顶尖学术刊物《Science))上发表了⼀篇⽂章,第⼀次提出了深度
学习的思想。这篇⽂章主要提出了两个观点:(1)含多个隐层的⼈⼯神经⽹络具有⼗分强⼤的特征学习能⼒,通过训练模型所提取的特征对原始输⼈数据具有更抽象和更本质的表述,从⽽有利于解决特征可视化或分类问题;(2)通过使⽤⽆监督学习算法实现⼀种称作“逐层初始化”的⽅法,实现对输⼊数据信息进⾏分级表达,从⽽可以有效地降低深度神经⽹络的训练难度。随后,深度学习在学术界和⼯业界持续升温,在语⾳识别、图像识别和⾃然语⾔处理等领域获得了突破性的进展。2011年以来,研究⼈员⾸先在语⾳识别问题上应⽤深度学习技术,将准确率提⾼了20%~30%,取得了⼗多年来最⼤的突破性进展。仅仅⼀年后,基于卷积神经⽹络的深度学习模型就在⼤规模图像分类任务上取得了⾮常⼤的性能提⾼,掀起了深度学习研究的热潮。⽂献提出了两种基于深度神经⽹络的声学建模⽅法,相⽐于传统建模⽅法提取到了更有效的声学特征,并在维吾尔语的⼤词汇量连续语⾳识别应⽤上取得了较⼤的性能提升。⽬前,⾕歌、微软和Facebook等众多国际互联⽹科技企业争相投⼊⼤量的资源,研发布局⼤规模的深度学习系统。主要介绍深度学习的发展
重点:
cdna文库第⼀次提出了深度学习的思想。这篇⽂章主要提出了两个观点:(1)含多个隐层的⼈⼯神经⽹络具有⼗分强⼤的特征学习能⼒,通过训练模型所提取的特征对原始输⼈数据具有更抽象和更本质的表述,从⽽有利于解决特征可视化或分类问题;(2)通过使⽤⽆监督学习算法实现⼀种称作“逐层初始化”的⽅
法,实现对输⼊数据信息进⾏分级表达,从⽽可以有效地降低深度神经⽹络的训练难度。(感觉⼤部分还是BP训练)
注:语⾳识别也⽤卷积⽹络,不研究暂时不看
1、卷积⽹络(基本概念不介绍,主要说⼀下疑问)自贡师专
1.2
⽹络结构部分
注意S1层与C2层之间,卷积操作不是指对⼀个特征图进⾏操作,应该是卷积核对每个或者个别特征图都进⾏操作并求和。之后的
C2层与S2层倒是正确,毕竟⼀个卷积核⼀个特征图
1.3卷积操作
卷积操作都只知道,这⾥不做赘述,这⾥主要说以下⼏个问题:
为什么图像可以⽤卷积:⾃然图像有其固有特性,即对于图像的某⼀部分,其统计特性与其他部分相同。这意味着在这⼀部分学习到的特征也能⽤在另⼀部分上,因此对于图像上的所有位置,可以使⽤同样的学习特征。(感动,别光想着参数减少)
卷积操作局部图像后,会出现什么问题:遍历整个图像后所提取的特征要输⼊到分类器中,将如此⾼维度的特征输⼊⾄分类器中进⾏训练需要耗费⾮常庞⼤的计算资源,同时也会产⽣过拟合(因为参数过多,模型的容量越⼤,越易提取出过于复杂的函数,进⽽泛化能⼒弱)
1.4池化操作
池化操作⽤于减少参数,那为什么可以⽤它来减少参数呢:
1)由于图像具有⼀种“静态性”的属性,在图像的⼀个局部区域得到的特征极有可能在另⼀个局部区域同样适⽤。因此,可以对图像的⼀个局部区域中不同位置的特征进⾏聚合统计操作。(所以说池化的本质是对特征进⾏统计,之前看得不细,惭愧惭愧)
2)如果选择图像中的连续范围作为池化区域(即连续滑动),同时只对相同的隐含神经元产⽣的卷积特征使⽤池化,则这些池化后的特征单元具有平移不变性。原始图像中的物体产⽣了⼀个较⼩的平移,依然可以得到相同的池化特征,分类器也依然能够输出相同的分类结果。例如,如果使⽤最⼤池化,可能图像平移后产⽣的新特征不变(反正取最⼤)。
2、图像分类
什么是图像分类:图像分类问题是通过对图像的分析,将图像划归为若⼲个类别中的某⼀种,主要强调对图像整体的语义进⾏判定。
主要⽤哪些数据集:CIFAR⼀10/100,Caltech-101/256u和ImageNet,其中ImageNet包含超过15 000 000张带标签的⾼分辨率图像,这些图像被划分为超过22 000个类别(没GPU就跑跑CIFAR⼀10吧)
主要的图⽚分类模型:这些⼤家都知道,我主要说模型的改进点树立和落实科学发展观
1)AlexNet:中最后⼀层采⽤softmax进⾏分类。该模型采⽤(ReLU)来取代传统的Sigmoid和tanh函数作为神经元的⾮线性激活函数,并提出了Dropout⽅法来减轻过拟合问题。(看⼀下这篇论⽂是怎么证明过拟合的,不然⾃⼰写论⽂的时候总是不会说,哈哈)
2) ILSVRC2013的获胜队伍Clarifai叼提出了⼀套卷积神经⽹络的可视化⽅法,运⽤反卷积⽹络对AlexNet的每个卷积层进⾏可视化,以此来分析每⼀层所学习到的特征,从⽽加深了对于卷积神经⽹络为什么能够在图像分类上取得好的效果的理解,并据此改进了该模型,取得了11.7%的错误率。(使⽤反卷积可视化,改进模型是主流的CNN改进⽅式,反卷积⼀定要会)
3)GoogleNet:提出了Inception模块,它的主要思想是想办法出图像的最优局部稀疏结构,并将其近似地⽤稠密组件替代(为什么能到最优局部稀疏结构?)。这样做⼀⽅⾯可以实现有效的降维,从⽽能够在计算资源同等的情况下增加⽹络的宽度与深度;另⼀⽅⾯也可以减少需要训练的参数,从⽽减轻过拟合问题,提⾼模型的推⼴能⼒。
4)SPP-Net:新的池化⽅法,叫作空间⾦字塔池。空间⾦字塔池化的作⽤是对任意维数的输⼊均产⽣固定维数的输出,从⽽使⽹络
可以接受任意⼤⼩的图像作为输⼊。(原因:因为全连接层,多了我就不说了)
5)ReLU—Nets:提出参数化修正线性单元(PReLU)。该激活函数可以适应性地学习修正单元的参数,并且能够在额外计算成本可
以忽略不计的情况下提⾼识别的准确率。(没啥多说的,看这个论⽂就是为看看他怎么⽐较计算成本的)
6)BN:Google的研究⼈员将归⼀化的⽅法运⽤于⽹络内部的激活函数中,对层与层之间的传输数据进⾏归⼀化。由于训练时使⽤随机梯度下降法,这样的归⼀化只能在每个mini—batch内进⾏,所以被命名为Batch normalization。该⽅法可以使得训练时能够使⽤更⾼的学习率,减少训练时间;同时减少过拟合,提⾼准确率。(原因:只能梯度下降中归⼀化,为什么归⼀化)
7)Google DeepMind(特殊说明⼀下,尽管卷积神经⽹络已经拥有强⼤的图像学习能⼒,然⽽这类模型缺乏对于图像空间不变性的学习,尤其是缺乏对于图像旋转不变性的学习):提出了Spatial transformer提⾼卷积神经⽹络对于图像空间不变性的学习能⼒,来加强其图像分类的准确率。
Spatial transformer:可以在卷积神经⽹络的任意深度位置加⼊的模块,它可以将输⼊数据进⾏⼀系列空间变换,使得输出特征更加易于进⾏分类。在训练过程中,该模块可以⾃主地学习到空间变换所需要的参数,并且不需要在训练中增加任何额外的监督处理。
8)ResNet:太有名了,啥也不说了。
3、物体检测
与图像分类⽐起来,物体检测是计算机视觉领域中⼀个更加复杂的问题,因为⼀张图像中可能含有属于不同类别的多个物体,需要对它们均进⾏定位并识别其种类。因此,在物体检测中要取得好的效果也⽐物体分类更具有挑战性,运⽤于物体检测的深度学习模型也会更加复杂。
R—CNN模型:该模型⾸先使⽤Selective search这⼀⾮深度学习算法来提出待分类的候选区域,然后将每个候选区域输⼊到卷积神经⽹络中提取特征,接着将这些特征输⼊到线性⽀持向量机中进⾏分类。为了使得定位更加准确,R—CNN中还训练了⼀个线性回归模型来对候选区域坐标进⾏修正,该过程被称为Bounding box regression。(先选区域,再分类,两个过程)
Fast R—CNN:
Fast R—CNN设计了⼀个多任务损失函数,来同时训练⽤于分类和修正候选区域坐标信息的两个全连接层。Fast R—CNN中不再需要额外的训练SVM分类器,实现了从提取图像特征到完成检测的⼀体化。
DeeplD-Net:。该模型在R—CNN训练流程的基础上进⾏了进⼀步完善,改进了模型预训练⽅式,提出了Bounding box rejection Contextual modeling等新的⽹络训练步骤。除此之外,在卷积神经⽹络结构中,DeeplD-Net在可变形部件模型(Deformable part model)的启发下设计了新的池化层,叫作Deformation constrained pooling(Def-pooling)层。这⼀池化层可以实现对图像局部信息的学习,并使得模型能够更好地适应于输⼊图像中某些部件位置发⽣偏移的情况。
Faster R—CNN:aster R—CNN⽹络在Fast R—CNN模型的基础上,在最后⼀层卷积层输出的特征映射上设置了⼀个滑动窗,该滑动窗与候选区域⽹络进⾏全连接。对于滑动窗滑过的每个位置,模型中给定若⼲个以滑动窗中⼼为中⼼、不同尺度与长宽⽐的锚点,候选区域⽹络将以每个锚点为基准相应地计算出⼀个候选区分类层回归层卷积特征映射图域。候选区域⽹络是⼀个全卷积⽹络⼝“,⽹络的第⼀层将滑动窗的输⼊特征映射到⼀个较低维的向量,然后将该向量输⼊到两个并列的全连接⼦层,其中分类层⽤于输出该向量对应图像属于物体还是背景的概率分布,回归层⽤于输出候选区域的坐标信息。为了让候选区域⽹络与⽤于检测的Fast R—CNN模型的前⼏层卷积层能够实现共享,从⽽提⾼这些卷积层所提取特征的利⽤率与运⾏效率,Faster R—CNN提出了⼀套多阶段训练算法进⾏⽹络训练。
由于Faster R—CNN提出候选区域的过程是根据⽤于检测的Fast R-CNN⽹络的前⼏层卷积层所提取的特征,且候选区域⽹络也在GPU上实现,从⽽提出候选区域的时间开销⼤⼤减少,检测所需时间约为原来时间的1/10,且准确率也有所提⾼,说明候选区域⽹络不仅能更加⾼效地运⾏,还能提⾼所产⽣的候选区域的质量。
4、姿态估计
除了⼤家熟知的图像分类和⽬标检测任务外,实际上随着各种⽹络游戏的发展、动画视频的普及,正确快速地识别和理解图像中⼈的姿态动作也成为了⼀个⾮常热门的话题。这种问题统称为姿态检测。姿态检测中包含许多类别和⼦问题,姿态估计就是其中之⼀。姿态估计是时下最为重要的计算机视觉挑战性问题之⼀,原因在于它可以被很快地应⽤到⼈物追踪、动作识别以及视频相关的视频分析上,⽐如视频监控和视频搜索等实际应⽤⾯⾮常⼴。
姿态估计的主要任务就是,给定⼀张图,图中会有⼀个⼈,你需要给出这个⼈的姿态动作是什么样的。⼈们会提前选定出⽐较重要的⼏个⼈体关节(⽐如肩膀、肘部、脖⼦等),然后⽤⼀个固定维数(⽐如维和11维)的坐标向量来表⽰这个动作,每⼀维都表⽰图中⼈物的重要关节所在的具体坐标。换句话说,你需要给出⼀个⽕柴⼈的形状来表⽰这个⼈的姿态。(不研究多了就不说了)
5、图像分割
深度神经⽹络在图像分类、⽬标检测和姿态估计等⽅⾯取得了巨⼤的成功,进⼀步的发展便是对图像上每个像素点的预测,这个任务就是图像分割。图像分割是这样⼀类问题:对于⼀张图来说,图上可能有多个物体、多个⼈物甚⾄多层背景,希望能做到对于原图上的每个像素点,能预测它是属于哪个部分的(⼈、动物、背景……)(对像素点分类)
6、⼈脸识别
⼈脸识别是图像识别领域⼀个⾮常重要的研究⽅向,由于⼈脸图像具有易采集的特性,因此受到了许多⾏业的关注,具有⾮常⼴阔的应⽤前景和巨⼤的商业市场。⼈脸识别技术主要包括⼈脸检测、⼈脸特征提取和⼈脸识别3个过程。
7、结束语
正⽂笔记
深度学习⽬前是⼀个⾮常热门的研究⽅向,利⽤卷积神经⽹络的卷积层、池化层和
全连接层等基本结构,就可以让这个⽹络结构⾃⼰学习和提取相关特征,并加以利⽤。这种
特性对许多研究提供了许多便利,可以省略过往⾮常繁杂的建模过程。
深度学习优势:⾃主学习,⼜快⼜好
此外,深度学习现在在图像分类、物体检测、姿态估计和图像分割等⽅⾯都已经有了⾮常⼤的成果和进步。⼀⽅⾯,深度学习应⽤⾯⾮常⼴,⽽且通⽤性强,完全可以继续努⼒将其拓展到其它应⽤领域。另⼀⽅⾯,深度学习仍有许多潜⼒可挖,值得不断去探索和发现。说明深度学习⽬前状况,引出发展⽅向,承上启下。
另⼀⽅⾯,深度学习仍有许多潜⼒可挖,值得不断去探索和发现。就未来⽽⾔,尽管之前讨论的许多内容都是有监督的学习(⽐如训练的⽹络最后⼀层会根据真实值计算⼀个loss值,进⽽进⾏参数调整),并且有监督的学习确实取得了⾮常⼤的成功。深度学习在⽆监督的学习⽅⾯的应⽤很可能是未来的发展趋势。毕竟,就⼈或者动物⽽⾔,⼤部分情况下,我们并不是通过知道事物的名字来了解它是什么的。
在未来的计算机视觉领域,预计基于深度学习的卷积神经⽹络和循环神经⽹络(Recurrent neural network,RNN)将会成为⼗分流⾏的⽹络模型,并将在更多的应⽤研究中取得更好的突破与进展。
陈大启此外,结合强化学⽅法来训练⼀个端到端的学习系统逐渐成为可能,从⽽使得该学习系统具有⾃主学习能⼒,能够主动去学习相关特征的表⽰和抽象。⽬前,结合深度学习与强化学习的研究尚处于起步阶段,但已经有⼀些这⽅⾯的研究⼯作在多物体识别任务和进⾏视频游戏的学习⼝上取得了不错的表
周云杰 奥瑞金现,这也是让许多相关领域的研究者们兴奋的原因之⼀。卷积⽹络的未来:
1)⽆监督化
2)与RNN结合(感觉不少⼈都做了)3)与强化学习结合(查⼀下端到端)
值得注意的是,⾃然语⾔处理同样也是深度学习未来能够⼤展⾝⼿的潜在舞台,⽐
如说,对于⼀篇⽂章或者⼀⼤段⽂字,能够设计出基于⼀些深度神经⽹络模型(⽐RNN)的⽅
法和策略,能够有效地理解⽂本内容。总体来说,⼈们现在使⽤深度学习以及⼀些简单的推
理,就已经在语⾳和图像领域取得了⾮常不错的成果。有理由相信,如果将⽬前对于⽹络提
取的特征表⽰能够进⼀步优化,使得其能够更“⾃如”地表达特征,再加上⼀些复杂推理,
那么深度学习将会在⼈⼯智能的各个应⽤⽅⾯取得更⼤的进展。
深度学习的未来总结都说完了,之后会根据这篇⽂献对⼀些模型进⾏总结,讲真的听⽹课不如看论⽂,哈哈哈哈。

本文发布于:2024-09-22 07:11:25,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/21863.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:学习   图像   特征   深度   卷积   分类   神经   识别
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议