基于YOLO多模型交叠桥接策略的人脸检测算法

^mmmm2021年第01期
(总第217期)基于YOLO多模型交叠桥接策略的人脸检测算法
朱泽,万秋波,屈金山
(三峡大学计算机与信息学院,湖北宜昌443002)
摘要:基于深层卷积神经网络的人脸检测算法因其能够较好地克服复杂环境中诸多因素造成的影响,得到了业界广泛关 注。YOLO是一种分类/定位回归式视觉目标检测算法,采用单步检测方式,兼具速度快准确率高的优点,是目前被广泛 使用的一种深层全卷积神经网络。但由于其网络输入尺寸固定,其输出神经元的感受野范围也因此被限定。将其用于 检测尺寸跨度大的人脸目标时,往往会出现无法同时顾及较大或较小人脸目标的问题。针对该问题,该文提出了 一种基 于Y O L O多模型交叠桥接策略的大跨度尺寸范围下的人脸检测算法。首先推算感受野范围,估计出不同输入尺寸的 YOLO网络人脸检测范围;接着,根据各尺寸的检测效果,到它们的最佳交叠桥接尺寸范围;然后,利用NMS融合各模 型检测结果。在WIDER_FACE数据集的实验结果表明,上述方式可以有效扩展YOLO网络人脸检测的感知范围,提升 检测准确率,具有较好的应用前景。
关键词:人脸检测;深度学习;卷积神经网络;YOLO;多尺度
中图分类号:TP391 文献标识码:B 文章编号:2096-9759( 2021)01-0044-03
Face detection algorithm based on YOLO multi-model Overlapping bridge strategy
Zhu Zequn, Wan Qiubo, Qu Jinshan
改革开放30年纪实
(College of Computer and Information Technology, China Three Gorges University, Yichang 443002, China) Abstract:Face detection algorithm based on deep convolutional neural network is widely concerned because it can better over- come the influence of many factors in complex environment, Y OLO is a classification/positioning regressive visual target detec- tion algorithm. It adopts a single-step detection method with the advantages of high speed and accuracy. It is a deep full convo­lutional neural network widely used at present.However, because the input size of the network is fixed, the receptive field range of t he output neurons is limited. W hen it is used to detect face targets with large size span, it often appears that it cannot take into acco皿t Ae 1虹ge or smdl face targets at the same time.To solve tWs problem, tWs paper proposes a face detection algorithm bas- ed on YOLO multi-model overlapping bridge strategy in large span size range.Firstly, the sensing field range is calculated, and the YOLO network face detection range with different input sizes is estimated.Then, according to the detection effect of each size, find the best overlap bridge size rang
e;Then, NMS is used to fuse the detection results of each model.The experimental re­sults in WIDER_FACE dataset show that the above methods can effectively expand the perceptual range of Y OLO network face detection, improve the detection accuracy, and have a good application prospect.
Key words: face detection; deep learning; CNN(Convolutional Neural Network); YOLO; multiscale
〇引言
随着计算机视觉技术的不断进步,人脸识别系统现已在 安全监控、人机交互、犯罪识别、门禁等多种应用领域起到了 非常重要的作用,而人脸检测问题作为人脸识别系统中的核 心阶段,近几年在计算机目标检测领域更是弓丨起了广泛的关 注与研宄。多年来,相关研宄者提出了多种人脸检测方法,如 早期的基于Adaboost的学习算法,通过积分图选用少许的关 键视觉特征,迅速分离目标对象与背景,并采用高效的级联结 构进行分类[1],使得人脸检测真正变得实时可用,Bo W u[a等通 过提取haar特征结合real adaboost分类器与nest结构来进行 多姿态人脸检测,使人脸检测问题得到大幅度的改善,还有 COOTES®等通过人脸的特征点定位,将脸部特征点的纹理和 位置关系约束到一起来进行检测,也是有效的人脸检测方法,Xudong Cao[4]等人对模型本身进行改进,基于训练样本的线性 组合来约束形状,在此类方法上达到了目前最好的效果。但 是随着人脸数据库的量的不断增大,系统对自动分析
与检测的需求越来越大,人工操作的难度也是越来越困难。而随着 神经网络的兴起,其层次化的特征提取方式及端到端的整体 训练方法很好地解决了这一问题,人们将特征提取的工作交 给神经网路自身,大大减少了人为的工作量及提高了整体效 率,经实验证明,经过深度训练的卷积神经网络在人脸检测方 面有显著的性能提升,能有效克服复杂环境中诸多因素造成 的影响,在准确性和鲁棒性上的表现大幅超过传统的计算机 视觉方法,于是人们的目光慢慢从基于几何特征的人脸检测 方法转移到了基于卷积神经网络的人脸检测方法上。自2013 年起,R-CNN系列M开创了目标检测的深度学习方法,但是由 于其将检测目标转化为了图片的局部,不能充分利用图像整 体的上下文信息间的联系,且计算量极大,导致其不能在GPU 上具有实时性。此时,Redmon等提出的YOLO系列[81°]采用 one-stage方法,只进行一次CNN运算,对图像整体进行预测,训练与预测都是端到端的单管道策略,简洁快速,但是精确度 有所下降,其算法的提出是基于实时检测的,目前在GPU上
收稿日期= 2020-11-09
作者简介:朱泽(1994-),男,硕士,主要研宄方向:计算机视觉。
44
实时检测也能达到较高的精度,但是yolo算法基于其网络结 构,不仅在处理密集小目标上存在精度问题,其输出神经元的 感受野范围也有限制,导致其无法应对尺寸跨度较大的检测 环境。
本文提出了一种基于Y O L O多模型交叠桥接策略的大跨 度尺寸范围下的人脸检测算法。该方法通过改变模型的输入 尺寸来改变其感受野范围,然后在检测阶段采用交叠桥接策 略,合并三种输入尺寸模型的检测结果,通过实验对比,出 桥接效果最好的输入尺寸,得到最终的检测结果。实验证明,该方法有效解决了 yolo模型感受野的范围限制,提升了模型 的检测尺度范围,同时在整体尺寸跨度上提升了检测精度。
1相关工作
1.1 yolov3算法介绍
不同于R-C N N系列方法的滑动窗口技术,yolo系列算法 将原始图片分割成互不重合的小方块,通过卷积产生其对应 的特征图,特征图的每个元素用来预测其对应的每一个方块,如将图片分割为个单元格,每个单元格负责检测那些中心点 落在该单元格内的目标,通过输出每个边框的置信度与类别 置信度来对物体进行预测。
1.2 yolov3感受野说明
Yolo的主干网络采用卷积神经网络来提取图像特征,避 免了传统神经网络中因全连接而造成的权重冗杂与overfitt-ing,但是很显然,经过不断卷积与下采样的运算后,卷积运算 后的输出矩阵在一维平面
上规模越来越小,直到之后只有一 个元素,此时就达到了最小,那么这一个元素的信息就完全 代表了原图上对应的区域,此时我们把区域A的大小叫做此 模型的最佳感受野。若目标在此区域内却远小于此区域大 小,那么结果中的特征就会带有目标之外的干扰信息,若目 标大于此区域大小,那么结果中的特征就只能显示目标的局 部特征,给结果带来很大的偏差。所以在训练一个卷积神经 网络模型的时候,感受野的大小也是一个需要考量的重点。
1.3 n m s说明
nms (Non-Maximum Suppression,非极大值抑制),其意义是抑制不是极大值的元素。多模型下同一个人脸可能重复检 测。rnns会记录置信度最大的边界框,然后分别判断其余的 b o x与其的I O U值,大于阈值则丢弃,小于阈值则保留,在本 文的桥接方法中,除了此处外,在两个模型感受野范围交叠之 处也需要用到n m s来将重复标记出的框剔除掉。
2研究方法
2.1 yolov3感受野推算
根据2中的描述,结合我们实际使用y〇l〇v3检测时,小目 标与大目标检测效果较差分析,y〇l〇v3模型的感受野限制很 强,无法适应大尺寸跨度的实时检测。
索爱m600i通过推算yolov3的网络结构,随着卷积层数的増加,感受 野逐渐变大,经过Convolutional Set层R F增加4,此时R F=75,经过最后3x3的卷积层时加2,所以第一级感受野是R F=75+ 2=77,若不算第一级的上采样,第二级的R F=59+6=65,但是第 一层通过concat加入到了第二级的输出,插值用的nearest,所 以此时感受野是外部75,内部59,最终R F=75+6=81,同理,第 三级不算上第二级的上采样应该是R F=39+6=45,除去这个39, 増加了来自第二级的上采样,第二级是外部81,内部59,所以 第三级是81与39通过concat合并,最后再加6,所以是外部87,内部81,核心39,其推算公式为:
^RF^Qsand^-t)xfeatuv_stride⑴2.2模型与数据集
淀粉酶抑制剂本文使用的yolo模型输入像素为416*416,通道数为3的图片,其中包含res层,darknet-53层与yolo层,darknet-53层 为y〇l〇V3提取特征的主干网络,共有74层,其中包含53个卷 积层,其余为res层,该结构使用一系列的3x3与1x1的卷积 层,是目前特征提取上表现了较好性能的经典网络结构。
实验采用wider_face公开数据集,训练了一个初步的模 型,并在其验证集上^行试验,并根据其检测结果对比标注信 息来评价其结果,验证集包含61个场景,三千多张人脸图片 共计31958个人脸标注。
为了验证感受野的限制,通过对比不同输入尺寸下的检 测结果来观察模型感受野,发现不同输入尺寸的y〇l〇v3模型 在不同尺寸的人脸检测上体现了不同的性能。图1为使用三 种输入尺寸检测验证集的对比结果,从图中可以看出,输入尺 寸增加的时候,小目标的检测效果在逐渐变差,其原因是输入
尺寸改变了模型的感受野,当输入尺寸固定的时候,同一个模 型的感受野也是固定的,其检测性能最优的区间也是固定的, 当改变模型的输入尺寸后,模型检测性能最优的区间也随之 改变。
孙赞东
图1416、608、1024三种输入下的检测结果比对
2.3交叠桥接策略
综合上述讨论与实验,我们发现即使yolov3做出了很 多策略来提升检测尺度,增大模型的感受野,但是仍然存在 较大的局限性,存在着大量过小或者过大的人脸无法识别,同时在改变模型的输入尺寸时,模型的感受野会随之改变,检测效果优异的人脸尺寸范围也随之改变,针对这一现象, 本文提出一种基于Y O L O多模型交叠桥接策略的大跨度尺 寸范围下的人脸检测算法。首先通过推算出的输出神经元 感受野范围,估计出具有不同输入尺寸的Y O L O网络的有 效人脸检测范围;接着,根据各网络模型在数据集上的性能 表现,计算出他们的最佳人脸尺寸交叠桥接范围;然后将各 模型检测结果的融合。算法原理如图2所示,基于不同输入 尺寸模型感受野范围可能出现重叠的情况,在结果融合阶段 利用基于I O U的N M S方式完成融合从而剔除重复检测的 结果。
人垃尺寸
图2桥接原理
45
3实验与分析
3.1数据集处理
为体现模型在各个人脸尺寸区间的性能表现,我们将验 证集中31958个人脸分尺寸区间进行统计,具体将其按照人 脸尺寸细分为12个区间,对每一种输入尺寸的模型在此12个 区间上进行评测,以对比其区别。
《国务院机构改革和职能转变方案》3.2实验方案
通过改变模型的输入尺寸,分别记录下不同尺寸的输入 模型的检测结果,并在不同尺寸大小的人脸区间进行测评, 出每种输入尺寸检测性能最好的区间范围,此区间范围即为 当前模型每种输入尺寸在此数据集上的感受野范围,出三 种输入尺寸,分别适应小人脸、中等大小人脸、大人脸,然后将
三种输入尺寸模型进行桥接,实现大跨度尺寸范围的人脸检 测。模型的输入尺寸从512*515到1600*1600依次增大,记 录下每个输入尺寸在不同人脸尺寸区间的检测数、准确率、召回率以及计算出a p值,绘制出每个输入尺寸的不同人脸尺寸 区间的a p值折线图来进行比较分析。
3.3实验参数与评价指标
基于人脸宽高比在一定范围内,上文所述人脸范围,统一 按照人脸的高度来计算,所述标注数,即验证集中当前尺寸范 围标注人脸的数量,所述检测数,即模型检测结果中当前尺寸 范围人脸的数量,
所述准确率,即检测结果中确实是人脸的比 例,所述召回率,即检测框与标注框的重合率高于某一阈值的 比例,a p为综合评价指标,a p是根据召回率与准确率计算出 来的,在不断进行检测过程中,准确率会不断下降,而召回率 必然会提高,a p即计算召回率与准确率的面积。其计算公式 如下:
〇P={)P{r)dr(2) 3.4实验结果与分析
统计模型的每个输入尺寸在不同人脸尺寸区间的检测数、准确率、召回率、ap值以及每个输入尺寸的不同人脸尺寸区间 的a p值折线图,如图3所示。
图3多种尺寸区间评价得分
最终根据多区间数据的对比结果,确定输入尺寸对检测 结果影响最大的三种区间,并计算出三种区间的平均ap值,如 图4所示。
图4三种尺寸区间评价得分
4结语
树立正确的人生观价值观改变yolo模型的输入尺寸,通过其检测结果可以发现,每个模型的感受野也随之改变,然后通过在检测阶段应用交叠桥接策略,有效提升了模型的检测尺度范围,实现了大跨度尺寸范围检测,提升了有效检测尺度范围整体的检测精度,具有较好的应用前景。
参考文献:
[1]Robust Real-time Object Detection.Paul Mola,Michael
Jones.IJCV 2004.
[2]Fast rotation invariant multi-view face detection based on
real Adaboost.Bo W u,Haizhou Ai,Chang Huang,Shihong Lao.A F G R2004.
[3]Active Shape Models-Their Training and Application.T.F.C O-
OTES,C.J.T A Y L O R,D.H.C O O P E R,A N D J.G R A H A.C O M­P U T E R VISION A N D EVL\GE U N D E R S T A N D I N G.1995. [4]Face Alignment by Explicit Shape Regression.Xudong
Cao,Yichen Wei,Fang W e n,Jian Sun.C V P R2012.
[5]Carl E J.Analysis of fatigue,fatigue-crack propagation and
fracture data[R].N A S A C R-132332, 1973.
[6]R.Girshick, ''Fa st R-C N N,W in IEEE International Confer­
ence onComputer Msion (I C C V),2015.
[7]S. Ren,K. He, R. Girshick, and J. Sun. Faster r-cnn: To­
wards real-time object detection with region proposal net­works (NIPS),2015.
[8]J. Redmon, S. Diwala, R. Girshick, and A. Farhadi. You
only look once: Unified, real-time object detection. arXiv preprint arXiv:1506.02640,2015. 4, 5
[9]R E D M O N J, F A R H A D I A.Y O L09000: Better, faster,
stronger [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (C V P R).W ashington:IEEE C o m­puter Society,2017:6517-6525.
[10] R E D M O N J,F A R H A D I A.Yolov3 :an incremental impro­
vement [E B/O L].[2019-04-25] ./ P D F/1804.02767.pdf.
46

本文发布于:2024-09-22 07:13:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/55314.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   尺寸   人脸   模型   输入
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议