首页 > 专利查询

《基于YOLOv3的口罩识别》答辩记录

《基于YOLOv3的⼝罩识别》答辩记录

写在前⾯

这是某个渣渣本科⽣的答辩记录，借鉴的，有需要的同学⾃取~，先给⼤家⼀些⽂件吧

1.⾃我介绍

简要介绍姓名，指导⽼师，论⽂题⽬，然后这张ppt就直接过了，我看有些⼈还讲了感谢各位⽼师百忙之中balabala讲了⼀⼤串，看你答辩顺序吧，越到后⾯，⽼师基本不想听这些话，反正我是很反感。。。

2.⽬录

⼀般答辩时间应该是控制在7分钟到10分钟左右吧，⽬录这⾥的话建议还是不⽤讲，直接给评委看就⾏，反正后⾯也有⼤标题会讲，⽽且这⾥把⽬录说出来⼜浪费时间⼜有点空洞。

3.研究背景

这⾥就直接按照ppt⾥⾯⽂字讲就⾏，记得后⾯答辩⽼师问我的选题意义，就是把没戴⼝罩的⼈标注出来并提醒他。

4.技术分析

物体检测算法：

⽬前物体检测算法有以下三种：第⼀种是传统物体检测算法，使⽤⼈⼯设计特征以及机器学习的分类⽅式，但这种算法提取到的特征局限性较⼤且学习速度有限；第⼆种是结合候选框+深度学习分类法，这类Two-Stage⽅法解决了前者的问题，在精度上有很⼤突破，但在速度上很难达到实时检测的效果；第三种是基于深度学习的回归⽅法，在速度上达到了实时级别的突破，本⽂使⽤的YOLO就是属于One-

stage，YOLO虽然在v1,v2版本准确率上有所⽋缺，但到v3版本时准确率提⾼了很多。有源带通滤波器

YOLOv3分析：

YOLOv3⽹络由两部分构成，特征提取主⼲⽹Darknet-53与特征交互⽹络YOLO层。

Darknet-53是⼀个全卷积的结构，可以看到这边共有5个步长为2的卷积层，⼀共进⾏了5次下采样，每⼀次下采样都能提取到更⾼维度的特征。在每两个卷积层之后加⼊残差层，解决梯度爆炸与梯度消失问题。

再来看看YOLO层，它之所以被称为特征交互，实际上是因为YOLO层取前⾯5次下采样的后三次，将⾼阶的特征通过上采样的⽅式叠加在较低阶的特征上，让低阶特征获得其⾼阶特征的信息，从⽽更容易在上⾯检测微⼩物体。

模型对⽐：

为了确实得出YOLOv3在本次选题背景下的全⾯性，本⽂对⽐了⼀些跟它相似的模型

奶浆柴胡如表是在检测同样的100张测试图⽚下的对⽐，虽然ResNet50的速度只有12.7s，但是准确率是62.29%，相⽐于YOLOv3是⽐较低的，存在很多误检情况

YOLOv3-tiny是YOLOv3的简化版本，速度快，但精度低，只有33.19%，下⾯是YOLOv3和tiny在识别⽬标的表现，右边是tiny的检测结果，可以看到tiny基本识别不出。这是因为它的主⼲⽹络只有7层，⽆法提取出更⾼层次的语义特征。

我们看下YOLOv3，虽然速度相对于另外两个速度⾮常慢，但是检测⼀张图⽚是不到1s的时间的，这样的速度我们是可以接受的，因为它的准确率是⽐较⾼的，不容易出现误检的情况，所以在选择模型的时候，选择的还是准确率较⾼的YOLOv3。

5.本⽂核⼼⼯作

准备数据集：

⾸先是数据集的获取，本次采⽤的数据集来⾃多个⽅⾯，整合了⽹络上⽐较散的数据集，戴⼝罩是部分数据集，没戴⼝罩是另外⼀些数据集，由于数据集来⾃各个⽅⾯，且xml内容不符合本次训练，所以需要使⽤标注⼯具重新对所有照⽚进⾏标注。

下载labelImg⼯具，运⾏labelImg.py出现以下界⾯即为标注界⾯，将上⼀步获取到的图⽚进⾏标注，将整个脸部作为⽬标框标注出位置，并写⼊相应的数据标签hava_mask或者no_mask。

数据集处理按照ppt讲就⾏，物体类别加⼊“由于在存放图⽚时会有序的将两类图⽚分开，但是这样的顺序直接训练模型效果是不好的，所以在代码中需要随机打乱数据集进⾏训练"。

k-means聚类算法

左图是kmeans的具体算法，⽤来⽣成合适的先验框，

实际上，聚类的⽬的是先验框和真实框有更⼤的IOU值，IOU指的是先验框和真实框之间的交并⽐

最理想的情况下是IOU为1时，即先验框和真实框完全重叠，此时两者之间距离最⼩，聚类效果最好

k-means拿到数据⾥所有的⽬标框，得到所有的宽和⾼，在这⾥⾯随机取得9个随机中⼼，之后以9个点为中⼼得到9个族，不断计算其他点到中点的距离调整每个点所归属的族和中⼼，直到9个中⼼不再变即可。这9个中⼼的x，y就是整个数据的9个合适的anchors框的宽和⾼。

训练模型

有了数据集和合适的先验框后，开始训练模型了。

这是模型训练时输出的信息，这⾥有个重要的信息loss,loss能够反应模型的学习程度,loss下降幅度⼤，说明⽹络在正常学习，下降幅度变⼩，说明⽹络训练得差不多了

在每次迭代后都会输出模型权重⽂件，⽂件的命名使⽤loss和val_loss，这样⽅便后续查⽐较好的模型

评估模型

训练完后需要对模型进⾏⼀个评估，由于keras没有实现对检测模型的评估代码，所以需要额外地引⼊mAP来评估模型的准确率，如图取的是loss值为15的模型，AP达到76.49%，准确率和召回率都是⽐较⾼的，如果都⽐较低的话就需要考虑对模型进⾏⼀个优化

模型优化

本⽂从以下两个⽅⾯，对模型进⾏优化

滑水鞋

免清洗助焊剂第⼀⽅⾯：反复实验先验框的尺⼨和数量，右图是部分先验框数据，实际训练通过不断地修改先验框尺⼨从⽽到恰当的先验框，来加快训练收敛速度

第⼆⽅⾯：参数调整，通过控制变量法调整参数，包括学习率，epoch,batch-size等

这是通过调整学习率来优化模型，通过反复实验发现学习率为0.001的时候效果是⽐较好的。loss最终在12左右

另外尝试加⼊函数ReduceLROnPlateau来调整学习率，这个函数是⽤来监测某个指标的，本⽂通过监测loss值，

当指标不再提升时，减少学习率。当学习停滞时，减少2倍或10倍的学习率以此获得更好的效果。

具体流程

所以整个实现过程是这样的：

将训练的图⽚输⼊训练模块，训练后将⽹络的权重保存起来，便于预测与再次训练使⽤。

预测模块通过读取模型的⽹络权重，对输⼊的测试图⽚或视频进⾏预测，最终输出带有预测标注的图⽚或视频。

药盒印刷

6.成果展⽰

这⾥可以演⽰⼀下⾃⼰的项⽬，答辩前准备好。剑杆织布机

7.总结与展望

通过对⽐多个模型，YOLOv3在准确率和速度上相对较优秀，确定了YOLOv3为基础框架后开始训练

模型，选取合适的先验框能够加快训练收敛速度，通过增加迭代次数，调整学习率等⽅式不断尝试以获取最优的模型

接下来是两个展望：

在成果展⽰的时候可以看到在检测密集和多⾓度的场景下，漏检情况会⽐较明显，所以在⼈脸识别和先验框选取的算法上还有待改进

第⼆个展望：⽬前只是通过笔记本调⽤⾃⾝摄像头进⾏的⼀个实时检测，希望后续有能⼒的情况下实现能在移动端和嵌⼊式系统中使⽤。评审⽼师给的意见：

1.论⽂中对实验叙述太少，建议增加

2.建议对系统加个报警功能啥的

3.数据集1000多张还是太少，建议多增加些数据集

最后吐槽

临毕业真的好多繁杂事，⼜因为疫情没办法回学校，论⽂，⼀些毕业资料都得邮寄过去，⼜要搞什么

实习协议，就业协议烦得要命(就业协议好像也不能保障学⽣的权益，公司反悔你拿这个协议也没多⼤⽤，纯粹就是学校为了保障就业率，还使劲地催你去完成。。。)

对了，选对指导⽼师真的很重要我的指导⽼师就超⽜逼既腻害⼜负责仁，哈哈哈哈哈~~~

本文发布于:2024-09-25 16:38:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/144032.html

上一篇：AI视觉识别售货机介绍，带你认识觅橱视觉识别售货机

下一篇：行人重识别（Personre-identification）概述

标签：学习模型训练数据

留言与评论（共有 0 条评论）