基于YOLO的关键点目标检测方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010514432.X
(22)申请日 2020.06.08
(71)申请人 三峡大学
地址 443002 湖北省宜昌市西陵区大学路8
(72)发明人 徐光柱 屈金山 万秋波 雷帮军 
石勇涛 夏平 陈鹏 吴正平 
(74)专利代理机构 宜昌市三峡专利事务所
42103
代理人 吴思高
(51)Int.Cl.
G06K  9/62(2006.01)
G06K  9/46(2006.01)
G06N  3/04(2006.01)
G06N  3/08(2006.01)
(54)发明名称
基于YOLO的关键点目标检测方法
(57)摘要
基于YOLO的关键点目标检测方法,包括数据
集的制作与处理:在原始标注框为水平矩形框的
标注数据集上,添加各个关键点到标注框左上角
顶点的偏移距离(Δx ,Δy),标注框左上角的顶
点位置坐标为(LUx ,LUy ),满足LUx小于所有关键
点的x方向上的值,LUy小于所有关键点的y方向
上的值,此时,各个关键点位置均为:以标注框左
上顶点为坐标轴原点时坐标轴的第四象限。基于
预测框左上角顶点偏移量的点目标检测:通过
YOLO得到预测框,同时得到各个关键点与预测框
左上角顶点的偏移量,将网络输出的对应各个关
键点的偏移量(Δx ,Δy )与预测框左上角顶点的
坐标(LUx ,LUy)相加,即可得到关键点的坐标位
置。权利要求书2页  说明书7页  附图6页CN 111814827 A 2020.10.23
C N  111814827
A
1.基于YOLO的关键点目标检测方法,其特征在于包括以下步骤:
步骤一、数据集的制作与处理:
在原始标注框为水平矩形框的标注数据集上,添加各个关键点到标注框左上角顶点的偏移距离(Δx,Δy),标注框左上角的顶点位置坐标为(LUx,LUy),LUx小于所有关键点的x 方向上的值,LUy小于所有关键点的y方向上的值,此时,各个关键点位置均为:以标注框左上顶点为坐标轴原点时坐标轴的第四象限;
步骤二、基于预测框左上角顶点偏移量的点目标检测:
首先通过YOLO得到预测框,同时得到各个关键点与预测框左上角顶点的偏移量,将网络输出的对应各个关键点的偏移量(Δx,Δy)与预测框左上角顶点的坐标(LUx,LUy)相加,即可得到关键点的坐标位置。
2.根据权利要求1所述基于YOLO的关键点目标检测方法,其特征在于:
所述步骤一中,
关键点的个数为4,各个关键点相对于预测框左上角的偏移量的距离的公式如(1.8)~(2.1)所示,模型对每个预测框,会输出t x、t y、t w、t h以及4组偏移量,t x、t y、t w、t h用于预测原始目标框,即为蓝包围框bbox,所以通过公式(1.6)~(1.7)首先求出预测框的宽高(b w,b h),再通过预测框的(b w,b h)得到4组偏移量,如公式(1.8)~(2.1)所示;
D1X=δ(t x1)·b w D1y=δ(t y1)·b h    (1.8)
D2X=δ(t x2)·b w D2y=δ(t y2)·b h    (1.9)
D3X=δ(t x3)·b w D3y=δ(t y3)·b h    (2.0)
D4X=δ(t x4)·b w D4y=δ(t y4)·b h    (2.1)
其中:D1x,D1y为D1点相对于预测框左上角的在x轴和y轴方向上的偏移距离;同理,D2x,D2y、D3x,D3y、D4x,D4y分别表示目标关键点D2、D3、D4到预测框左上角顶点的偏移距离。
3.根据权利要求2所述基于YOLO的关键点目标检测方法,其特征在于:YOLO点目标检测中关键点的损失函数如公式(2.2)所示,该式子中关键点个数为4:
若关键点增多,关键点损失函数将如(2.3)所示,式子中m为关键点的数量:
YOLO点目标检测是在原始YOLOv3的检测中增加了关键点的计算损失,因此最终损失函数为:
Loss KeyPoint_offset=Loss yolov3+Loss KeyPoint    (2.4)。
4.根据权利要求2所述基于YOLO的关键点目标检测方法,其特征在于:
所述步骤二中,图片输入到YOLO网络中,得到预测框的同时得到关键点到预测框左上角的偏移量,根据预测框左上角顶点和4个关键点的偏移量,计算出关键点所在的位置,再将关键点进行连接,得到精准的定位框。
基于YOLO的关键点目标检测方法
技术领域
[0001]本发明涉及目标检测技术领域,具体涉及一种基于YOLO的关键点目标检测方法。
背景技术
[0002]基于深度学习技术的视觉目标检测近年来取得了长足的发展,但仍存在很多挑战性问题。首先,目前的视觉目标检测模型输出的都是目标的包围框,缺乏对目标关键点的检测,如人脸检测中的五官特
征点,人体检测中的肢体关节点等。另一方面,目前的目标检测算法对旋转目标检测一直是一个难点,目前众多的目标检测的预测框均为水平的矩形包围框。主要有两个原因:1)、目标检测中多数目标使用水平的矩形框就可满足条件,这和观测的视角存在很大的关系,从人站立的角度观测到的目标多数为水平的矩形。2)、深度学习模型的训练高度依赖于数据集的标注,而目前多数数据集的标注框仍然为水平矩形框。[0003]随着目标检测技术的不断发展,人们意识到通过关键点来对目标进行定位是一种可行的方案,于是文献[1]Law H,Deng J.CornerNet:Detecting Objects as Paired Keypoints[J].International Journal of Computer Vision,2020,128(3):642-656,提出一种分别预测目标左上角和目标右下角的方法,通过这两个关键的角点形成的矩形框来定位目标,相比于中心点预测方法更简单,但是其本质上仍然是得出一个水平矩形框,不输出点目标。文献[2]Zhou X,Wang D,P.Objects as Points.arXive-prints,2019:arXiv:1904.07850在文献[1]的基础上添加了中心关键点,用三个关键点来检测目标,提高了准确率和召回率,但其本质仍然是用3个关键点来确定预测框,最终并不输出关键点。
[0004]中国专利(CN201810363952.8)提出一种基于深度学习的手掌检测与关键点定位方法,该方法利用FasterR-CNN网络进行训练,检测时得到手掌轮廓候选框以及定位手掌关键点,再调整候选框阈值,从候选框中筛选最佳的具备关键点定位的手掌图像。
[0005]另外,旋转、倾斜目标的检测同样为人们所关注,文献[3]Ma J,Shao W,Ye H,et al.Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J].IEEE Transactions on Multimedia,2018,20
(11):3111-3122.提出了一种任意方向文本检测方案,通过设置带角度的旋转的anchors-Rotation Anchors,再经过RRoI(旋转感兴趣区域)池化层将候选框映射到特征图上,前往分类器得到结果。但是RRPN存在速度太慢的问题。[0006]文献[4]Yang X,Liu Q,Yan J,et al.R3Det:Refined Single-Stage Detector with Feature Refinement for Rotating Object.arXiv e-prints.2019:arXiv:1908.05612。针对RRPN存在的问题,使用RetinaNet构造单阶段检测框架,使用RefineDet思想,对一阶段检测结果细化,从而提高了速度。中国专利“201910381699.3”提出一种基于旋转区域提取的舰船多目标检测方法,通过对旋转目标进行标注,通过计算置信度最高的预选框与其他预选框的旋转交并比得到最终检测结果,但是检测精度难以保证。
[0007]文献[5]Redmon J,Divvala S K,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[C]puter vision and pattern
recognition,2016:779-788.(You only look once)是由Joseph Redmon和Ali Farhadi等人于2015年提出的基于单个神经网络的目标检测系统。YOLO为了保证检测的效率,提出one-stage的思想,不同于R-CNN等two-stage算法需要生成区域建议,消耗算力而导致速度较慢,YOLO不生成区域建议,而是利用单个卷积神经网络,将输入图片分成n*n个网格,对每个网格进行预测,直接对目标进行分类和回归,实现端到端的检测,因此检测速度大幅提升。YOLO在GPU上达到45fps,同时其简化版本达到155fps。之后YOLO为了提高精度,又相继提出YOL09000、YOLOv3。如:文献[6]Redmon J,Farhadi A.YOL0
9000:Better,Faster,Stronger[C].IEEE Conference on Computer Vision&Pattern Recognition,2017:7263-7271。文献[7]Redmon J,Farhadi A.YOLOv3:An Incremental Improvement.arXive-prints,2018:arXiv:1804.02767。
[0008]YOLO作为一种性能优异的通用目标检测系统,其在速度上的优势保证了其在工程上应用的可行性,因此人们尝试使用YOLO来解决相关问题,但原始YOLO在目标检测中仅仅输出水平矩形框作为目标框。因此文献[8]Lei J,Gao C,Hu J,et al.Orientation Adaptive YOLOv3 for Object Detection in Remote Sensing Images[C],2019:586-597.提出了一种扩展YOLO的方法来解决旋转矩形目标的定位问题,在YOLO的输出中增加了一个theta输出,即预测框的旋转角度,但这种方法仅能解决矩形的平面旋转问题,对于非规则的的矩形,如内旋之后类似梯形的矩形目标仅仅通过旋转仍然无法准确定位。同时中国专利“CN201910707178.2”也提出一种基于YOLOv3的旋转矩形目标检测方法,通过将检测目标设置为5位向量(x,y,w,h,θ),添加一个角度θ,使用带旋转角度的锚点来检测旋转目标,该方法同样只能应对平面简单旋转,对内旋等场景仍然无法精确定位。中国专利“CN201910879419.1”提出一种基于改进的YOLO算法的水下目标检测算法,设计了新的损失函数,将物体长宽比信息加入到损失函数之中,从而提高了对水下物体旋转侧翻的等情况的检测效果,但涉及的场景有限。中国专利“CN201910856434.4”提出一种基于YOLO模型的车牌定位和识别方法,其中为了提高对车牌的定位精度,训练一个改进的YOLO卷积神经网络和一个卷积增强的SRCNN(Super Resolution)卷积神经网络,在YOLO卷积神经网络训练时,采用maxout激活函数替代原模型的激活函数,增强了拟合能力。
[0009]上述针对YOLO的改进方法,虽然一定程度上提高了YOLO模型应对复杂场景下目标检测的能力。但是YOLO仍然存在如下问题:1)对于存在关键点的视觉目标检测中,关键点的检测同样重要,如人脸检测中的五官特征、人体检测中的肢体关节点等,而YOLO缺乏对这些关键点的检测。2)现实存在许多不规则的矩形,由不同的视角导致的旋转角度下的长宽比例较大的矩形物体,如各种角度的车牌、空中拍摄的车辆,舰船等目标。YOLO对于这些旋转倾斜的矩形目标的的预测框会包含大量与目标无关的冗余信息。
发明内容
[0010]针对上述技术问题,本发明提供一种基于YOLO的关键点目标检测方法,通过在原始YOLO的基础上,增加点目标的检测算法,使YOLO具备检测点目标的能力,使YOLO可同时输出目标检测框和关键点,同时在具体应用中实现对旋转矩形物体的精准定位。
[0011]本发明采取的技术方案为:
[0012]基于YOLO的关键点目标检测方法,包括以下步骤:

本文发布于:2024-09-21 04:20:55,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/444353.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:检测   目标   关键点
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议