首页 > 专利技术

一种用于无人机目标跟踪的孪生区域建议网络模型[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202111664859.9

(22)申请日 2021.12.31

(71)申请人西南石油大学

地址 610000 四川省成都市新都区新都大

道8号

(72)发明人杨帅东　赵书朵　生　

(74)专利代理机构成都乐易联创专利代理有限

公司 51269

代理人高炜丽

(51)Int.Cl.

G06T 7/20(2017.01)

G06T 7/194(2017.01)

G06N 3/08(2006.01)

G06N 3/04(2006.01)

(54)发明名称一种用于无人机目标跟踪的孪生区域建议网络模型(57)摘要本发明公开了一种用于无人机目标跟踪的孪生区域建议网络模型，该网路模型在SiamRPN 网络的基础上加入条带池化模块和全局上下文网络模块，使网络解决远程依赖问题，有效理解不同的跟踪场景；然后优化交并比的计算方法，完成目标的特征提取，回归精准的预测框；本发明在光照变化、背景干扰以及目标快速移动的情况下有较强的鲁棒性，在UAV123公开数据集基准上进行测试，跟踪速度约为106帧/秒，获得0.754的准确率和0.542的成功率，尤其是在背景干扰环境下，精确率和成功率分别提升了8.29％和11.

63％。权利要求书1页说明书4页附图1页CN 114266805 A 2022.04.01

C N 114266805

1.一种用于无人机目标跟踪的孪生区域建议网络模型，其特征在于：包括模板分支单元和搜索分支单元，所述模板分支单元包括第一卷积模块、条带池化模块、第二卷积模块、第三卷积模块、第一匹配模块和第一输出模块，所述搜索分支单元包括第四卷积模块、全局上下文网络模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块；

所述第一卷积模块和第四卷积模块构成孪生网络，第一卷积模块与条带池化模块连接，第四卷积模块与全局上下文网络模块连接；

所述第二卷积模块、第三卷积模块、第一匹配模块、第一输出模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块构成区域建议网络，第二卷积模块、第三卷积模块均与第一匹配模块连接，第一匹配模块与第一输出模块连接；第五卷积模块、第六卷积模块均与第二匹配模块连接，第二匹配模块与第二输出模块连接；其中，条带池化模块分别与第二卷积模块和第五卷积模块连接，第四卷积模块与第三卷积模块连接，全局上下文网络模块与第六卷积模块连接。

2.根据权利要求1所述的用于无人机目标跟踪的孪生区域建议网络模型，

其特征在于：所述模板分支单元输入图像大小为127×127×3，所述搜索分支单元输入图像大小为255×255×3。

3.根据权利要求1所述的用于无人机目标跟踪的孪生区域建议网络模型，其特征在于：网络模型中采用距离交并比计算边界框。

4.根据权利要求3所述的用于无人机目标跟踪的孪生区域建议网络模型，其特征在于：所述区域建议网络中分类的损失函数采用交叉熵损失函数，回归的损失函数为L1范数损失函数。

权　利　要　求　书1/1页CN 114266805 A

一种用于无人机目标跟踪的孪生区域建议网络模型

技术领域

[0001]本发明属于无人机目标跟踪技术领域，具体涉及一种用于无人机目标跟踪的孪生区域建议网络模型。

背景技术

[0002]在智能化时代，无人机被广泛应用到军事领域、无人驾驶、航空拍摄、交通监控、农药喷洒、目标跟随、人机交互和自动驾驶等领域。无人机目标跟踪是基于视频图像进行对感兴趣区域的筛选和定位，在复杂场景下，由于受到光照、遮挡以及小目标移动迅速等影响，如何满足无人机图像跟踪中的稳定性及可靠性，是当前重要的研究方向。

[0003]视觉跟踪的目的是根据当前视频图像第一帧给出的边界框，准确估计出目标对象在后续帧中在视频图像中的位置。基于相关滤波的目标跟踪算法起源于MOSS算法，首次将相关滤波引入目标跟踪的算法之中，CSK算法引入核循环矩阵，通过计算高斯核相关矩阵判断相邻两帧之间的相似度，进而实现目标跟踪。KCF算法引入了核技巧以及多通道特征处理的方式进行目标跟踪，大大简化了在跟踪过程中的计算量，奠定了之后相关滤波目标跟踪算法的理论与实践基础。在2012年提出的Alexnet网络是深度学习发展的里程碑，在深度学习中以SiamFC为代表的相关目标跟踪算法在精度和速度可以得到很好的平衡，采用全卷积神经网络结构，通过模板帧与测试帧匹配进行相似性度量，对目标进行后续的定位。SiamRPN是在SiamFC的基础上通过加入RPN(region proposal network)网络，解决原始的多尺度问题；但是并没有考虑网络本身对空间信息的利用，因此，在目标发生光照变化、背景干扰以及遮挡等问题时，会发生目标漂移的情况。

发明内容

[0004]本发明的目的在于提供一种用于无人机目标跟踪的孪生区域建议网络模型，该网络模型SiamRPN网络的基础上加入条带池化模块和全局上下文网络模块，从而提升无人机目标跟踪的精准度和成功率。

[0005]为实现上述目的，本发明具体采用如下技术方案：

[0006]一种用于无人机目标跟踪的孪生区域建议网络模型，包括模板分支单元和搜索分支单元，所述模板分支单元包括第一卷积模块、条带池化模块、第二卷积模块、第三卷积模块、第一匹配模块和第一输出模块，所述搜索分支单元包括第四卷积模块、全局上下文网络模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块；

[0007]所述第一卷积模块和第四卷积模块构成孪生网络，第一卷积模块与条带池化模块连接，第四卷积模块与全局上下文网络模块连接；

[0008]所述第二卷积模块、第三卷积模块、第一匹配模块、第一输出模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块构成区域建议网络，第二卷积模块、第三卷积模块均与第一匹配模块连接，第一匹配模块与第一输出模块连接；第五卷积模块、第六卷积模块均与第二匹配模块连接，第二匹配模块与第二输出模块连接；其中，条带池化模块分别

与第二卷积模块和第五卷积模块连接，第四卷积模块与第三卷积模块连接，全局上下文网络模块与第六卷积模块连接。

[0009]进一步地，所述区域建议网络中分类的损失函数采用交叉熵损失函数，回归的损失函数为L1范数损失函数。

[0010]进一步地，所述模板分支单元输入图像大小为127×127×3，所述搜索分支单元输入图像大小为255×255×3。

[0011]与现有技术相比，本发明具有如下有益效果：

[0012](1)加入条带池模块和全局上下文网络模块，在减少计算量的情况下，有效建立远程上下文关系，扩大主干网络感受野，完成区域建议网络的前景与背景的分类和边界框的回归；

[0013](2)通过改进交并比的计算方法，在训练跟踪阶段能够有效缓解对边界框选择的问题，在训练过程中，可以得到精准的交并比计算，使得网络在非极大化抑制过程中能够筛选出精准的预测框。

[0014]在UAV123公开数据集基准上进行测试，跟踪速度约为106帧/秒，获得0.754的准确率和0.542的成功率，尤其是在背景干扰环境下，精确率和成功率分别提升了8.29％和11.63％。

附图说明

[0015]图1为本发明的结构示意图。

具体实施方式

[0016]如图1所示，本实施例提供的一种用于无人机目标跟踪的孪生区域建议网络模型包括模板分支单元和搜索分支单元，所述模板分支单元包括第一卷积模块、条带池化模块、第二卷积模块、第三卷积模块、第一匹配模块和第一输出模块，所述搜索分支单元包括第四卷积模块、全局上下文网络模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块。

[0017]所述第一卷积模块和第四卷积模块构成孪生网络，用于输入模板图像和测试图像，进而对两个图像进行比对，实现目标跟踪，所述第一卷积模块输入模板图像，模板图像大小为127×127×3，第四卷积模块输入测试图像，测试图像大小为255×255×3。[0018]所述第二卷积模块、第三卷积模块、第一匹配模块、第一输出模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块构成区域建议网络，区域建议网络包含两子网络：(1)进行前景和背景的分类网络，(2)进行边界框的回归网络。

[0019]模板分支单元输入的模板图像经过第一卷积模块输出尺寸为6×6×256的特征图，再通过条带池化模块对特征图进行条带池化操作，条带池化沿窗口水平和垂直方向进行池化，通过长为窄的内核可以很容易的建立远程上下文关系，扩大主干网络的感受野有利于跟踪过程中目标和背景的分类，因此，条带池可以帮助孪生网络在跟踪过程中捕捉上下文关系，进而可针对目标特征提取进行空间维度加权，使得网络对目标位置自动分配较大比例的权重，增强网络对目标的判别能力，使网络进一步解析跟踪场景。经过条带池化后的特征图分别输入到第二卷积模块和第五卷积模块中。

[0020]所述搜索分支单元输入的测试图像经过第四卷积模块处理后输出6×6×256的特征图，该特征图同时输入到第三卷积模块和全局上下文网络模块，全局上下文网络模块可更好的建立网络远程上下文的依赖关系，并加深网络的在当前无人机跟踪场景中的全局理解能力，自动提升与目标特征相关的通道比重，同时降低与目标特征无关的通道比重，改变不同通道之间的依赖性，使得边界框回归的更精准。

[0021]第二卷积模块和第三卷积模块输出的特征图输入到第一匹配模块匹配后通过第一输出模块输出；第五卷积模块和第六卷积模块输出的特征图输入到第二匹配模块匹配后通过第二输出模块输出。

[0022]边界框的预测直接影响视频跟踪的性能，交并比(Intersection over Union)是目标检测常用的指标，不仅可以进行正负样本的取分，而且还可以评估输出边界预测框和目标真实边界框的距离，交并比的计算可以很好的反应跟踪过程中预测框和真实框的效果，进行后续跟踪指标的评估，本实施例采用距离交并比计算边界框，可以有效缓解交并比出现在目标检测中训练发散的问题，将最小的预测框与真实边界框进行归一化计算，使回归的边界框为更加精准。所述区域建议网络中的分类损失函数采用交叉熵损失函数(cross‑entropy loss)、回归损失函数采用L1范数损失函数(smooth L1 loss)。

[0023]使用时，无人机跟踪步骤如下：

[0024](1)加载本实施例的网络模型(DAPsiamRPN)，判断网络是否为第一帧图像，在输入图像中提取

视频第一帧图像大小为127×127×3作为模板分支的输入，搜索分支将图像大小为255×255×3作为搜索分支的输入。

[0025](2)将输入的模板分支图像和检测分支图像经过DAPSiamRPN网络中，在区域建议网络的分类分支和回归分支中进行互相关运算，生成最后的响应k个特征图和2k个回归的边界框，得到目标和背景的分类得分，通过边界框的回归，优化边界框的大小，得到目标的位置。

[0026](3)在后续的视频图像中，扩大搜索区域，通过检测分支，到与上一帧视频图像响应最大的特征图，进行后续的跟踪。如果跟踪模板需要更新，则重复上述步骤。最终判断是否为最后一帧图像，如果是，则跟踪结束。

[0027]仿真实验

[0028]实验平台为ubuntu16.04 LTS系统，运用pytorch为1.4版本的深度学习框架，设备为Inter Core i7‑9700F CPU 3.00GHz×8，采用单GPU为GeForce GTX 2060Super 8G。[0029]本次实验的训练数据是从ILSVRC2017_VID数据集和Youtube‑BB数据集中提取的符合跟踪场景的视频数据，在ILSVRC2017_VID提取44976个视频序列，从Youtube‑BB提取904个视频序列，一共有一百多万张带有真实标签的视频图像，训练过程中，采用Alexnet网络作为预训练模型，并且作为主干网络进行视频图像的特征提取，然后进行20轮训练，每一轮进行12000次迭代，训练总时长为13个小时，随机梯度

下降采用随机梯度下降法(SGD)，动量设置为0.9，为防止训练过程中出现梯度爆炸，梯度裁剪设置为10，设置动态学习率从0.03下降到0.00001，候选框采用五种比例分别为0.33，0.5，1，2，3。仅仅在视频第一帧时送入模板分支进行模板采集，后续帧都是经过搜索分支送入区域建议网络进行分类和回归，得到响应最大的位置及所在的边界框，为后续帧的跟踪做准备，最终完成整个跟踪任务。[0030]为了验证本实施例的有效性，本次实验测试数据选取UAV123数据集，UAV123数据

本文发布于:2024-09-20 19:34:13，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/3/402450.html

上一篇：多网络互联的网络违规外联检测方法、装置及系统[发明专利]

下一篇：亚特异共表达网络鉴定方法[发明专利]

标签：网络跟踪模块

留言与评论（共有 0 条评论）