首页 > 学术百科

单目标跟踪——精选推荐

单⽬标跟踪

夏世莲单⽬标跟踪

单⽬标跟踪任务介绍

对于⼀段视频序列，在视频开始时，给定跟踪⽬标的位置，通过设计算法得到后续帧中⽬标的位置和尺度信息。

只关注⼀个⽬标，并且可以跟踪任意类别的⽬标，⽆类别限制

挑战：跟踪过程中，⽬标和环境可能会出现各种不同的变化，⽐如遮挡、光照变化、⾮刚性形变、背景杂乱等情况

后续算法的设计就是为了解决各种的挑战，提升跟踪算法的性能和鲁棒性

单⽬标跟踪数据集发展史

数据集是算法训练与评估的基础。单⽬标跟踪领域有丰富的数据库资源

2013年之前，跟踪算法使⽤⾃⼰采集的若⼲段序列进⾏评估

2013年，第⼀个Benchmark OTB50的出现，Tracking发展进⼊加速期，使得⽬标跟踪的评估更加规范

2015年，扩展OTB50，得到OTB100

2018年，⼤规模短时跟踪数据集TrackingNet和长时跟踪数据集OxUvA诞⽣

2019年，(⼤规模长时跟踪数据集)LaSOT和(⽬标类别极其丰富的短时跟踪数据集)GOT-10K等⼤规模跟踪数据集的出现，针对⽬标跟踪产⽣的训练集使得跟踪算法的性能进⼀步提升。

2018年起，他们的视频数量可以达到千⾄万的规模，图⽚数量可以达到百万甚⾄千万的规模

与此同时，2013年起，VOT组委会开始举办⼀年⼀届的⽬标跟踪⼤赛，场景逐渐丰富。2017年设置了实时赛道，2018年设置了长时赛道，2019年设置了多模态RGBD&RGBT赛道，促进了跟踪朝着⾼鲁棒性的⽅向发展

评估指标

算法被初始化后不再对算法修正，如果算法跟踪错误，可能会导致后续帧全部失败，主要的评估⽅式有两种，

1. One Pass Evaluation(OPE)

One Pass Evaluation采⽤Success和Precision进⾏评估。Success反映预测⽬标框的⼤⼩和尺度的准确性，Precision反映中⼼位置误差

2. VOT系列

EAO(Expect Average Overlap) 综合精度A和鲁棒性R的指标

单⽬标跟踪代表算法

⽬标跟踪历史悠久，发展历史波澜壮阔，将发展历程分为以下四个阶段：

2015年之前，⽬标跟踪还处于探索阶段，期间出现了基于均值偏移、粒⼦滤波、⼦空间学习、分块表⽰、稀疏表⽰等框架的算法，派系众多，百家争鸣。

2015之后，相关滤波与深度学习的兴起，出现了相关滤波与深度学习算法的⽐拼，两个框架势均⼒敌不分伯仲。相关滤波代表算法有MOSSE、KCF、CCOT、ECO，深度学习的代表算法有GOTURN，MDNet&RT-MDNet、SiamFC、SiamPRN。随着⼤规模数据集的出现，⼤量训练数据使得深度学习的算法的优势得以体现。

2019年之后，孪⽣滤波成为⽬标跟踪⽹络的主流框架，代表算法有SiamRPN++,SiamMask,SiamFC++,ATOM,DiMP

2021年，随着Transformer在视觉任务上表现出众，⼀系列基于Transformer的跟踪算法以⾼精度、实时的优势成为⽬标跟踪中⽬前最优的算法.代表算法有

TransT，TMT，STARK，SwinTrack

SOT⽅法分类

⼤都基于深度学习，主要分为两类：

- one-shot⽅法：SiamFC，SiamRPN，SiamMask

给⽹络⼀个⽬标图⽚(称为模板)，同时给⽹络搜索区域⼀个图⽚，⽹络会对模板和搜索区域进⾏⽐较，选择和模板相似的物体。只需要离线训练，使⽹络学到模板匹配的能⼒即可。

one-shot的⽅法会使⽤Siamese⽹络，分别对模板和搜索区域进⾏特征提取，对提取的特征进⾏匹配从⽽得到结果。

- online⽅法：MDNet,ATOM,DiMP

除了离线训练外，在在线跟踪的阶段，在每个视频开始时，⽤⼀个初始帧跟踪器进⾏初始化训练，让

⽹络去适应当前的⽬标，后续帧的测试就变成了⼀个简单的分类问题，它不再需要输⼊模板，只需要输⼊搜索区域，⽹络在搜索区域的每个特征点上进⾏前背景的⼆分类或者对于⽬标存在的概率进⾏预测即可。随着跟踪过程的进⾏，⽹络会进⾏在线训练不断适应⽬标外观的变化。

- ⽐较

one-shot的⽅法结构简单，速度较快；但精度较低

online的⽅法可以在线适应⽬标外观的变化，精度较⾼，但在线训练使其速度变慢

根据模型框架，⽬前主流的SOT⽅法可分为以下四类：

⼀. 基于相关滤波 e.g.，KCF，DSST，BACF

许亚伟

⼆. 基于孪⽣⽹络(Siamese)的⽣成式⽅法 e.g.,SiamFC，SiamRPN,Ocean

三. 在线更新的辨别式⽅法 e.g.,MDNet,ATOM,DiMP

四. 基于,TransT, Stark,SwinTrack

根据任务类别，视觉跟踪的其他分⽀有：

长时跟踪->解决⽬标频繁消失再重现的挑战

多模态跟踪-结合其他模态信息如红外深度⽂本协助可见光信息进⾏跟踪

相关滤波跟踪⽅法

在信号处理中，相关操作可以衡量两个信号之间的相似程度。

KCF原理：通过计算可学习的滤波器(表⽰⽬标特征)和搜索区域的相关性，⽣成响应图，最⾼响应位置就是⽬标位置.

根据相关定理，相关滤波类⽅法可以通过转换为频域计算来提升速度

优点：跟踪速度快，可在线适应

缺点：只能跟踪位置，⽆法跟踪尺度⼤⼩变化，

基于Siamese的跟踪⽅法(基于孪⽣⽹络的跟踪器)

核⼼思想：学习模板与搜索区域的相似性

优点：后处理的流程复杂，性能对后处理的超参数敏感（在基于Transformer的跟踪器中得到缓解

缺点：不进⾏在线更新，导致辨别性低

1. Siamese跟踪⽅法的代表-SiamFC

通过⼀个简单的互相关操作，实现了在搜索区域上定位模板的效果

为了保持互相关和卷积的平移不变性，使⽤的⾻⼲⽹络是⼀个⽆填充的AlexNet

SiamFC的结构说明：主⼲⽹络分别提取模板和搜索区域的特征，再对⼆者使⽤correlation运算得到⼀张相似度图，相似度图上响应较⼤的位置是⽬标的位置

correlation运算：是将模板以滑动窗⼝的形式在搜索区域上进⾏线性乘法来得到⼀张响应图。缺点：是局部⽐较，缺乏全局信息；是⼀个线性运算，输出的是⼀个相似度图，即丢失了语义信息，成为设计⾼性能算法的瓶颈

2. SiamRPN

该⽅法⾸次将单⽬标跟踪任务建模成one-shot检测任务）

在SiamFC的范式下，将模板信息编码⾄RPN模块中，提升了预测边界框的准确度

不需要多尺度计算，速度较于SiamFC有了⼤幅的提升

3. SiamRPN++

使⽤ResNet-50作为⾻⼲⽹络，

使⽤Depth-wise correlation进⾏特征交互

4. SiamMask

通过引⼊更多的数据增强，⽤主通道相关代替互相关，以及对模板特征的⼀次correct操作，成功训练了ResNet-50的

使⽤ResNet-50作为⾻⼲⽹络，效果有了⼤幅的提升

边界框预测头部并联了mask的预测头部(引⼊掩码分⽀)，使其能同时胜任(统⼀)SOT和VOS两项任务

5. SiamFC++

将Anchor-free思想引⼊⽬标跟踪，缓解了⼿动设计anchor不灵活的问题，进⼀步提升了跟踪器的精度和速度

6. Ocean

⾃适应卷积⽤来提取⽬标感知的特征

在线更新的辨别式跟踪⽅法 e.g.,MDNet,ATOM,DiMP

倒写体核⼼思想：搭建⼀个分类器，通过在线学习⼀个辨别式分类器来区分背景和⽬标

特点：在线更新可以更加准确捕捉外观变化，但速度变慢；

在线更新可能会引⼊噪声样本，在⼀定程度上增加了模型退化的⼏率

典型⽅法框架代表：

1. MDNet

该⽹络是⼀个⼆值分类器，由若⼲个共享层和多个特定于域的分⽀组成。

共享层⽤于学习通⽤的特征表达，⽽每个域都关联⼀个独⽴的序列，Fc4，fc5和特定于域的fc6层的参数会被在线微调来适应指定序列中⽬标的外观变化

2. ATOM

将⽬标跟踪分为⽬标估计和分类两部分。在线分类器⽤于⽬标定位，⽬标估计通过离线训练IoU预测器来实现，特征调制类似于Siamese的⽹络结构，⽤于IoU的预

测。

3. DiMP

在ATOM基础上进⼀步改进，提出了⼀个辨别式的模型预测框架。它仅在分类分⽀上增加了⼀个模型预测器来学习模型权重。

提出⼀个辨别式损失函数来学习⼀个鲁棒的⽬标模型，提出⼀个可以快速收敛的优化策略，⾃适应的学习学习率

- 基于Transformer的跟踪⽅法

从SiamRPN开始，单⽬标跟踪，特别是Siamese跟踪器，受⽬标检测领域的影响很⼤。随着Transformer最近在分类、检测任务中取得成功，在单⽬标跟踪中也引领了⼀次快速进步。

特点：建⽴远距离特征间的关联、聚合全局信息、有更少的归纳偏置

但也存在需要⼤量数据训练，token数量较多时计算量较⼤等缺点

然⽽，单⽬标跟踪中有丰富的数据集，并且，⽬前常采⽤搜索区域的⽅法进⾏跟踪，所以图⽚较⼩，token数量较少，刚好⼀定程度上可以绕过Transformer的缺点。因此Transformer在跟踪中，特别是在搜索区域与模板的特征融合上，取得了成功的 - Transformer的代表性⽅法

是Siamese跟踪⽅法的进化，有效的特征融合，Transformer有效提升跟踪性能

1. TransT

Siamese中常⽤的correlation运算是将模板以滑动窗⼝的形式在搜索区域上进⾏线性乘法来得到⼀张响应图。缺点：是局部⽐较，缺乏全局信息；是⼀个线性运算，输出的是⼀个相似度图，即丢失了语义信息，由于缺乏语义信息和全局信息，因此针对Siamese Tracker的缺点，为了解决这个问题，采⽤基于Transformer的attention机制来取代Siamese中的correlation运算，来进⾏搜索区域与模板的特征融合。

整个⼯作的关键在于特征融合⽹络，包括基于self-attention的ECA模块和基于cross-attention的CFA模块。ECA进⾏全局信息的聚合，CFA进⾏搜索区域与模板的特征融合。对于主⼲⽹络提取的模板和搜索区域的特征，特征融合⽹络对⼆者进⾏融**attention机制和multi-head attention机制：**

- attention机制

输⼊：三个特征向量组Q，K，V，也就是三个2d的特征图

对Q，K进⾏计算，K，V的来源是⼀致的，如果Q与K，V来源⼀致，那么就是self-attention，如果Q与K，V来源不⼀致，那么就是cross-attention。

Q与K之间通过矩阵乘法计算得到Q中每个向量对K每个向量的attention score，再对V中每个向量进⾏加权，实现了对V的注意⼒增强。

由于在运算过程中Q可以看到K中每个向量，所以可以捕获到全局信息，对于远距离的特征也可以建⽴关联，这⼀点是⼀般的卷积做不到的

- multi-head attention机制

是对attention的⼀个改进。

先对V，K，Q分别映射，通过降维映射到不同的特征⼦空间，在每个特征⼦空间⾥做attention之后，将三者concat起来，再映射回去。

通过降维到不同的特征⼦空间可以关注到更丰富的特征，提升精度

本质上是特征的增强，输出的是加权后的特征，⽽并⾮correlation运算那样，输出⼀张没有语义信息的相似度图

基于attention的机制，我们设计了⼀种新的跟踪框架-TransT。它包含三个部分，分别是特征提取、特征融合和预测头部

特征提取-提取模板和搜索区域的特征。

像以前的Siamese Tracker⼀样，⽤修改版的ResNet50来分别对模板和搜索区域提取特征。再将两组特征放⼊基于Transformer的特征融合⽹络进⾏融合。

特征融合⽹络-对特征进⾏增强和融合

特征融合⽹络包括基于self-attention的ECA模块和基于cross-attention的CFA模块。ECA进⾏全局信息的聚合，CFA进⾏搜索区域与模板的特征融合。两个ECA和两个CFA组成

⼀层特征融合层。特征融合层循环n次后(默认n=4)，接⼀个额外的CFA来融合两个分⽀的特征图输出最终的特征。最后，在输出融合后的特征向量组的每个向量上，再⽤(简单的

多层感知机)预测头部来分别进⾏前背景的⼆分类和边界框的回归，得到结果。再通过后处理和执⾏度选出最好的⼀个框作为最终的结果。

⽤简洁的结构取得了很好的跟踪性能，并且可以达到实时的速度

具体来说：

ECA是⼀个基于Multi-Head Self-Attention的残差模块。对单个分⽀的特征进⾏增强。

CFA是⼀个基于Multi-Head Cross-Attention的残差模块。对搜索区域和模板两个分⽀的特征进⾏特征融合。FFN⽤来增强拟合能⼒。

ECA和CFA相较于correlation计算来说，输出的是加权后的特征，⽽并⾮correlation运算那样，输出⼀张没有语义信息的相似度图，保留了丰富的语义信息。⽽且还可以建

⽴远距离特征之间的依赖，整合全局信息。

不采⽤Transformer的原始结构？

Transformer模型中采⽤了 encoer-decoder 架构

encoder，包含self-attention层和前馈神经⽹络，self-attention能帮助当前节点不仅仅只关注当前的词，从⽽能获取到上下⽂的语义。

decoder在这两层中间还有⼀层attention层，帮助当前节点获取到当前需要关注的重点内容。

在decoder端输⼊搜索区域特征，在encoder端输⼊模板特征，cross-attention只对encoder端的输⼊加权，对于跟踪来说显然是不合理的，所以改成了

特征融合⽹络结构，特征融合⽹络可以看作是变体的Transformer

实验分析

⼀次跟踪中attention score可视化

说明：⾼亮点代表attention关注的空间位置，特征融合层默认循环四层，对应图像的⼀列，每列对应两个ECA和两个CFA，即两个self-attention和两个cross-

attention。

分析：把attention map可视化，可以看到，随着特征融合层的深⼊，attention会逐渐出⽬标，并关注于关键信息。self-attention会更关注于⽬标中⼼，⽽cross-郑州管城中医院癫痫科

attention则更关注于边界信息。

跟踪结果可视化

说明：绿⾊框-真值框，红⾊框-TransT预测框，蓝⾊框-Ocean算法预测框，黄⾊框-DIMP算法预测框，右侧-attention map的可视化

分析：TransT对于遮挡的表现还是⽐较好的，这归功于attention对于全局信息的整合，更易到⼀个全局最优解，把斑马的整体框出来。

实验结果

TransT在LaSOT，TrackingNet，GOT-10k这三个⼤规模数据集上，⽐以前的算法都取得了⼀个较⼤的提升，与此同时TransT可以达到46fps，⽽特征融合层循环两次

的TransT，在达到较⾼性能的同时，能达到更快的速度-66fps

在LaSOT的不同场景下，TransTN4和TransTN2都⽐之前的算法好⼀些；

在NFS，OTB，UAV这三个⼩尺度数据集上也达到了很好的性能

消融实验中，⾸先探究了后处理的影响。Siamese Tracker的预测值通过宽⾼度惩罚，余弦窗惩罚还有边界框平滑三个后处理辅助知情度来选择。这⾥引⼊了三个超

参，由于Siamese Tracker对于后处理的超参很敏感，调参费时，这导致了Siamese Tracker在复现时的困难。⽽TransT只使⽤了余弦窗惩罚这⼀个后处理，并且只有

福建交通职业技术学院⼀个测试时的超参，在参数确定好后⽆需再调整超参。这⾥我们直接将后处理去掉（TransT-np），可以观察到，后处理对于性能的影响并不⼤。我们也与原版的

Transformer做了对⽐，可以看到原版Transformer的性能要差⼀些，但与以前的算法相⽐性能也是⽐较⾼的，这也印证了⽤attention代替correlation的出发点

张天雄

也探究了ECA和CFA模块与correlation的消融实验。如果去掉ECA模块，性能会下降但不会下降很多；⽽如果把CFA换回correlation，对性能的影响很⼤；如果把

ECA，CFA都去掉换回correlation，性能会下降更多，⽽且后处理的影响会很⼤，这说明没有attention整合全局信息，⽹络只能更多的依靠后处理中的先验信息

总结：提出了⼀个新的基于Transformer的跟踪框架，以解决以往Siamese Tracker中correlation的瓶颈，提出了⼀个完全离线，实时，⾼性能的跟踪器TransT

未解决的问题：

⼲扰项同时出现

超出搜索区域

2. TMT

使⽤Transformer来加强特征

3. STARK

拼接搜索区域和模板的特征，提升跟踪速率

⾓边界框预测模块使得回归更加准确

单⽬标跟踪发展趋势

1. 融合检测来实现跟踪成为主流

2. 现有的算法如SiamMask来预测mask实现像素级的跟踪

3. ⼤规模数据集的出现使得深度学习的性能得到充分发挥

4. 随着跟踪算法的发展，对⼦领域的研究逐渐得到扩展，如RGBT，RGBD，LT 主流跟踪算法和长时跟踪总结

知名学者

Philip Torr

Martin Danelljan

本文发布于:2024-09-23 10:15:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/417419.html

上一篇：感知觉训练主要内容及方法

下一篇：国外相控阵雷达导引头技术发展研究

标签：跟踪特征算法信息模板区域

留言与评论（共有 0 条评论）