一种基于朝向约束的多特征融合行人重识别方法

著录项

申请号 CN202010901241.9
申请日 20200901
公开（公告）号 CN112101150A
公开日 20201218
申请（专利权）人北京航空航天大学
发明人艾明晶;单国志
主分类号 G06K9/00
分类号
G06K9/00 G06K9/62 G06N3/04
地址北京市海淀区学院路37号北京航空航天大学
国省代码北京(11)

摘要

本发明是一种基于朝向约束的多特征融合行人重识别方法，针对朝向变化和局部遮挡等因素提出了一种新的网络模型。目前对行人重识别的研究大都忽略了朝向差异的影响，本发明在保证准确率的同时可以优先识别与查询图像朝向相同的目标。本方法首先设计了一个行人朝向分类器，对图片中行人进行朝向标注；然后将图片输入到一个两分支卷积神经网络中，提取行人的全局特征和局部特征进行约束训练，其中一个分支处理朝向相同的样本，另一个分支处理朝向不同的样本。本发明同时设计了朝向约束的混合损失函数，联合三部分损失学习网络权重，有效提高了准确率。实验证明，本发明在market?1501和DukeMTMC?ReID数据集上分别达到了94.71％和87.31％的rank?1准确率，平均水平优于大多数方法。

权利要求



1.一种基于朝向约束的多特征融合行人重识别方法，其特征在于：

提出了一种基于朝向约束的多特征融合行人重识别网络，通过一个两分支的朝向约束网络模型，分别处理相同朝向和不同朝向的样本，并在每一分支融合全局和局部两种特征对行人进行表示，最后融合三部分损失联合约束训练，实现了准确的行人重识别，并且在检索时可以优先识别与检索图像朝向相同的目标。其实现步骤如下：

S1、朝向约束网络的设计

如图1所示，本网络是一个两分支的网络结构，可以同时将一个样本映射到两个不同的特征空间(每一个特征空间对应一个网络分支)。其中，每一个分支都设计了不同的混合损失函数，这样的网络设计使得第一分支(称之为相同朝向分支)主要关注相同朝向的样本，而第二分支(称之为不同朝向分支)更加适应不同朝向样本的变化情况。

首先，该网络选取一个批次的输入图像(共N张图像，其中N＝P*K，即P个行人，每个行人K个样本)。然后，使用训练好的朝向分类器判断每一张图片中的行人朝向，得到对应的朝向标签。这样，每一张行人图片可以用(I,Y,O)这个三元组来表示，其中I表示该图像，Y表示该行人的ID，即属于哪一个行人，O表示该行人的朝向标签。

如图1所示，对输入的这一个批次的图像，该网络首先通过一个共享的卷积网络模块提取其简单特征，由于属于较低层的卷积模块，这一共享模块可以提取到公共的颜、属性、纹理等特征。然后，在共享卷积模块之后又附加了两个分支卷积网络，用以将样本映射到两个不同的高维子空间中。本发明使用了目前应用最为普遍的ResNet50作为骨干网络，其结构具有很明显的层次性，因此，很容易可以划分出共享层和分支层。经过测试，使用ResNet50的第一层作为共享模块，后三层作为分支，最后上下两层网络分别输出一个N*d的特征向量。这样，每一张图片相当于提取了两种不同的特征，共输出2N个特征。

在得到对应特征之后，为了使得每一空间对朝向有更好的适应性，网络在每一分支基于朝向选择不同类型的三元组，并基于朝向约束的混合损失函数进行训练，不断迭代，得到最终的网络权重。

S2、基于行人朝向的难样本采样策略

很多研究表明，基于训练批次(batch)的难样本采样是比较有效的三元组选择策略，即对每一个训练批次，随机挑选P个行人，在每个行人的图像中随机挑选K张不同的图片，即一个batch中含有P*K张图像，之后为每一张图片选最难的正样本(最不相似的)和最难的负样本(最相似的)组成三元组。

本发明在以上广泛使用的难样本采样策略上加入了对行人朝向的考虑，提出一种基于行人朝向的难样本采样策略，用以选择训练三元组。具体的，在批量难样本采样的基础上，对于每一个训练batch，同样随机挑选P个行人，但是在对每个行人的K张图片的选取上，不是简单的随机挑选，而是保证这K张图片中既有朝向相同的样本，也有朝向不同的样本。比如，在实验中，如果K＝4，为每个行人挑选样本时，首先选择两个不同的方向(共分为前、后、左、右四个方向)，然后从每个方向中选择该行人的两个样本，这样组成的一个训练batch中包含了各种朝向差异的样本。

这种基于朝向的样本选择策略的优势在于：在为每一个选取正样本和负样本时，更有可能到与其更不相似的正样本(也就是与其朝向不同的样本)，增加了样本的训练难度。

S3、网络联合训练策略

三元组损失可以考虑正负样本之间的相对距离，softmax分类损失可以学习样本在特征空间的分布，中心损失可以使同一类的样本向其类中心靠近，本发明将这三种损失联合起来用于每一分支的训练。本发明的主要优势在于使用相同朝向分支、不同朝向分支和交叉约束三部分联合训练。这也是除网络结构之外，本发明可以取得良好效果的关键因素之一。

相同朝向分支。对于相同朝向分支，从一个batch中只选择相同朝向的样本组成三元组，也就是在为当前训练样本选择正负样本时都选择与其朝向相同的样本(由于每个batch是根据步骤S2中提出的基于朝向的采样策略选取的，因此一定存在着相同朝向的样本)。这样选取的三元组其优势很明显，它可以在学习行人身份信息的同时，也学习一定的行人朝向信息，一定程度上降低了重识别的复杂度，从而使得属于同一个行人且朝向相同的样本聚得更近，而相同朝向的不同行人其表观特征往往是非常相似的，因此，这样的负样本本身带有一定的复杂性，更具代表性。这里用a表示anchor，p表示正样本，n表示负样本，s表示相同朝向，d表示不同朝向。则用公式表示如下：

其中，ps代表相同朝向的同一行人，ns表示不同行人但具有相同的朝向，d代表两个特征向量之间的欧式距离，α是一个距离阈值。

同时，为了更好地学习特征分布，本策略在三元组的基础上加入softmax分类损失和中心损失。但是需要注意的是，由于相同朝向分支只考虑同方向的样本，这里并不是按照行人id进行分类的，而是将行人和方向一起看作组合标签，一个人的一个朝向为一类，比如共有M个行人，划分了四个方向，则分为了M*4个不同的类别。softmax损失和中心损失都是在这个组合分类级别进行的。

如下所示，式(2)为softmax损失，式(3)为中心损失。其中，N代表batch的大小，fi代表第i张图像的特征向量，fi(k)代表第i个特征向量的第k维，label_i表示id和朝向的组合标签(id，orientation)，M*T代表分类的类别数，也是全连接层之后得到的特征向量长度。Clabel_i代表第i类的类中心。

最后，相同朝向分支最后总的损失由三部分组成(如式(4)所示)。可以看到，这三部分损失训练的目的是一致的，它们共同使得同人同朝向的样本在特征空间中形成了很好的聚类效果。事实上，尽管这一分支只考虑了相同朝向的样本，在Market-1501上只使用这一分支进行实验得到的rank-1准确率已经超过了90％。

Lsame＝LtriSame+LceSame+λLcenter (4)

其中，λ表示中心损失的权重系数。

不同朝向分支。很明显，第一分支忽略了不同朝向样本间的关系，这里使用第二个分支来考虑不同朝向样本的训练，从而弥补第一分支的不足。由于朝向的不同，即使是同一个人，其表观特征差异往往也很大。因此，这一分支三元组的构成都选择了不同朝向的样本，也就是在选择三元组时，正负样本都选择与训练样本朝向不同的图像。其目的是为了让不同朝向的样本得到更多的关注，从而可以拉大类间距离。

类似于式(1)，不同朝向分支的三元组表示如式(5)所示：

类似的，其中pd代表同一个人不同朝向的样本，nd代表不同朝向的不同行人，β也是距离阈值。

为了兼顾样本的分布和类内距离，同样使用了softmax损失和中心损失，但是由于这一分支只考虑不同朝向的样本，因此，只按样本的id进行分类，有M个人，就有M个类别，这是与相同朝向分支是不同的。式(6)为softmax损失公式，中心损失同式(3)。

其中，M代表行人的类别数，其余字符含义同式(2)。

最终，可以得到不同朝向分支的损失同样是三部分之和，如式(7)所示，这就弥补了第一分支没有考虑到的不同朝向样本的关系。

Ldiff＝LtriDiff+LceDiff+λLcenter (7)

交叉约束训练。前两分支基于朝向约束分别考虑了样本间的关系。为了考虑样本的整体分布规律，本训练策略加入分支间的交叉约束，仍然主要基于三元组损失，如式(8)和式(9)所示。

式(8)同样是一个三元组损失函数，其中θ为距离阈值。对于训练样本a，其选择的正样本是与其朝向不同的，而负样本是与其朝向一致的。根据这样的选择，这就保证了两个分支内得到的正样本的距离总是小于负样本的距离，从而使两个分支的训练有机的结合起来。

式(9)没有考虑负样本，而是只考虑了正样本之间的相对关系，所以这是一个类内约束。这一项选取一个相对较小的间隔阈值δ，它可以保证在一个类的内部(也就是同一个行人的多个样本之间)，相同朝向样本间的距离小于不同朝向样本间的距离。通过这样的类内约束，在根据查询图像检索时，可以优先得到与其朝向相同的样本，从而加大了是同一个人的概率。

LTotal＝Lsame+Ldiff+Lcross+μLintra (10)

总之，在训练阶段通过以上三种损失联合对网络进行训练，总的损失函数可以用式(10)来表示，其中μ是一个权重参数，可以取一个相对较小的值。

2.根据权利要求1所述的一种基于朝向约束的多特征融合行人重识别方法，提出了一种基于全局特征和局部特征融合的行人朝向分类方法，其特征在于：将行人图像的全局特征和局部特征结合起来，使得不同朝向的行人更加可分(前、后、左、右)，提升了朝向分类的准确性。其实现步骤如下：

如图6所示，对于一张行人图像，首先通过PAFs方法(OpenPose人体姿态关键点提取网络)提取该行人的18个关节关键点，这18个关键点可以大致描绘行人的轮廓。同时从中还可以准确得到每一个关键点在图像中的坐标位置。

其次，通过关节点坐标进行横向分割，将整个行人图像分成头部、上身、下身三个身体局部。这样，整个行人图像和三个身体局部就构成了卷积神经网络的多个输入，该网络分别用卷积模块提取这四部分图像的特征(这里使用的是ResNet50网络)，然后将得到的特征向量拼接起来，形成一个组合向量用于最后的行人表示。

最后，在网络的末端通过加入一个全连接层，使用softmax损失函数进行四分类，不断训练迭代得到最后的分类结果。

本方法的优势在于将全局特征和三个身体局部特征融合起来，增强了特征的鲁棒性，特别是在某些情况下，头部和脚部的局部特征更能区分出朝向的差异。本发明使用这一网络对两个大型的行人重识别数据集Market1501和DukeMTMC-reID进行了朝向信息的标注，为权利要求1中行人重识别网络的朝向约束提供了基础。

说明书

技术领域

本发明涉及计算机视觉和图像处理领域，具体涉及一种基于朝向约束的多特征融合行人重识别方法(图1)。其中，主要通过两分支的朝向约束网络模型克服朝向差异对重识别的不良影响，通过全局特征和局部特征融合的方法应对局部遮挡问题，最终在保证行人重识别准确率的前提下可以优先识别与查询图像具有相同朝向的行人目标，重识别结果更加准确整齐，更符合实际应用场景。

行人重识别(Person Re-identification，ReID)是利用计算机视觉技术判断图像或者视频中是否存在特定行人的技术，属于图像检索的一个子课题。由于其在视频监控和安防领域的应用价值，近年来成为了一个研究热点。2006年，行人重识别技术首次从目标跟踪中分离出来，作为一个独立的视觉课题开展研究。发展至今，其研究方法主要分为两类：基于手工特征的传统方法和基于神经网络的深度学习方法。2014年之前，行人重识别主要是利用传统图像处理手段提取低级颜特征、纹理特征以及中级属性特征，但由于这些特征容易受到外界环境干扰，区分度不够，一直未能取得很高的准确率。

近年来，深度学习技术在计算机领域的广泛应用使这一技术获得了突破性的进展。但由于局部遮挡、姿态变化、朝向差异、光照和分辨率等因素的影响，这仍然是一个非常有挑战性的课题。按照研究重点的不同，基于深度学习的行人重识别方法一般可分为度量学习和特征提取两种。特别的，基于行人朝向的方法与本发明的工作最为相关，对其相关研究背景依次介绍如下。

(1)基于度量学习的方法

度量学习的目标是使得属于同一类的样本间的最大距离小于不同类样本的最小距离。在深度学习中，实现度量学习主要关注的就是如何设计相应的损失函数。在研究之初，简单地将行人重识别看做是分类问题，将属于同一个行人的若干图片作为一个类别，在卷积神经网络(Convolutional Neural Networks，CNN)的末端接一个全连接层，然后通过softmax函数转变为概率分布，最后通过交叉熵损失进行训练。

随着人们的不断研究，度量学习方法直接将相同行人的图片映射到高维空间，形成聚类效应，也就是将同一行人的图片看作正样本对，不同行人的图片看作负样本对，其本质就是使正样本对在高维空间的距离小于负样本对的距离。典型的度量学习方法包括对比损失、三元组损失、四元组损失等。

2015年，相关学者在对人脸识别的研究中提出了三元组损失函数，成为了一种典型的度量损失方法，其示意图如图2所示。其中(Anchor,Positive)为正样本对，(Anchor,Negative)为负样本对。通过训练过程的不断迭代，正样本对之间的距离逐渐缩小，负样本之间的距离不断扩大，达到聚类的目的，如式(1)所示。(参考文件1：Schroff,Florian,Kalenichenko,Dmitry,James.FaceNet:A Unified Embedding for Face Recognitionand Clustering[J],2015.)

Ltri＝[d(a,p)-d(a,n)+α]+ (1)

[x]+＝max(x,0) (3)

其中，d表示两个特征向量之间的距离，一般采用欧式距离，如式(2)所示。[x]+表示x和0之间的较大值，如式(3)所示。用字母a表示基准样本Anchor，p表示正样本对Positive，n表示负样本对Negative，α为控制样本距离的阈值。

2016年，Cheng等人基于加入绝对距离的思考，提出了一种改进的三元组损失函数，使重识别性能得到了很大的提升。(参考文件2：D.Cheng,Y.H.Gong,S.P.Zhou,J.J.Wangand N.N.Zheng,“Person re-identification by multi-channel parts-based CNN withimproved triplet loss function,”in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,Las Vegas,NV,USA:IEEE,pages 1335-1344,2016.)

2017年，Cheng等人又提出了四元组损失，比三元组多了一张负样本图片，即：基准样本a，正样本p，负样本n1和n2。如式(4)所示，前一项称为强推动，后一项称为弱推动。四元组直接通过加入弱推动来考虑正负样本间的绝对距离，使模型可以学习到更好的特征。(参考文件3：W.H.Chen,X.T.Chen,J.G.Zhang and K.Q.Huang,“Beyond triplet loss:a deepquadruplet network for person re-identification,”in Proceedings of the 2017IEEE Conference on Computer Vision and Pattern Recognition,Honolulu,Hawaii,USA:IEEE,2017.)

Lq＝[d(a,p)-d(a,n)+α]++[d(a,p)-d(n1,n2)+β]+ (4)

其中，n1表示第一个负样本，n2表示第二个负样本，α和β是阈值参数。

2017年，Hermans等人针对行人重识别输入样本的关系，提出了难样本采样(Hardsample mining)的方法。其基本思路是样本对的选择要尽可能的困难，在一个训练批次属于同一个人的图片中选出与基准样本anchor最不像(距离最远)的样本作为正样本，在其他人的图片中选出与其最像(距离最近)的样本作为负样本。这样得到的难样本三元组使泛化性能明显提升。(参考文件4：A.Hermans,L.Beyer and B.Leibe,“In defense of thetriplet loss for person re-identification,”arXiv preprint arXiv:1703.07737,2017.)

除此之外，Xiao等人在结合了四元组和难样本采样优势的基础上，进一步提出了一种边界挖掘损失。基于度量学习的方法以三元组为基础，成为了当下行人重识别相似性度量中应用最广泛的方法，图3可以概括度量损失的演变过程。

(2)基于特征表达的方法

一般来说，对一张图像的特征描述分为三个层面：低级颜特征、中级属性特征、深度特征。当下，主要的方法是基于深度神经网络提取深层特征。最初，基于CNN的方法主要提取整张行人图片的全局特征，随着研究的深入，大家普遍认识到只使用全局特征无法达到很好的区分度，因此，基于语义特征的方法和基于局部特征的方法成为了当下的研究热点。

基于全局特征的方法。研究初期，一些方法直接利用ResNet和GooleNet这些经典模型对整张行人图片提取全局特征，如：2017年，Sun等提出了SVDNet行人重识别网络，利用奇异值分解全连接层权重的方式对已收敛网络模型进行迭代优化。(参考文件5：Y.Sun,L.Zheng,W.Deng and S.Wang,“SVDNet for Pedestrian Retrieval,”2017 IEEEInternational Conference on Computer Vision(ICCV),Venice,pages 3820-3828,2017.)2019年，浙江大学的Luo等人提出了一个强大的行人重识别基准，通过一系列的网络训练技巧，只使用全局特征使得重识别性能达到了一个很高的水平。(参考文件6：H.Luo,Y.Gu,X.Liao,S.Lai,and W.Jiang,“Bags of Tricks and A Strong Baseline for DeepPerson Re-identification,”arXiv preprint arXiv:1903.07071,2019.)

基于语义特征的方法。这一方法是随着人体姿态估计的研究逐渐发展起来的，其主要思想是利用骨架关键点定位或图像语义分割来获取感兴趣的局部区域(Region ofInterest,ROI)，再结合全局特征得到复杂的特征表示。2017年，Zhao等提出的Spindle Net方法是基于语义特征的一个代表性研究，此方法首先利用姿态检测模型提取14个人体关键点，然后利用这些关键点划分7个ROI区域，和原始图片进入同一个CNN网络提取特征。(参考文件7：H.Y.Zhao,M.Q.Tian,S.Y.Sun,J.Shao,J.J.Yan and S.Yi et al,“Spindle net:person re-identification with human body region guided feature decompositionand fusion,”in Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,Honolulu,Hawaii,USA:IEEE,pages907-915,2017.)除此之外，Wei等提出的GLAD(全局-局部对齐描述子)模型也是比较经典的语义特征提取方法。(参考文件8：L.Wei,S.Zhang,H.Yao,W.Gao and Q.Tian,“GLAD:Global–Local-AlignmentDescriptor for Scalable Person Re-Identification,”in IEEE Transactions onMultimedia,vol.21,no.4,pages 986-999,April 2019.)

基于局部特征的方法。根据具象的语义划分提取局部特征虽然合理，但却不一定是必要的，特别是由于现阶段人体姿态估计的效果并不理想，错误的姿态估计反而会引入误差。因此，现在很多的研究都直接对行人图像进行水平或垂直的划分，然后采用一定的策略将局部进行对齐。2018年，清华大学提出的PCB方法和旷视研究院提出的AlignedReID方法是两个典型方法。PCB将图片从上至下水平切分为6部分，然后利用水平池化得到6个局部特征，之后每个特征都经过一个全连接层，并各自计算一个表征学习的交叉熵损失。(参考文件9：Y.Sun,et al.“Beyond part models:Person retrieval with refined partpooling(and a strong convolutional baseline),”in Proceedings of the EuropeanConference on Computer Vision(ECCV),2018.)AlignedReID同样将图片水平切分为8部分，然后利用CNN分别提取特征，并用最短路径的方法实现局部对齐。(参考文件10：X.Zhang,H.Luo,X.Fan,W.L.Xiang,Y.X.Sun and Q.Xiao et al,“AlignedReID:surpassing human-level performance in person re-identification,”arXivpreprint arXiv:1711.08184,2017.)

(3)基于朝向和视角的方法

目前大多数研究都关注到了局部遮挡这一重要因素，但对朝向变化等因素的考虑却相对较少，这使得网络模型无法适应复杂的朝向变化，在朝向差异明显的情况下会导致网络的误判。下面分析基于朝向变化的相关研究工作。2018年，DVAML方法尝试学习相同朝向和不同朝向样本之间的特征空间，但它们的方法没有获得很高的准确率。(参考文件11：P.Chen,X.Xu and C.Deng,“Deep view-aware metric learning for person re-identification,”in Proceedings of the Twenty-Seventh Inter-national JointConference on Artificial Intelligence,pages 620–626,International JointConferences on Artificial Intelligence Organization,2018.)Sun等利用Unity引擎生成了一个大型的虚拟行人数据集PersonX，并定量的分析了朝向对行人重识别的影响，这给本发明带来了很大的启发。(参考文件12：X.Sun and L.Zheng,“Dissecting person re-identification from the viewpoint of view-point,”arXiv preprint arXiv:1812.02162,2018.)

综上所述，目前大多数行人重识别技术都通过类间约束训练的方式融合全局和局部特征解决常见的遮挡问题，而对于朝向差异的研究却相对较少，特别是在同一个人不同朝向的样本之间有明显差异或者不同行人相同朝向的样本非常相似的情况下，会导致网络的误判。本发明主要解决这一问题，该方法不仅可以提升识别准确率，在检索时还可以优先识别与查询图像朝向相同的样本。

本发明旨在克服行人朝向差异和局部遮挡等因素对ReID技术的影响，通过提出的行人朝向分类算法和行人重识别网络模型提高行人重识别的准确性和可信度，从而为目标跟踪和其他计算机视觉任务提供研究基础。

本发明主要从朝向差异的角度研究行人重识别问题。如图4所示，从朝向角度考虑，影响ReID技术的一个主要因素是：同一个人不同朝向的样本相似度较低(如图4中的a和b是同一行人在不同朝向的图像)，而具有相同朝向的不同行人有些情况下是比较相似的(如图4中的c，d，e，f是不同行人相同朝向的图像)。从特征相似度上来看，同一个人图像之间的距离应该小于不同人图像间距离。同时，对于同一个人来说，其相同朝向图像的距离也应该小于不同朝向的距离，这才是合理的，因为同人同方向应当具有最高的相似度。

基于以上考虑，本发明提出一种有效的行人朝向分类方法，用以判别图片中行人的朝向，并以此为基础提出了一个基于朝向约束的多特征融合行人重识别网络模型，它包含两个不同的分支，分别处理朝向相同和不同的样本，每一分支融合全局和局部两种特征对行人进行表征，最后融合三部分损失函数进行约束训练，实现准确的行人重识别，并且可以优先识别与检索图片具有相同朝向的目标，具有很强的实用价值。

如图5所示，a代表原始行人样本数据，其中不同颜表示不同的行人，不同形状代表不同的身体朝向。行人重识别网络将每一个行人样本映射到高维空间中，不考虑朝向因素的方法得到的结果可以用图b表示，只考虑了类间距离，而本发明的结果如图c所示，不仅可以将不同的行人区分开，同时还可以形成视角级别的聚类，使得模型可以优先识别相同朝向的行人。

接下来，对本发明的主要内容进行详细介绍，具体包括以下步骤：

步骤一：设计基于多特征融合的行人朝向分类器

朝向信息(前、后、左、右)是行人图像的一个固有属性特征，在很大程度上会影响到重识别网络的判别能力，但是现有ReID数据集在收集时并没有标注这一属性。因此，本发明首先设计了一个基于多特征融合的行人朝向分类器，用于准确判别图片中行人的朝向。

朝向分类实际上是一个多分类任务，本发明为了提升分类准确度，设计了如图6所示的朝向分类网络模型。如图所示，对于一张行人图像，首先通过PAFs方法(OpenPose人体姿态关键点提取网络)提取该行人的18个关节关键点，这18个关键点可以大致描绘行人的轮廓，同时还可以准确得到每一个关键点在图像中的坐标位置。其次，通过坐标进行横向地分割可以将整个行人图像分成头部、上身、下身三个身体局部。

整个行人图像和三个身体局部构成了卷积神经网络的输入，该网络分别用卷积模块提取这四部分图像的特征(这里使用的是ResNet50网络)，然后将得到的特征向量拼接起来，形成一个组合向量用于最后的行人表示。最后，在网络的末端通过加入一个全连接层，使用softmax损失函数进行四分类，不断训练迭代得到最后的分类结果。

本方法的优势在于将全局特征和三个身体局部特征融合起来，增强了特征的鲁棒性，特别是在某些情况下，头部和脚部的局部特征更能区分出朝向的差异。该网络使用RAP数据集进行训练，这是因为RAP数据集是带有朝向标签的，可以简化标注成本。需要注意的是，该分类器是使用训练集预先训练好的，在后续步骤的实现中网络的权重不会发生变化。

最后，本发明使用得到的朝向分类网络，对两个大型的行人重识别数据集Market1501和DukeMTMC-reID进行了朝向信息的标注，为后续行人重识别中的朝向约束提供了基础。实验证明本方法在行人朝向识别上具有良好的表现效果，优于大多数方法。

步骤二：基于行人朝向进行难样本采样，选择用于训练的三元组

如式(1)，三元组损失是目前使用最广泛的度量方法，但是其训练过程在很大程度上取决于三元组样本的选取方式，过于简单的三元组不利于图像特征的学习。实践证明，基于训练批次(batch)的难样本采样是比较有效的三元组选择策略，即对每一个训练批次，随机挑选P个行人，在每个行人的图像中随机挑选K张不同的图片，即一个batch中含有P*K张图像，之后为每一张图片选最难的正样本(最不相似的)和最难的负样本(最相似的)组成三元组。

本发明的第二步就是在以上广泛使用的难样本采样策略上加入对行人朝向的考虑，提出一种基于行人朝向的难样本采样策略，用以选择训练三元组。这基于一个简单的假设，同一个人不同朝向样本间的距离大于相同朝向样本间的距离，也就是说同一个人相同方向的样本间应当是更相似的。

具体的，在批量难样本采样的基础上，对于每一个训练batch，同样随机挑选P个行人，但是在对每个行人的K张图片的选取上，不是简单的随机，而是保证这K张图片中既有朝向相同的样本，也有朝向不同的样本。比如，在实验中，如果K＝4，为每个行人挑选样本时，首先选择两个不同的方向(共分为前、后、左、右四个方向)，然后从每个方向中选择该行人的两个样本，这样组成的一个训练batch中包含了各种朝向差异的样本。

这种基于朝向的样本选择策略的优势在于：在为每个行人选取正负样本时，更有可能到与其更不相似的正样本(也就是与其朝向不同的样本)。为了证明这一策略的正确性，本发明在BaseLine的基础上，使用market-1501数据集进行实验验证。结果证明，在其他策略均保持不变的情况下，仅仅通过改变样本选择策略，使得mAP和rank-1准确率两个性能指标提高了大约0.7％。这一策略的验证也为建立基于朝向约束的重识别网络模型奠定了基础。

步骤三：基于朝向约束的多特征行人重识别网络设计

在前两步朝向判定和采样策略验证的基础上，本发明的第三步设计具体的行人重识别网络模型。共分为以下三个方面：

3.1网络结构的设计

本发明的整体网络结构示意图如图1所示，本网络的主要目的是克服朝向差异对重识别的影响，也就是使属于相同朝向但不是同一类的相似样本更加可分，使属于不同朝向但属于同一类的样本距离更近。该网络是一个两分支的结构，可以同时将一个样本映射到两个不同的特征空间，每一个特征空间对应一个网络分支。其中每一个分支设计了不同的混合损失函数，这样的网络设计使得第一分支(称之为相同朝向分支)主要关注相同朝向的样本，而第二分支(称之为不同朝向分支)更加适应不同朝向样本的变化情况。

首先，基于步骤二提出的基于行人朝向的三元组样本采样方法，该网络选取一个批次的输入图像(共N张图像，其中N＝P*K)。然后，使用训练好的朝向分类器判断每一张图片中的行人朝向，得到对应的朝向标签。这样，每一张行人图片可以用(I,Y,O)这个三元组来表示，其中I表示该图像，Y表示该行人的ID，即属于哪一个行人，O表示该行人的朝向标签。

如图1所示，对输入的这一个批次的图像，该网络首先通过一个共享的卷积网络模块提取其简单特征，由于属于较低层的卷积模块，这一共享模块可以提取到公共的颜、属性、纹理等特征。然后，在共享卷积模块之后又附加了两个分支卷积网络，用以将样本映射到两个不同的高维子空间中。本发明使用了目前应用最为普遍的ResNet50作为骨干网络，其结构具有很明显的层次性，因此，很容易可以划分出共享层和分支层。经过测试，使用第一个layer作为共享模块，后三个layer作为分支，最后上下两层网络分别输出一个N*d的特征向量。这样，每一张图片相当于提取了两种不同的特征，共输出2N个特征。

对于这两个不同的特征空间，其不同之处主要在于第一个分支只选用行人朝向都相同的三元组，而第二分支只选用行人朝向互不相同的三元组。因此，由于三元组的不同，上下两个分支各有侧重，可以更好地适应朝向差异的变化。不同的三元组就代表了不同的训练策略，接下来，主要针对网络中使用的特征融合策略和每个分支的训练策略进行介绍。

3.2多特征融合策略

对网络结构的设计重点考虑了朝向因素，这是本发明的主要创新之处。为了提高特征的区分度，在每一分支提取图像特征时本发明还采用了多特征融合的方式。

全局特征和局部特征相结合的方式可以更好的描述一张图像的行人特征，并且可以在一定程度上克服身体局部的遮挡问题。因此，网络的每一分支在提取图像特征时，不是简单地提取全局表示，而是同样采用了全局特征和局部特征相结合的方式。通过引入局部特征，一方面可以加强特征的表达能力；另一方面，特别是在相同朝向分支，相同朝向的负样本对(不属于同一个行人的一对图像)有可能非常相似，局部特征可以捕捉一些细节差异，从而更好地区分正负样本。

为了避免复杂的语义划分，本发明参考了简单有效的水平分割方法AlignedReID，如图7所示，AlignedReID方法同样将图片水平切分为8部分，然后利用CNN分别提取特征。但是为了解决不同局部的对齐问题，对于两张图片的各8个局部特征，AlignedReID先计算出它们之间的距离矩阵，然后从起点到终点寻一条最短路径，最短路径的总距离便是两幅图像最终的距离。类似的，本发明首先通过水平划分得到身体局部，同时基于最短路径的动态规划方法实现自动对齐。在网络的训练阶段，直接通过全局特征挖掘三元组，但是在上下两个分支都加入了局部特征三元组进行辅助训练，而在测试阶段仍然只使用全局特征。这进一步提升了模型的性能。

3.3网络训练策略

在对卷积神经网络的实践中，确定了网络结构之后的关键就是损失函数的选择，损失函数的特征直接关系着网络的学习效果。三元组损失可以考虑正负样本之间的相对距离，softmax分类损失可以学习样本在特征空间的分布，中心损失可以使同一类的样本向其类中心靠近。很多研究都表明，这三种损失联合训练往往可以取得更好的效果，因此，目前大多数研究都采用的是混合训练策略。

接下来详细介绍在本发明中采用的混合训练策略，这一策略是由相同朝向分支、不同朝向分支和交叉约束三部分组成的。这也是除网络结构之外，本发明可以取得良好效果的关键因素之一。

相同朝向分支。对于相同朝向分支，从一个batch中只选择相同朝向的样本组成三元组，也就是在为当前训练样本选择正负样本时都选择与其朝向相同的样本(由于每个batch是根据步骤二中提出的基于朝向的采样策略选取的，因此一定存在着相同朝向的样本)。这样选取的三元组其优势很明显，它可以在学习行人身份信息的同时，也学习一定的行人朝向信息，一定程度上降低了重识别的复杂度，从而使得属于同一个行人且朝向相同的样本聚得更近，而相同朝向的不同行人其表观特征往往是非常相似的，因此，这样的负样本本身带有一定的复杂性，更具代表性。这里用a表示anchor，p表示正样本，n表示负样本，s表示相同朝向，d表示不同朝向。如式(5)所示：

其中，ps代表相同朝向的同一行人，ns表示不同朝向的不同行人，其余字符含义同式(1)。

同时，为了更好地学习特征分布，本策略在三元组的基础上加入softmax分类损失和中心损失。但是需要注意的是，由于相同朝向分支只考虑同方向的样本，这里并不是按照行人id进行分类的，而是将行人和方向一起看作一个组合标签，一个人的一个朝向为一类，比如共有M个行人，划分了四个方向，则分为了M*4个不同的类别。softmax损失和中心损失都是在这个组合分类级别进行的。如下所示，式(6)为softmax损失，式(7)为中心损失。

其中，N代表batch的大小，fi代表第i张图像的特征向量，fi(k)代表第i个特征向量的第k维，label_i表示id和朝向的组合标签(id，orientation)，M*T代表分类的类别数，也是全连接层之后得到的特征向量长度。Clabel_i代表第i类的类中心。

相同朝向分支最后总的损失由三部分组成(如式8所示)。可以看到，这三部分损失训练的目的是一致的，它们共同使得同人同朝向的样本在特征空间中形成了很好的聚类效果。事实上，尽管这一分支只考虑了相同朝向的样本，在Market-1501上只使用这一分支进行实验得到的rank-1准确率已经超过了90％。其中，λ表示中心损失的权重系数。

Lsame＝LtriSame+LceSame+λLcenter (8)

不同朝向分支。很明显，第一分支忽略了不同朝向样本间的关系，这里使用第二个分支来考虑不同朝向样本的训练，从而弥补第一分支的不足。由于朝向的不同，即使是同一个人，其表观特征差异往往也很大。因此，这一分支三元组的构成都选择了不同朝向的样本，也即在选择三元组时，正负样本都选择与训练样本朝向不同的图像。其目的是为了让不同朝向的样本得到更多的关注，从而可以拉大类间距离。

类似于式(5)，不同朝向分支的三元组表示如式(9)所示：

其中，pd代表同一个人不同朝向的样本，nd代表不同朝向的不同行人，β是距离阈值。

为了兼顾样本的分布和类内距离，同样使用了softmax损失和中心损失，但是由于这一分支只考虑不同朝向的样本，因此只按样本的id进行分类，有M个人，就有M个类别，这是与相同朝向分支是不同的。式(10)为softmax损失公式，中心损失同式(7)。

其中，M代表行人的类别数，其余字符含义同式(6)。

最终，可以得到不同朝向分支的损失同样是三部分之和，如式(11)所示，这就弥补了第一分支没有考虑到的不同朝向样本的关系。

Ldiff＝LtriDiff+LceDiff+λLcenter (11)

交叉约束训练。前两分支基于朝向约束分别考虑了样本间的关系。为了考虑样本整体分布规律，本训练策略加入分支间的交叉约束，仍然主要基于三元组损失，如式(12)和式(13)。

式(12)同样是一个三元组损失函数，其中θ为距离阈值。对于训练样本a，其选择的正样本是与其朝向不同的，而负样本是与其朝向一致的。根据这样的选择，这就保证了两个分支内得到的正样本的距离总是小于负样本的距离，从而使两个分支的训练有机的结合起来。

式(13)没有考虑负样本，而是只考虑了正样本之间的相对关系，所以这是一个类内约束。这一项选取一个相对较小的间隔阈值δ，它可以保证在一个类的内部(也就是同一个行人的多个样本之间)，相同朝向样本间的距离小于不同朝向样本间的距离。这在一定程度上是有意义的，因为通过这样的类内约束，在根据查询图像检索时，往往可以优先得到与其朝向相同的样本，从而加大了是同一个人的概率。

总之，在训练阶段通过以上三种损失联合对网络进行训练，总的损失函数可以用式(14)来表示，其中μ是一个权重参数，可以取一个相对较小的值。

LTotal＝Lsame+Ldiff+Lcross+μLintra (14)

由于样本图像的特征之间的距离就代表了两张图的相似度，因此，在测试阶段就可以转化为距离的计算。同样首先通过设计好的朝向分类器对样本图像进行朝向判断，如果是相同朝向的样本，则使用第一分支得到的特征计算欧式距离；如果是不同朝向的样本，则使用第二分支的样本计算距离。最后融合形成一个距离矩阵，基于这个距离矩阵对测试图库进行性能测试。

总体说来，本发明的主要贡献是设计了一种基于朝向约束和多特征融合的行人重识别神经网络模型，属于计算机视觉领域比较经典的课题。本发明从影响行人重识别准确率的多个因素出发，综合考虑行人朝向差异和局部遮挡等问题，将相同朝向和不同朝向的行人分别考虑，在一定程度上克服了朝向差异对重识别的影响，所提出的这一朝向约束方案在现有的其他行人重识别方法中皆未涉及，具有一定的创新性。

除此之外，与所提出的行人重识别方法相配合，本发明还提出了一种基于行人朝向信息进行三元组样本选取的采样策略和一种对行人朝向进行判断的分类器设计方案，这也是本发明的主要贡献之一。实验结果证明，本发明所提出的行人重识别方案在识别准确率上优于现有的大多数方法，在实践场景中也更加可用。

图1是本发明所提出的朝向约束重识别网络整体结构图，在步骤三中进行了详细介绍。

图2是三元组损失函数示意图。

图3是度量损失函数的演变示意图。

图4是不同朝向的行人图像对比示例。

图5是本发明网络模型的识别效果示意图。

图6是本发明所提出的基于全局和局部特征的朝向分类器。

图7是基于局部特征对齐的AlignedReID方法示意图。

图8是基于姿态关节点进行朝向分类的向量夹角示意图。

图9是实验中使用的数据集样本示例。

图10是本发明在数据集上的实验结果示例。

图11是所提出的网络模型在训练过程中得到的距离曲线示意图。

下面将结合附图和具体的实验实施方式对本发明的技术方案、实验方法和测试结果作更进一步的详细说明。

本发明涉及计算机视觉领域的行人重识别课题，提出了一种基于朝向约束的多特征融合行人重识别方法，包含三个主要步骤，即使用朝向分类器获取行人朝向信息、基于行人朝向进行难样本采样和基于朝向约束的重识别网络设计。

下面具体对实验步骤进行说明。

步骤一：整理数据集(以market-1501为例)，采用基于全局特征和局部特征联合的方式(方法三)对数据集中的每一张图像进行朝向判定，标注朝向标签。

步骤二：构建两分支的卷积神经网络，实现对应的损失函数，将训练集样本输入到网络中进行训练，观察训练情况，不断迭代得到训练模型。

步骤三：根据训练结果进行测试，对于query中的每一张查询图像，从gallery库中查与其具有相同id的行人图像，组成结果序列，并同时计算得到相应的评价指标。

下面具体描述本专利的实验情况和得到的结论。

(1)行人朝向分类器实验结果

为了测试在本发明中提出的朝向分类器的准确性，本发明基于RAP数据集与其他两种方法进行了对比实验。

其中，方法一基于姿态关节点的相对位置进行分类，首先基于PAFs方法提取每一张行人图像的关节关键点，然后从中选择左肩和右肩的两个关节点形成一个从左到右的向量，最后求该向量与垂直方向(从上到下)的顺时针夹角。通过这个夹角的范围(以45度为分类间隔)可以判断得到行人朝向，如图8所示。

方法二直接使用卷积神经网络ResNet50进行训练，实现对行人图像的四分类。

方法三是本发明所提出的基于全局特征和局部特征融合的分类方法。

本发明通过实验对比了这三种行人朝向分类方法的分类准确率和性能，其实验结果如表1所示，很明显，本发明提出的方法在准确率上具有一定的优势。

表1三种行人朝向分类器的性能对比

方法方法描述准确率(％) 方法一基于姿态关节点相对位置进行分类(数学法) 82.07 方法二基于行人图像的全局特征采用CNN进行分类 87.33 方法三基于全局特征和局部特征联合进行分类(本发明) 89.03

(2)行人重识别数据集和评价指标

接下来对ReID实验所使用的测试数据集和评价指标进行介绍。如图9，本发明所提出方法在Market-1501和DukeMTMC-ReID两个大型公开数据集上进行了测试。其中，Market-1501包括由6个摄像头拍摄到的1501个行人、32668个检测到的行人矩形框，训练集有751人，包含12,936张图像，平均每个人有17.2张训练数据；测试集有750人，包含19732张图像，平均每个人有26.3张测试数据。DukeMTMC-ReID是行人跟踪DukeMTMC数据集的行人重识别子集，它总共包含了1404个行人的36411张图片，其中702个行人的16522张行人图像用于训练，剩下的图像用于测试。

在行人重识别任务中，测试过程通常是给定一张(或者是一组)待查询的图像(query)，然后将其与候选集(gallery)中的图像按照模型计算相似度，然后根据相似度从大到小排成一个序列，越靠前的图像与查询图像越接近。为了评价行人重识别算法的性能，目前的做法是在公开数据集上计算相应指标，然后与其他模型对比。CMC曲线(CumulativeMatching Characteristics)和mAP(mean Average Precision)是最常用的两个评价标准。

在实验中，本发明中主要选择了CMC曲线中最常用的rank-1、rank-5和mAP指标，其中，rank-k是指搜索结果中最靠前(置信度最高)的k张图有正确结果的概率，而mAP指标实际上相当于一个平均水平，mAP越高，就说明与query是同一人的查询结果在整个排序列表中是相对越靠前的，说明模型效果也越好。

(3)ReID实验细节和主要的参数配置

在实验中，本发明使用ResNet50作为骨干网络，第一层和它之前的所有层(layer)作为共享模块，后三层作为分支模块(不共享权重)。将最后一层的卷积步长(stride)设置为1，通过全局平均池化得到最后的2048维特征，为了计算分类损失，之后又添加了一个批量规范化层和全连接层。

对于所有的输入数据，本方法将所有的图像大小重新设置为256*128，将每一批次的batch size设置为128，包括32个行人和每个行人的4张图片(N＝128，P＝32，K＝4)。然后，对图像进行了随机扩充和裁剪，以0.5的概率对每张图进行随机擦除(REA)。需要注意的是：当区分左右朝向时，是不可以进行水平翻转的，因为这会改变行人的朝向。

在训练时，网络共训练了120代，设置初始学习率为3.5X 10-4，采用学习率预热(warmup)策略对前10代进行训练，随后在第35、75、95代时分别将学习率降低为原来的0.1倍。在损失函数的设计上，通过实验选定了相应的距离间隔和权重参数，依次为：α＝1,β＝0.7,θ＝0.7,δ＝0.001,λ＝0.0005,μ＝0.1。

(4)重识别网络实验结果

基于上述的评价指标和实验细节，本发明基于两个训练集进行了测试，得到了对应的实验结果。如表2和表3所示，本实验将本发明的方法与目前比较先进的其他网络模型进行了比较。在比较中，着重选择了与本发明联系最为紧密的一些方法，包括：基于全局特征的方法，度量学习方法，基于姿态的方法，水平分割局部的方法。特别的，还与最接近的基于视角的相关方法进行了对比。其中，RR表示对检索结果进行了重排序。

表2与其他方法的对比结果(market-1501数据集)

方法名称 Rank-1(％) Rank-5(％) mAP(％) PCB 92.3 97.2 77.4 AlignedReID 91.8 97.1 79.3 PIE 87.33 95.56 69.25 GLAD 89.9 - 73.9 Spindle 76.9 91.5 - HA-CNN 91.2 - 75.7 TriHard 86.67 93.38 81.07 HPM 94.2 97.5 82.7 PGR 93.87 97.74 77.21 OSCNN 83.9 - 73.5 ours 94.71 98.06 84.11 ours+RR 94.87 98.30 92.71

表3与其他方法的对比结果(DukeMTMC-ReID数据集)

方法名称 Rank-1(％) Rank-5(％) mAP(％) PCB 81.7 89.7 66.1 AlignedReID 81.2 - 67.4 PIE 80.84 88.30 64.09 HA-CNN 80.5 - 63.8 HPM 86.6 - 74.3 PGR 83.63 91.66 65.98 SVDNet 76.7 - 56.8 Ours 87.31 93.54 73.20 Ours+RR 90.63 94.25 87.67

为了进一步证明本发明所提出的网络结构和训练策略的有效性，基于Market-1501数据集设计了消融实验。首先，同样使用ResNet50作为骨干网络，使用三元组损失和交叉熵损失联合对网络进行训练，得到的测试结果作为BaseLine。

接下来，首先将每个batch的样本选择方式由随机选择改为基于朝向的选择策略，损失函数和网络其他参数都保持不变。在重复实验了多次之后，发现该策略为rank-1和mAP带来了大约0.7％的提升。

然后，实验只考虑相同朝向和不同朝向分支，单独使用每一分支进行测试，发现单独使用每一分支的效果相对较差，这是符合预期的，因为单独的分支只考虑了单一的朝向组合，缺失很多有代表性的三元组。

最后，在两分支共同训练的基础上，此实验又验证了交叉约束和引入局部特征的作用，结果证明交叉约束非常有效的，因为它使得相同朝向的负样本和不同朝向的正样本更加可分。

具体的消融实验结果如表4所示。

表4消融实验结果对比

通过以上的对比实验和消融实验，可以说明本发明的方法在行人重识别准确率上都优于现有方法。同时，由于本方法在交叉空间约束中加入了类内约束，这使得同一个行人的不同方向样本之间存在一个微小的间隔，也就是同一个行人相同朝向的样本会更加靠近。这在实际应用中是非常有意义的，比如在目标跟踪中，当两个目标非常相似时，它可以优先识别朝向相同的行人，而这往往是正确的。如图10所示，这里给出了一些数据集上的检索实例，其中，最左侧的图像代表查询图像query，后续的五张图像依次为检索得到的前五张图像，其相似度从高到低排列，从中可以直观地验证本发明的有效性。

如图11所示，在数据集训练过程中，本发明在两个数据集上记录了样本间的四种距离的关系，分别是相同朝向的同一个人之间的距离(图中的A曲线)，不同朝向的同一个人之间的距离(图中的B曲线)，不同朝向的不同行人之间的距离(C曲线)，相同朝向的不同行人之间的距离(D曲线)。这四个距离曲线的相对关系可以代表本方法的训练过程和目的，具有一定的说明意义。

综上所述，本发明提出了一种基于朝向约束的多特征融合行人重识别方法。通过一个两分支的重识别网络模型关注不同的朝向组合，克服了朝向差异对重识别的影响，所提出的网络在market-1501和DukeMTMC-ReID数据集上分别达到了94.71％和87.31％的rank-1准确率，平均水平优于现在大多数方法。同时，本发明提出了一种基于多特征融合的行人朝向分类器和一种基于朝向的样本选择策略，并以此标注了两个数据集的朝向信息，通过融合全局和局部特征，再次证明了朝向变化和局部遮挡对行人重识别的重要影响。特别是，本发明的方法在检索时可以优先识别具有相同朝向的行人，能够为朝向因素的进一步分析和未来行人重识别数据集的建设提供一些参考。

本文发布于:2024-09-24 18:28:31，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/73422.html

上一篇：自动控温足浴器

下一篇：一种使用虹膜识别的人事系统方案

标签：一种基于朝向约束的多特征融合行人重识别方法

留言与评论（共有 0 条评论）