特征稀疏表示多字典对学习行人再鉴识法

著录项
  • CN202110723457.5
  • 20210628
  • CN113313074A
  • 20210827
  • 严大莲
  • 严大莲;李勇
  • G06K9/00
  • G06K9/00 G06K9/46 G06K9/62 G06N20/00

  • 湖北省宜昌市夷陵区黄金路10号
  • 湖北(42)
摘要
本发明同时考虑不同摄像头之间的差异和不同特征之间的差异,在实际环境中同一张影像不同种类的特征之间存在差异,甚至是两个不同摄像头中的同种类特征之间也存在差异,本发明通过对每个摄像头中的不同特征分别进行稀疏表示,使两个摄像头中的同种特征获取一个耦合字典对,利用这些耦合字典反映不同摄像头之间的差异和不同特征之间的差异。通过实验结果分析,本发明的算法有效性大幅优于其它对比算法,能够准确判断图像或视频序列中是否存在特定行人,给定一个监控行人图像,通过检索跨设备下的该行人图像,弥补固定摄像头的视觉局限,并可与行人检测或行人跟踪技术相结合,能广泛应用于智能视频监控、智能安保等领域。
权利要求

1.特征稀疏表示多字典对学习行人再鉴识法,其特征在于,同时考虑不同摄像头之间的差异和不同特征之间的差异,通过对每个摄像头中的不同特征分别进行稀疏表示,使两个摄像头中的同种特征获取一个耦合字典对,利用这些耦合字典来反映不同摄像头之间的差异和不同特征之间的差异;

本发明提出基于稀疏表示的多字典学习算法,不仅考虑摄像头中不同特征之间的差异,还考虑不同摄像头之间的差异,本发明分为四个部分,第一部分为行人再鉴识基础框架,第二部分为构建特征稀疏表示多字典对模型,第三部分为行人再鉴识目标求解,第四部分为特征稀疏表示行人再鉴识耦合字典学习流程;

第一部分,行人再鉴识基础框架:

在训练阶段,对每一个摄像头中的所有影像分别提取颜特征、纹理特征,然后把两个摄像头中同种类的特征进行稀疏表示,通过学习使得两个摄像头中同种类型的特征获取一个对偶字典对;

在检测阶段,首先将检测样本的特征通过各个特征对应的字典进行恢复和稀疏表示,恢复成基准样本集所处空间的特征向量,然后计算该特征向量与基准样本集中每个特征向量的欧式距离,最终将检测样本划分到距离最小的类别中;

两个摄像头之间的各类特征进行稀疏表示的过程一致,只是特征不同,以下只是详细说明两个摄像头中某一种特征进行稀疏表示的过程,其他特征稀疏表示的过程可类推获取,本发明将两个摄像头中的同一种特征看作两个不同的特征空间:潜在空间和观测空间其中的数据稀疏,即该数据可以用某个特定的字典稀疏表示,在观测空间Y中的数据和潜在空间X中的数据需要进行恢复或推断,潜在空间X中的数据x与对应的观测空间Y中的数据y之间存在着某个映射关系:y=G(x),假设这个映射关系为单映射,也即X→Y,任务是分别为空间X和Y寻一个耦合字典对和其中w表示第w类特征(w=1,2,如果w=1表示颜特征,w=2表示纹理特征),对于任意一个给定的数据利用该数据在字典上的稀疏表示恢复出与之对应的数据在字典上的稀疏表示,一个理想的耦合字典对和对于任何数据对表示空间X中第i个样本的第w类特征,表示空间Y中第i个样本的第w类特征,都满足下式:

其中,表示潜在空间X中的训练样本,表示观测空间Y中的训练样本,并且是稀疏表示,λ是一个平衡重构误差和稀疏性的参数,从两个空间之间进行数据恢复的过程基于压缩感知进行处理,观测空间和潜在空间通过一个线性随机投影函数G进行联系,字典选择一个数学上定义的基,而则利用线性投影函数G直接通过获取,采用机器学习方法从训练样本中学习耦合字典。

2.根据权利要求1所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,第二部分,构建特征稀疏表示多字典对模型:

对一个给定数据恢复其对应的数据需要执行以下两个连续的步骤:

首先,根据式1获取数据在字典上的稀疏表示

其次,采用式得到数据

进行字典学习是最小化数据的重构误差,因此定义以下损失函数的平方:

然后,最优化字典对和通过最小化式3的期望得到:

在损失函数上加上更多的重构项,

其中,γ(0<γ≤1)是调节二个重构误差的平衡因子。

3.根据权利要求2所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,第三部分,行人再鉴识目标求解:目标函数式4是一个非线性并且非凸函数,首先固定字典和中的某一个,然后通过最小化目标函数求解另一个字典;

第一,当字典固定时,稀疏表示通过和来确定,则目标函数简化为如下形式:

式6是一个二次约束规划问题,可以直接求解;

第二,当字典固定时,优化求解的过程为:最小化式4的损失函数对字典是一个非凸的二次规划问题,为解决这个问题,采用梯度降低算法进行求解,在使用梯度降低方法之前,需要到一个能够使目标函数值减小的降低方向,对各个变量进行简化,去掉和的上角标和下角标,同时用Ay代替然后对函数H中的Ay求偏导数,结果如式7所不:

用分别表示重构残差,zj表示z的第j个元素,Ω表示j的索引集合,用来表示由{zj}j∈Ω组成的向量,和表示由字典和中Ω指示的原子构成的字典,得到如下等式:

4.根据权利要求3所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,为得到式7中的梯度,到索引集合Ω和导数但和Ay之间没有直接的联系,寻导数的方法为:

步骤一,稀疏求导,对于式1采用回归模型套索算法,有以下条件来求解最优z:

其中L={j|zj≠0},定义索引集合Ω={j||zj|>0+}时,得到:

由并且根据式8得到式10化简为:

5.根据权利要求4所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,再对式11求导:

然后计算导数得:

其中,假设式1中的解是唯一的,并且是存在的,式13是一个对的导函数。

6.根据权利要求5所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,从实际角度出发,只要给定式7一个可行的梯度降低方向进行优化,梯度降低保证目标函数值沿着这个方法减少,根据式13很容易为式7提供一个强有力的依据,将式8和式13带入式7中,令最终求得Ay,基于方便,用Ay进行代替,此过程最终求得和其中w表示第w种特征,耦合字典对和仅是两个摄像头中相同的某一类特征学习获取的,如果要学习其它种类特征的耦合字典对,只需要将学习过程中的特征更换成对应特征即可。

7.根据权利要求3所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,特征稀疏表示行人再鉴识耦合字典学习流程为:

流程一,输入:训练样本对以及字典的大小尺寸P;

流程二,初始化:初始化耦合字典和m=0,r=1;

流程三,repeat迭代求解:直到目标函数小于临界值或者达到最大迭代次数终止,否则反复执行流程三:

第一步,for i=1,2,…,循环,

第二步,根据式7计算梯度

第三步,更新字典

第四步,r=r+1;

第五步,end for;

流程四,更新

流程五,根据式6,利用更新

流程六,m=m+1;

流程七,根据条件,判断迭代是否可以结束;

流程八,输出:字典对和

8.根据权利要求3所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,流程二中可采用以下两种方式对字典和

a)采用标准的稀疏编码方式来训练或把它初始化成一个数学上定义的基,然后把初始化为一个随机的矩阵;

b)也可以把由联合稀疏编码方式训练得到的字典来初始化和

9.根据权利要求3所述的特征稀疏表示多字典对学习行人再鉴识法,其特征在于,流程三中的第三步,η(r)表示梯度降低方法中的步长,该步长的收缩率为1/r。

说明书
技术领域

本发明涉及一种监控视频行人再鉴识法,特别涉及一种特征稀疏表示多字典对学习行人再鉴识法,属于监控视频行人鉴识技术领域。

监控视频行人再鉴识是利用计算机视觉技术判断图像或视频序列中是否存在特定行人的技术,是一个图像检索的子问题,给定一个监控行人图像,检索跨设备下的该行人图像,旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可以广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性特性,外观易受穿着、遮挡、尺度、姿态和视角等影响,使得行人再鉴识成为计算机视觉领域中一个既具有研究和应用价值同时又极具挑战性的热门问题。

现有技术的监控视频行人再鉴识大致可以分为两个方面:一是具有鉴别能力的特征表示方法,并且这种特征具有很好的鲁棒性,即使在视角和光照都发生变化的情况下,这种特征也能保持良好的鉴别能力;二是度量学习的方法对行人再鉴识模型的参数进行优化,通过度量学习得到一个度量空间,使得在这个度量空间中同一个人的影像相似度比不同人的影像的相似度更大。

基于特征表示的行人再鉴识方法主要考虑利用某些约束提取具有鉴别能力的特征描述,然后使用标准距离进行相似性度量。理想情况下,应该提取对光照、角度、背景、遮挡和图像分辨率都具有鲁棒性的特征,但在行人再鉴识的环境中,并不清楚是否存在一种能够对所有行人的各个角度都能够稳定的进行表示的特征,特征的鉴别能力、稳定性和特征计算复杂度等几乎都和摄像头的角度变化以及摄像头视角中不同行人的外貌特征有密切的联系。此外,由于行人影像中背景的影响,使得从影像中提取无噪声并且稳定的行人特征变得更加困难。虽然度量学习方法在行人再鉴识方面取得了较好的性能,但该方法在学习过程中需要大量的训练样本,当样本不足时,其性能难以令人满意。

最近,稀疏表示开始广泛应用于图像恢复、压缩感知和人脸鉴识等领域中,然而,由于行人再鉴识问题和一般的人脸鉴识、指纹鉴识等问题存在诸多不同,而且又是最近几年提出的新问题,所以,基于多视图的行人再鉴识方法的研究还处于初级阶段。目前,根据行人再鉴识问题的特殊性,多视图行人再鉴识方法大致分为两类:一是由于行人再鉴识问题中存在多个摄像头对同一个行人采集图像的情况,因此,把每个摄像头中得到的数据看作一个视图;二是对影像提取多种特征,将每一种特征看作一个视图,然后为每一种特征计算出一个核矩阵,利用这些核矩阵训练出一个多视图分类器。然而,由于实际环境中行人再鉴识问题比较复杂,大多数的研究都只是在理论的条件下实现的,同时在一些关键技术上仍然缺乏有效的理论依据和技术支持。现有的行人再鉴识技术,距离实际应用还有相当大的差距。因此,对行人再鉴识问题的研发十分必要。

行人再鉴识与人脸鉴识、掌纹鉴识等应用有一个明显区别,行人再鉴识中至少要包含两个无重叠视域的摄像头。同一个人的图像可能同时存在于多个摄像头中,而且,由于摄像头所处的实际环境,即使是同一个行人在不同摄像头中的图像受到光照、角度和姿态等因素的影响,也会发生较大变化。因此,在解决行人再鉴识问题时,需要尽可能的将这些影响因素都考虑进去。

现有技术的一些行人再鉴识方法将两个摄像头中的数据或者特征投影到通过学习得到的公共距离度量中,这样不仅忽略了摄像头之间的差异,而且,当数据不充足时容易引起过拟合。现有技术虽然有一些方法考虑到了不同摄像头之间的差异,但却忽略了不同特征之间的差异,影像的不同种类的特征都描述图像不同的特性,每一种特征描述图像的某种特性,并且某个特征的缺点可通过其他特征的优点来减弱,尽管把不同的特征组合成一个列向量,但由于这种方法没有正确的看待不同特征包含的特性,使得组合特征的方法无法有效利用不同特征之间的鉴别信息,因此,与那些将多种特征融合在一起的方法相比,多特征分别考虑的方法能够提供图像更多的特性,并且当不同特征之间是相辅相成时,这种方法能够明显提高算法性能。

由于同一个行人在不同摄像头中受到光照、角度和姿态等因素的影响,两个不同摄像头中某种特征的变化与这两个摄像头中另外一种特征的变化存在差异。例如,两个摄像头所处的环境因素中,角度和姿态影响因素稳定不变,而光照变化差异较大,则这两个摄像头之间同一个行人的颜特征变化应该比纹理特征的变化更大,也就是说,两个不同摄像头中同一个行人的不同特征的变化参数是不同的,因此,行人再鉴识问题应该综合两个方面的考虑,不仅要考虑不同摄像头之间的差异,还要考虑各个特征之间的差异。

行人再鉴识的相关技术包括基于特征表示的行人再鉴识方法和基于学习的行人再鉴识方法及稀疏表示的相关技术,基于特征表示的行人再鉴识方法利用行人影像中能够容易获取的简单明显的特征作为描述子,例如颜特征和纹理特征,形状特征也是另外一种容易得到的描述子,但这些描述子不是很稳定,容易受到外界因素的影响发生变化,在多个摄像头时,颜特征和纹理特征常常会由于跨摄像头之间的亮度变化、姿态变化和角度或视角变化,导致特征发生剧烈变化,由于人体的关节活动导致不同摄像头中行人的轮廓和几何结构发生变化,基于学习的行人再鉴识算法将重点从选择最佳的特征转向了学习一种合适的距离度量,在这个距离度量中使匹配精确度最大化,而不用专注于行人外貌特征的选择,这种学习方法的目的是在图像特征空间里学习一个度量,使得在这个度量里的图像特征满足同类聚集,不同类的分散。但基于距离学习的方法应用到行人再鉴识场景时,依然存在着诸多的问题,如小样本问题。

现有技术的监控视频行人再鉴识方法存在诸多缺陷,现有技术的难点和本发明解决的问题主要集中在以下方面:

第一,理想情况下,应该提取对光照、角度、背景、遮挡和图像分辨率都具有鲁棒性的特征,但在行人再鉴识的环境中,并不清楚是否存在一种能够对所有行人的各个角度都能够稳定的进行表示的特征,特征的鉴别能力、稳定性和特征计算复杂度等几乎都和摄像头的角度变化以及摄像头视角中不同行人的外貌特征有密切的联系,此外,由于行人影像中背景的影响,使得从影像中提取无噪声并且稳定的行人特征变得更加困难。虽然现有技术的学习方法在行人再鉴识方面取得了较好的性能,但该方法在学习过程中需要大量的训练样本,当样本不足时,其性能难以令人满意。;

第二,稀疏表示开始广泛应用于图像恢复、压缩感知和人脸鉴识等领域中,但基于多视图的行人再鉴识方法的研究还处于初级阶段。目前,根据行人再鉴识问题的特殊性,多视图行人再鉴识方法大致分为两类:一是由于行人再鉴识问题中存在多个摄像头对同一个行人采集图像的情况,因此,把每个摄像头中得到的数据看作一个视图;二是对影像提取多种特征,将每一种特征看作一个视图,然后为每一种特征计算出一个核矩阵,利用这些核矩阵训练出一个多视图分类器。然而,由于实际环境中行人再鉴识问题比较复杂,现有技术大多数都只是在理论的条件下实现的,同时在一些关键技术上仍然缺乏有效的理论依据和技术支持,距离实际应用还有相当大的差距;

第三,行人再鉴识与人脸鉴识、掌纹鉴识等应用有一个明显区别,行人再鉴识中至少要包含两个无重叠视域的摄像头,同一个人的图像可能同时存在于多个摄像头中,而且,由于摄像头所处的实际环境,即使是同一个行人在不同摄像头中的图像受到光照、角度和姿态等因素的影响,也会发生较大变化,在解决行人再鉴识问题时,需要尽可能的将这些影响因素都考虑进去,现有技术的一些行人再鉴识方法将两个摄像头中的数据或者特征投影到通过学习得到的公共距离度量中,这样不仅忽略了摄像头之间的差异,而且,当数据不充足时容易引起过拟合;

第四,现有技术虽然有一些方法考虑到了不同摄像头之间的差异,但却忽略了不同特征之间的差异,影像的不同种类的特征都描述图像不同的特性,每一种特征描述图像的某种特性,并且某个特征的缺点可通过其他特征的优点来减弱,尽管把不同的特征组合成一个列向量,但由于这种方法没有正确的看待不同特征包含的特性,使得组合特征的方法无法有效利用不同特征之间的鉴别信息;

第五,基于特征表示的行人再鉴识方法利用行人影像中能够容易获取的简单明显的特征作为描述子,例如颜特征和纹理特征,形状特征也是另外一种容易得到的描述子,但这些描述子不是很稳定,容易受到外界因素的影响发生变化,在多个摄像头时,颜特征和纹理特征常常会由于跨摄像头之间的亮度变化、姿态变化和角度或视角变化,导致特征发生剧烈变化,由于人体的关节活动导致不同摄像头中行人的轮廓和几何结构发生变化,基于学习的行人再鉴识算法将重点从选择最佳的特征转向了学习一种合适的距离度量,在这个距离度量中使匹配精确度最大化,而不用专注于行人外貌特征的选择,这种学习方法的目的是在图像特征空间里学习一个度量,使得在这个度量里的图像特征满足同类聚集,不同类的分散。但基于距离学习的方法应用到行人再鉴识场景时,依然存在着诸多的问题,如小样本问题。

针对现有技术的不足,本发明首先提出特征稀疏表示多字典对学习行人再鉴识法的算法架构,然后提出该算法的目标函数以及优化求解的详细过程。行人再鉴识问题中不同的摄像头处在不同的环境中,即不同的摄像头由于受到视角、光照和姿态等因素的影响,仅考虑不同特征之间的差异不够合理,而本发明对每个摄像头中的每种特征分别进行考虑,通过稀疏表示为每个摄像头中的每种特征学习一个稀疏字典,最终两个不同摄像头中的同种特征学到一个耦合字典对,利用这些耦合字典对实现不同摄像头中样本的稀疏表示和鉴识过程,不仅考虑到了摄像头中不同特征之间的差异,还考虑到了摄像头本身的差异,对实际环境有更强的适应能力,达到很高的行人再鉴识精度。

为达到以上技术效果,本发明所采用的技术方案如下:

特征稀疏表示多字典对学习行人再鉴识法,同时考虑不同摄像头之间的差异和不同特征之间的差异,通过对每个摄像头中的不同特征分别进行稀疏表示,使两个摄像头中的同种特征获取一个耦合字典对,利用这些耦合字典来反映不同摄像头之间的差异和不同特征之间的差异;

本发明提出基于稀疏表示的多字典学习算法,不仅考虑摄像头中不同特征之间的差异,还考虑不同摄像头之间的差异,本发明分为四个部分,第一部分为行人再鉴识基础框架,第二部分为构建特征稀疏表示多字典对模型,第三部分为行人再鉴识目标求解,第四部分为特征稀疏表示行人再鉴识耦合字典学习流程;

第一部分,行人再鉴识基础框架:

在训练阶段,对每一个摄像头中的所有影像分别提取颜特征、纹理特征,然后把两个摄像头中同种类的特征进行稀疏表示,通过学习使得两个摄像头中同种类型的特征获取一个对偶字典对;

在检测阶段,首先将检测样本的特征通过各个特征对应的字典进行恢复和稀疏表示,恢复成基准样本集所处空间的特征向量,然后计算该特征向量与基准样本集中每个特征向量的欧式距离,最终将检测样本划分到距离最小的类别中;

两个摄像头之间的各类特征进行稀疏表示的过程一致,只是特征不同,以下只是详细说明两个摄像头中某一种特征进行稀疏表示的过程,其他特征稀疏表示的过程可类推获取,本发明将两个摄像头中的同一种特征看作两个不同的特征空间:潜在空间和观测空间其中的数据稀疏,即该数据可以用某个特定的字典稀疏表示,在观测空间Y中的数据和潜在空间X中的数据需要进行恢复或推断,潜在空间X中的数据x与对应的观测空间Y中的数据y之间存在着某个映射关系:y=G(x),假设这个映射关系为单映射,也即X→Y,任务是分别为空间X和Y寻一个耦合字典对和其中w表示第w类特征(w=1,2,如果w=1表示颜特征,w=2表示纹理特征),对于任意一个给定的数据利用该数据在字典上的稀疏表示恢复出与之对应的数据在字典上的稀疏表示,一个理想的耦合字典对和对于任何数据对表示空间X中第i个样本的第w类特征,表示空间Y中第i个样本的第w类特征,都满足下式:

其中,表示潜在空间X中的训练样本,表示观测空间Y中的训练样本,并且是稀疏表示,λ是一个平衡重构误差和稀疏性的参数,从两个空间之间进行数据恢复的过程基于压缩感知进行处理,观测空间和潜在空间通过一个线性随机投影函数G进行联系,字典选择一个数学上定义的基,而则利用线性投影函数G直接通过获取,采用机器学习方法从训练样本中学习耦合字典。

特征稀疏表示多字典对学习行人再鉴识法,进一步的,第二部分,构建特征稀疏表示多字典对模型:

对一个给定数据恢复其对应的数据需要执行以下两个连续的步骤:

首先,根据式1获取数据在字典上的稀疏表示

其次,采用式得到数据

进行字典学习是最小化数据的重构误差,因此定义以下损失函数的平方:

然后,最优化字典对和通过最小化式3的期望得到:

在损失函数上加上更多的重构项,

其中,γ(0<γ≤1)是调节二个重构误差的平衡因子。

特征稀疏表示多字典对学习行人再鉴识法,进一步的,第三部分,行人再鉴识目标求解:目标函数式4是一个非线性并且非凸函数,首先固定字典和中的某一个,然后通过最小化目标函数求解另一个字典;

第一,当字典固定时,稀疏表示通过和来确定,则目标函数简化为如下形式:

式6是一个二次约束规划问题,可以直接求解;

第二,当字典固定时,优化求解的过程为:最小化式4的损失函数对字典是一个非凸的二次规划问题,为解决这个问题,采用梯度降低算法进行求解,在使用梯度降低方法之前,需要到一个能够使目标函数值减小的降低方向,对各个变量进行简化,去掉和的上角标和下角标,同时用Ay代替然后对函数H中的Ay求偏导数,结果如式7所示:

用和分别表示重构残差,zj表示z的第j个元素,Ω表示j的索引集合,用来表示由{zj}j∈Ω组成的向量,和表示由字典和中Ω指示的原子构成的字典,得到如下等式:

特征稀疏表示多字典对学习行人再鉴识法,进一步的,为得到式7中的梯度,到索引集合Ω和导数但和Ay之间没有直接的联系,寻导数的方法为:

步骤一,稀疏求导,对于式1采用回归模型套索算法,有以下条件来求解最优z:

其中L={j|zj≠0},定义索引集合Ω={j||zj|>0+}时,得到:

由并且根据式8得到式10化简为:

特征稀疏表示多字典对学习行人再鉴识法,进一步的,再对式11求导:

然后计算导数得:

其中,假设式1中的解是唯一的,并且是存在的,式13是一个对的导函数.

特征稀疏表示多字典对学习行人再鉴识法,进一步的,从实际角度出发,只要给定式7一个可行的梯度降低方向进行优化,梯度降低保证目标函数值沿着这个方法减少,根据式13很容易为式7提供一个强有力的依据,将式8和式13带入式7中,令最终求得Ay,基于方便,用Ay进行代替,此过程最终求得和其中w表示第w种特征,耦合字典对和仅是两个摄像头中相同的某一类特征学习获取的,如果要学习其它种类特征的耦合字典对,只需要将学习过程中的特征更换成对应特征即可。

特征稀疏表示多字典对学习行人再鉴识法,进一步的,特征稀疏表示行人再鉴识耦合字典学习流程为:

流程一,输入:训练样本对以及字典的大小尺寸P;

流程二,初始化:初始化耦合字典和m=0,r=1;

流程三,repeat迭代求解:直到目标函数小于临界值或者达到最大迭代次数终止,否则反复执行流程三:

第一步,for i=1,2,…,循环,

第二步,根据式7计算梯度

第三步,更新字典

第四步,r=r+1;

第五步,end for;

流程四,更新

流程五,根据式6,利用更新

流程六,m=m+1;

流程七,根据条件,判断迭代是否可以结束;

流程八,输出:字典对和

特征稀疏表示多字典对学习行人再鉴识法,进一步的,流程二中可采用以下两种方式对字典和

a)采用标准的稀疏编码方式来训练或把它初始化成一个数学上定义的基,然后把初始化为一个随机的矩阵;b)也可以把由联合稀疏编码方式训练得到的字典来初始化和特征稀疏表示多字典对学习行人再鉴识法,进一步的,流程三中的第三步,η(r)表示梯度降低方法中的步长,该步长的收缩率为1/r。与现有技术相比,本发明的贡献和创新点在于:第一,本发明同时考虑不同摄像头之间的差异和不同特征之间的差异,在实际的行人再鉴识环境中,同一张影像不同种类的特征之间存在差异,甚至是两个不同摄像头中的同种类特征之间也存在差异,因此,本发明通过对每个摄像头中的不同特征分别进行稀疏表示,使两个摄像头中的同种特征获取一个耦合字典对,利用这些耦合字典来反映不同摄像头之间的差异和不同特征之间的差异。通过对实验结果的详细分析,本发明的算法有效性大幅优于其它对比算法,能够准确判断图像或视频序列中是否存在特定行人,给定一个监控行人图像,通过检索跨设备下的该行人图像,弥补固定摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,能广泛应用于智能视频监控、智能安保等领域;第二,本发明首先提出特征稀疏表示多字典对学习行人再鉴识法的算法架构,然后提出该算法的目标函数以及优化求解的详细过程。行人再鉴识问题中不同的摄像头处在不同的环境中,即不同的摄像头由于受到视角、光照和姿态等因素的影响,仅考虑不同特征之间的差异不够合理,而本发明特征稀疏表示多字典对学习行人再鉴识法对每个摄像头中的每种特征分别进行考虑,通过稀疏表示为每个摄像头中的每种特征学习一个稀疏字典,最终两个不同摄像头中的同种特征学到一个耦合字典对,本发明利用这些耦合字典对实现不同摄像头中样本的稀疏表示和鉴识过程,不仅考虑到了摄像头中不同特征之间的差异,行人兼具刚性和柔性特性,外观易受穿着、遮挡、尺度、姿态和视角等影响,还考虑到了摄像头本身的差异,因此,对实际环境有更强的适应能力,能够很好的解决上述问题,达到很高的行人再鉴识精度;第三,本发明是针对摄像头之间的差异和不同特征之间的差异进行设计的,该方法在VIPeR和PRID数据库上的效果提升比较明显,但该数据库中同一个行人的不同影像之间相似度很高,甚至背景等几乎没有明显变化,即使是随机选择同一个行人的两张影像,其中的变化也是非常小的,这就使得ETHZ数据库中的许多影像本身就符合同一个行人不同影像之间的相似度比不同行人的影像之间相似度更大,由于ETHZ数据库中不同摄像头之间的差异和不同特征之间的差异都较小,所以本发明尽可能的去考虑各类因素(光照、角度和姿态)的影响,但由于这些外界因素对ETHZ数据库的影响并不严重,所以,本发明提出的方法虽然在ETHZ数据库上的鉴识率比在VIPeR和PRID数据库上的都高,且与对比算法相比有特别大的提高,

这也恰好证明了本发明提出的方法对于实际的行人再鉴识环境中光照、角度和姿态等因素的变化具有更强的鲁棒性和适应性;

第四,本发明方法训练时间相对较长,由于使用的是稀疏表示的字典学习方法,因此不可避免的要进行迭代求解,造成时间复杂度相对较大,但从该算法的鉴识率来看,能够在三个数据库中最多提高8.49%至10.23%,其时间复杂度是可以接受的,由于行人再鉴识问题的特殊性,即不同的摄像头之间由于光照、视角和姿态等因素的影响,使得同一个行人也存在着差异。因此,本发明将不同种类的特征进行分别考虑,但同时也考虑到了相同种类的特征在不同摄像头中所包含的差异,通过稀疏表示为每个摄像头中的每一种特征学习一个字典,稀疏表示的目的是学习一个字典,同时能够从这个字典中到一组字典原子的稀疏线性组合来表示观察到的图像或图像特征,利用耦合字典对特征信息的恢复能力进行行人再鉴识的,由于该方法能够同时考虑摄像头之间和不同特征之间的差异,使得该算法的鉴识率明显优于对比算法,鉴别错误率很低。

图1是本发明行人再鉴识法的训练过程示意图。

图2是本发明行人再鉴识法的检测阶段过程示意图。

图3是本发明与各对比算法的平均鉴识率示意图。

下面结合附图,对本发明提供的特征稀疏表示多字典对学习行人再鉴识法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本发明并能予以实施。

本发明提出一种特征稀疏表示多字典对学习行人再鉴识方法,同时考虑不同摄像头之间的差异和不同特征之间的差异,在实际的行人再鉴识环境中,同一张影像不同种类的特征之间存在差异,甚至是两个不同摄像头中的同种类特征(如颜特征)之间也存在差异。因此,本发明通过对每个摄像头中的不同特征分别进行稀疏表示,使两个摄像头中的同种特征(如颜特征)获取一个耦合字典对,利用这些耦合字典来反映不同摄像头之间的差异和不同特征之间的差异。在实验部分,本发明在公共行人再鉴识数据库ETHZ上进行了大量的对比实验,通过对实验结果的详细分析,表明本发明的算法有效性大幅优于其它对比算法。

行人再鉴识问题中不同的摄像头处在不同的环境中,即不同的摄像头受到不同的光照、视角和姿态因素的影响。因此,仅仅考虑不同特征之间差异的方法并不符合实际情况。本发明提出基于稀疏表示的多字典学习算法,不仅考虑摄像头中不同特征之间的差异,还考虑不同摄像头之间的差异,本发明分为四个部分,第一部分为行人再鉴识基础框架,第二部分为构建特征稀疏表示多字典对模型,第三部分为行人再鉴识目标求解,第四部分为特征稀疏表示行人再鉴识耦合字典学习流程,第五部分为基于稀疏表示的多字典学习算法实验。

一、行人再鉴识基础框架

如图1所示,在训练阶段,对每一个摄像头中的所有影像分别提取颜特征、纹理特征,然后把两个摄像头中同种类的特征进行稀疏表示,通过学习使得两个摄像头中同种类型的特征获取一个对偶字典对。

如图2所示,在检测阶段,首先将检测样本的特征通过各个特征对应的字典进行恢复和稀疏表示,恢复成基准样本集所处空间的特征向量,然后计算该特征向量与基准样本集中每个特征向量的欧式距离,最终将检测样本划分到距离最小的类别中。

两个摄像头之间的各类特征进行稀疏表示的过程一致,只是特征不同,本发明只是详细说明两个摄像头中某一种特征(如摄像头A中的颜特征和摄像头B中的颜特征)进行稀疏表示的过程,其他特征稀疏表示的过程可类推获取,本发明将两个摄像头中的同一种特征看作两个不同的特征空间:潜在空间和观测空间其中的数据稀疏,即该数据可以用某个特定的字典稀疏表示,在观测空间Y中的数据和潜在空间X中的数据需要进行恢复或推断,潜在空间X中的数据x与对应的观测空间Y中的数据y之间存在着某个映射关系:y=G(x),假设这个映射关系为单映射,也即X→Y,任务是分别为空间X和Y寻一个耦合字典对和其中w表示第w类特征(w=1,2,如果w=1表示颜特征,w=2表示纹理特征),对于任意一个给定的数据利用该数据在字典上的稀疏表示恢复出与之对应的数据在字典上的稀疏表示,一个理想的耦合字典对和对于任何数据对表示空间X中第i个样本的第w类特征,表示空间Y中第i个样本的第w类特征,都满足下式:

其中,表示潜在空间X中的训练样本,表示观测空间Y中的训练样本,并且是稀疏表示,λ是一个平衡重构误差和稀疏性的参数,从两个空间之间进行数据恢复的过程基于压缩感知进行处理,在压缩感知中,观测空间和潜在空间通过一个线性随机投影函数G进行联系,字典选择一个数学上定义的基,而则利用线性投影函数G直接通过获取,在要求不严格的情况中,式1中的稀疏表示用来恢复并且可以保证算法性能不会太差,但在大多数的情况中,并不知道映射函数G,并且这个函数可能也不是线性形式,因此,压缩感知方法无法使用。此时,这种情况非常适合采用机器学习方法从训练样本中学习耦合字典。

二、构建特征稀疏表示多字典对模型

基于稀疏表示的分类技术已经成功运用到人脸鉴识、指纹鉴识等众多领域,稀疏表示的目的是学习一个字典,同时能够从这个字典中到一组字典原子的稀疏线性组合来表示观察到的图像或图像特征。现有技术的稀疏表示算法,大致可分为以下几类:重构稀疏编码、有监督稀疏编码、鉴别稀疏编码、结构稀疏编码和图正则化稀疏编码。

稀疏表示就是利用训练样本组成一个过完备字典,然后利用这些字典原子的一个稀疏线性组合表示检测样本,假设要表示一个数据库中的第i类的样本其中Xi类中的每一列都是第i类的一个样本,如果训练样本集中一共有K个类别,即X=[X1,X2,…,XK],当想要表示一个检测样本时,将该样本编码表示为y≈Xα,其中,α=[α1;…αi;…αk],并且αi是第i类的稀疏表示,如果y是第i类的样本,则用y≈Xiαi,大多数的系数αk,k≠i均为零,只有第i类的系数αi是非零的,整个系数α中非零部分的编码就是检测样本y的稀疏表示的系数。与标准稀疏表示不同,联合稀疏表示考虑的是对两个特征空间X和Y学习两个字典Ax和Ay的问题,特征空间X和Y是通过某个投影函数G进行联系,因此,用字典Ax表示xi∈X的系数应该与用字典Ay表示yi∈Y的系数相同,其中yi=G(xi)。因此,如果yi是观测样本,通过yi在字典Ay上的稀疏编码来恢复其隐含的xi。因此,联合稀疏编码方法只能在特征空间X和Y有某种联系的情况下进行优化,但在每个单独的特征空间内无法进行联合稀疏编码。

本发明对一个给定数据恢复其对应的数据需要执行以下两个连续的步骤:

首先,根据式1获取数据在字典上的稀疏表示

其次,采用式得到数据

进行字典学习是最小化数据的重构误差,因此定义以下损失函数的平方:

然后,最优化字典对和通过最小化式3的期望得到:

仅仅最小化上面的损失函数并不能够保证通过能够很好的表示因此,为更好的表示在损失函数上加上更多的重构项。

其中,γ(0<γ≤1)是调节二个重构误差的平衡因子。

三、行人再鉴识目标求解

目标函数式4是一个非线性并且非凸函数,首先固定字典和中的某一个,然后通过最小化目标函数求解另一个字典;

第一,当字典固定时,稀疏表示通过和来确定,则目标函数简化为如下形式(常量已经被去掉):

式6是一个二次约束规划问题,可以直接求解;

第二,当字典固定时,优化求解的过程为:最小化式4的损失函数对字典是一个非凸的二次规划问题,为解决这个问题,采用梯度降低算法进行求解,在使用梯度降低方法之前,需要到一个能够使目标函数值减小的降低方向,对各个变量进行简化,去掉和的上角标和下角标,同时用Ay代替然后对函数H中的Ay求偏导数,结果如式7所示:

用分别表示重构残差,zj表示z的第j个元素,Ω表示j的索引集合,用来表示由{zj}j∈Ω组成的向量,和表示由字典和中Ω指示的原子构成的字典,得到如下等式:

为了得到式7中的梯度,仍需要到索引集合Ω和导数但和Ay之间没有直接的联系,寻导数的方法为:

步骤一,稀疏求导,对于式1采用回归模型套索算法,有以下条件来求解最优z:

其中L={j|zj≠0},定义索引集合Ω={j||zj|>0+}时,得到:

由并且根据式8得到式10化简为:

再对式11求导:

然后计算导数得:

其中,假设式1中的解是唯一的,并且是存在的,式13是一个对的导函数,从实际角度出发,只要给定式7一个可行的梯度降低方向进行优化,梯度降低保证目标函数值沿着这个方法减少,根据式13很容易为式7提供一个强有力的依据,将式8和式13带入式7中,令最终求得Ay,但基于叙述方便,用Ay进行代替,此过程最终求得和其中w表示第w种特征,耦合字典对和仅是两个摄像头中相同的某一类特征学习获取的,如果要学习其它种类特征的耦合字典对,只需要将学习过程中的特征更换成对应特征即可。

四、方法流程

特征稀疏表示行人再鉴识耦合字典学习流程为:

流程一,输入:训练样本对以及字典的大小尺寸P;

流程二,初始化:初始化耦合字典和m=0,r=1;

流程三,repeat迭代求解:直到目标函数小于临界值或者达到最大迭代次数终止,否则反复执行流程三:

第一步,for i=1,2,…,循环,

第二步,根据式7计算梯度

第三步,更新字典

第四步,r=r+1;

第五步,end for;

流程四,更新

流程五,根据式6,利用更新

流程六,m=m+1;

流程七,根据条件,判断迭代是否可以结束;

流程八,输出:字典对和

1)流程二中可采用以下两种方式对字典和

a)采用标准的稀疏编码方式来训练或把它初始化成一个数学上定义的基(如小波),然后把初始化为一个随机的矩阵;

b)也可以把由联合稀疏编码方式训练得到的字典来初始化和

2)流程三中的第三步,η(r)表示梯度降低方法中的步长,该步长的收缩率为1/r。

本发明首先提出特征稀疏表示多字典对学习行人再鉴识法的算法架构,然后提出该算法的目标函数以及优化求解的详细过程。行人再鉴识问题中不同的摄像头处在不同的环境中,即不同的摄像头由于受到视角、光照和姿态等因素的影响,仅考虑不同特征之间的差异不够合理。而本发明特征稀疏表示多字典对学习行人再鉴识法对每个摄像头中的每种特征分别进行考虑,通过稀疏表示为每个摄像头中的每种特征学习一个稀疏字典,最终两个不同摄像头中的同种特征学到一个耦合字典对,本发明利用这些耦合字典对实现不同摄像头中样本的稀疏表示和鉴识过程,不仅考虑到了摄像头中不同特征之间的差异,还考虑到了摄像头本身的差异,因此,对实际环境有更强的适应能力。

五、基于稀疏表示的多字典学习算法实验

(一)在ETHZ数据库上的实验及结果分析

将特征稀疏表示多字典对学习行人再鉴识法与所有的对比方法都采用随机挑选训练样本的方式运行30次,然后求平均值,从而对比平均鉴识率进行算法性能的对比的实验。其中,特征稀疏表示多字典对在学习过程中,经过多次实验检测结果,字典的大小尺寸P设置为128时能够取得比较满意的鉴识率。因此,该方法在ETHZ数据库上进行实验时,字典的大小尺寸P均设置为128。

本发明实验为特征稀疏表示多字典对学习行人再鉴识法与所有对比算法做平均鉴识率对比。图3给出了基于稀疏表示的多字典学习算法所有对比算法随机30的平均鉴识率图。从图3的实验结果进行分析:本发明提出的特征稀疏表示多字典对学习行人再鉴识法与其他度量学习算法相比,在ETHZ数据库上的鉴识率更高,虽然在t=1时,特征稀疏表示多字典对学习行人再鉴识法与EIML相差不大,但是,随着t的增大本发明提出的方法相比于对比算法有了稳步的提高,特征稀疏表示多字典对学习行人再鉴识法比EIML算法识别率提高了7.4%-11.3%,说明该算法在ETHZ数据库上比对比方法有一定的优势。

本发明提出的特征稀疏表示多字典对学习行人再鉴识法正是针对摄像头之间的差异和不同特征之间的差异进行设计的,因此,该方法在VIPeR和PRID数据库上的效果提升比较明显,但该数据库中同一个行人的不同影像之间相似度很高,即同一个行人的不同影像之间行人的角度、姿态和光照,甚至背景等几乎没有明显变化,即使是随机选择同一个行人的两张影像,其中的变化也是非常小的,这就使得ETHZ数据库中的许多影像本身就符合同一个行人不同影像之间的相似度比不同行人的影像之间相似度更大,由于ETHZ数据库中不同摄像头之间的差异和不同特征之间的差异都较小,所以特征稀疏表示多字典对学习行人再鉴识法尽可能的去考虑各类因素(光照、角度和姿态)的影响,但由于这些外界因素对ETHZ数据库的影响并不严重,所以,本发明提出的方法虽然在ETHZ数据库上的鉴识率比在VIPeR和PRID数据库上的都高,且与对比算法相比有特别大的提高,这也恰好证明了本发明提出的方法对于实际的行人再鉴识环境中光照、角度和姿态等因素的变化具有更强的鲁棒性和适应性。

(二)时间复杂度分析

特征稀疏表示多字典对学习行人再鉴识法训练时间相对较长,达到了21分钟,这主要是和算法的求解过程有着密切的联系,由于使用的是稀疏表示的字典学习方法,因此不可避免的要进行迭代求解,造成时间复杂度相对较大。但从该算法的鉴识率来看,能够在三个数据库中最多提高8.49%至10.23%。因此,其时间复杂度是可以接受的。

由于行人再鉴识问题的特殊性,即不同的摄像头之间由于光照、视角和姿态等因素的影响,使得同一个行人也存在着差异。因此,本发明提出特征稀疏表示多字典对学习行人再鉴识法,该算法将不同种类的特征进行分别考虑,但是,同时也考虑到了相同种类的特征在不同摄像头中所包含的差异。所以,本发明通过稀疏表示为每个摄像头中的每一种特征学习一个字典,稀疏表示的目的是学习一个字典,同时能够从这个字典中到一组字典原子的稀疏线性组合来表示观察到的图像或图像特征,利用耦合字典对特征信息的恢复能力进行行人再鉴识的,由于该方法能够同时考虑摄像头之间和不同特征之间的差异,使得该算法的鉴识率明显优于对比算法。

本文发布于:2024-09-22 22:29:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/73128.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议