对象识别方法及装置和移动对象重识别方法图像检索方法与流程

1.本技术涉及但不限于计算机技术，尤指一种对象识别方法及装置和移动对象重识别方法及图像检索方法。

背景技术：

2.随着行人重识别技术的大量应用，摄像头安装得越来越密集。通常，摄像头会拍摄到平视视角图像，一些安装在特殊位置的摄像头则会拍摄到俯视视角的图像。
3.俯视视角人体图像和平视视角人体图像差别很大，相关技术中的行人重识别方法集中于对平视视角图像的识别，没有针对俯视视角下的图像的识别。这样，势必会降低匹配精度，进而降低识别结果的性能。

技术实现要素：

4.本技术提供一种对象识别方法及装置和移动对象重识别方法及图像检索方法，能够提升识别性能。
5.本发明实施例提供了一种对象识别方法，包括：
6.利用自注意力机制提取待识别图像的图像特征；
7.对提取的图像特征中的一层第一特征和至少一层第二特征进行融合；其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；
8.对融合后的特征进行特征重建，以对待识别图像进行识别。
9.在一种示例性实例中，还包括：
10.利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型；将所述待识别图像输入训练好的对象识别模型。
11.在一种示例性实例中，所述利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型，包括：
12.将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；
13.对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
14.在一种示例性实例中，所述利用交互注意力机制提取初始的图像特征包括：通过嵌入所述交互注意力机制的特征提取器实现。
15.在一种示例性实例中，所述交互注意力机制处理过程嵌入在所述特征提取器的不同卷积层之间。
16.在一种示例性实例中，所述对初始的图像特征进行多尺度注意力特征重建，包括：
17.对提取的所述初始图像特征中的一层第一特征和至少一层第二特征进行融合；
18.对融合后的样本特征进行特征重建得到所述当前样本图像的图像特征。
19.在一种示例性实例中，所述对融合后的样本特征进行特征重建得到所述当前样本图像的图像特征，包括：
20.对所述融合后的样本特征进行特征重建得到图像特征；
21.所述重建得到的图像特征进行池化和归一化处理后得到所述当前样本图像的图像特征，利用损失函数约束当前样本图像的图像特征。
22.在一种示例性实例中，所述损失函数包括：中心损失函数，圆损失函数。
23.在一种示例性实例中，所述一层第一特征包括所述提取的图像特征中的最高层特征；所述至少一层第二特征包括至少一层除最高层特征之外的低层特征。
24.本技术实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述对象识别方法。
25.本技术实施例还提供一种实现对象识别的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的线上场景中实现随想识别的方法的步骤。
26.本技术实施例又提供一种对象识别模型训练方法，包括：
27.将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；
28.对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
29.本技术实施例还提供一种对象识别装置，包括：第一提取模块、交互处理模块、重建模块；其中，
30.第一提取模块，用于利用自注意力机制提取待识别图像的图像特征；
31.交互处理模块，用于对提取的图像特征中的一层第一特征和至少一层第二特征进行融合；其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；
32.重建模块，用于对融合后的特征进行特征重建，以对待识别图像进行识别。
33.在一种示例性实例中，还包括：训练模块，用于利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型；
34.所述第一提取模块还用于：将所述待识别图像输入对象识别模型。
35.在一种示例性实例中，所述训练模块第二提取模块、处理模块；其中，
36.第二提取模块，用于将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；
37.处理模块，用于对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
38.本技术实施例再提供一种移动对象重识别方法，包括：
39.利用自注意力机制提取待识别图像的图像特征；
40.对提取的图像特征中的一层第一特征和至少一层第二特征进行融合；其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；
41.对融合后的特征进行特征重建，以对待识别图像进行移动对象重识别。
42.在一种示例性实例中，还包括：
43.利用交互注意力机制和多尺度注意力特征重建过程训练所述移动对象重识别模型；将所述待识别图像输入训练好的移动对象重识别模型。
44.在一种示例性实例中，所述利用交互注意力机制和多尺度注意力特征重建过程训练移动对象重识别模型，包括：
45.将包括当前样本图像和与当前样本图像中的移动对象相同的一个以上样本图像输入预先设置的移动对象重识别模型，利用交互注意力机制提取初始图像特征；
46.对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
47.本技术实施例还提供一种图像检索方法，包括：
48.利用自注意力机制提取待检索图像的图像特征；
49.对提取的图像特征中的一层第一特征和至少一层第二特征进行融合，其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；
50.对融合后的多尺度注意力特征进行特征重建，以对待检索图像进行检索。
51.在一种示例性实例中，还包括：利用交互注意力机制和多尺度注意力特征重建过程训练图像检索模型；将待检索图像输入图像检索模型。
52.在一种示例性实例中，所述利用交互注意力机制和多尺度注意力特征重建过程训练图像检索模型，包括：
53.将包括当前样本图像和与当前样本图像中的检索图像相同的一个以上样本图像输入预先设置的图像检索模型，利用交互注意力机制提取初始图像特征；对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
54.通过本技术实施例提供的对象识别方法，在含有俯视视角图像的数据集中对对象进行识别的结果性能明显提升，同时，本技术实施例提供的对象识别方法也能在常用的针对包含平视视角图像的对象识别处理中达到很好的识别效果。
55.本技术实施例提供的对象识别模型训练方法，在训练对象识别模型的过程中，一方面，通过交互注意力机制实现了将包含同一对象的不同图片联系起来，激活了俯视视角图像和平视视角图像中的相似区域，使得网络能够关注两者共有的身体部位，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。另一方面，通过多尺度注意力特征重建处理，融合了高层特征的语义信息和低层特征的细粒度信息，保证了输出的特征中更好的保持了低层细粒度信息，增强了输出特征的判别性，为对象识别的准确性提供了保障。
56.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
57.附图用来提供对本技术技术方案的进一步理解，并且构成说明书的一部分，与本技术的实施例一起用于解释本技术的技术方案，并不构成对本技术技术方案的限制。
58.图1为本技术实施例中对象识别方法的流程示意图；
59.图2为本技术实施例中对象识别模型训练方法的流程示意图；
60.图3为本技术实施例中对象识别装置的组成结构示意图；
61.图4为本技术实施例中移动对象重识别方法的流程示意图；
62.图5(a)为本技术实施例中车辆重识别应用场景的示意图；
63.图5(b)为本技术实施例中行人重识别应用场景的示意图。
具体实施方式
64.为使本技术的目的、技术方案和优点更加清楚明白，下文中将结合附图对本技术的实施例进行详细说明。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互任意组合。
65.在本技术一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
66.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
67.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
68.在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
69.图1为本技术实施例中对象识别方法的流程示意图，如图1所示，包括：
70.步骤100：利用自注意力机制提取待识别图像的图像特征。
71.在一种示例性实例中，还包括：将待识别图像输入对象识别模型。对象识别模型是预先利用交互注意力机制和多尺度注意力特征重建过程训练得到的；多尺度注意力特征包括提取的图像特征中的一层包括语义信息的第一特征如最高层特征和至少一层包括细粒度信息的第二特征如除最高层特征之外的至少一层低层特征。
72.在一种示例性实例中，本步骤之前还可以包括：利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型。
73.在一种示例性实例中，如图2所示，利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型，可以包括：
74.步骤200：将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征。
75.在一种示例性实例中，当前样本图像是网络不同阶段输出的图像特征，这个图像特征有多个，这里，初始图像特征是指经过池化和归一化后的最后一层图像特征，是一个能直接代表当前样本图像的一个图像特征。
76.步骤201：对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
77.在一种示例性实例中，与当前样本图像中的对象相同(如与当前样本图像id相同)的一个以上样本图像可以是如：与当前样本图像中的行人身份相同的一个以上与当前样本
图像不同的样本图像。id相同意味着图像中的对象是同一个对象。
78.在一种示例性实例中，可以通过公式(1)实现步骤200中的利用交互注意力机制提取初始图像特征：
[0079][0080]
公式(1)中，是样本xi在网络第l层输出的特征图，分别是特征图的线性变换，dk是的尺寸；j是一个训练小批次内和样本xi的id相同的图像集合，是样本xj在网络第l层输出的特征图的线性变换；soft()是归一化指数函数(softmax函数)，α为待学习的超参；t是矩阵转置。
[0081]
本技术实施例中，与自注意力机制在一张图片内进行激活不同，交互注意力机制中，使用与当前图像id(如行人身份)相同的不同于当前图像的其他图像与当前图像进行交互激活，这样，能够激活当前样本图像和相同id的其他样本图像的相似像素或区域，强迫对象识别模型的训练专注于当前样本图像和与其id相同的其他样本图像这二者共有的部位(如行人的身体部分)，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。
[0082]
在一种示例性实例中，利用交互注意力机制提取初始的图像特征可以通过嵌入交互注意力机制的特征提取器来实现，特征提取器的输出是一个多尺度的特征图组合，仍以resnet50为例，多尺度特征图组合包含网络stage2、stage3和stage4输出的特征图。
[0083]
在一种示例性实例中，交互注意力机制处理过程可以嵌入在特征提取器的不同卷积层之间，比如：以具有50层的残差网络(resnet50)为例，可以在第3个卷积组(stage2)和第4个卷积组(stage3)分别嵌入2个和3个交互注意力机制处理过程。
[0084]
在一种示例性实例中，步骤201中的对初始的图像特征进行多尺度注意力特征重建，可以包括：
[0085]
对提取的初始图像特征中的一层包括语义信息的第一特征如最高层特征和至少一层包括细粒度信息的第二特征如至少一层除最高层之外的低层特征进行融合即交互计算；
[0086]
对融合后的特征进行特征重建得到当前样本图像的图像特征。
[0087]
在一种示例性实例中，交互计算就是融合初始图像特征中的最高层特征(即最后一层特征)和至少一层低层特征(即最高层之前的一层或任意组合层的特征)以得到融合后的特征，这样，融合得到的特征含有较低某一层特征或较低的多层特征的特征(可称为多尺度注意力特征)，融合了高层特征的语义信息和低层特征的细粒度信息，增强了输出特征的判别性。
[0088]
在一种示例性实例中，可以通过公式(2)，对提取的初始图像特征中的最高层特征和至少一层低层特征进行交互计算得到多尺度注意力特征：
[0089]
[0090]
公式(2)中，是样本xi在网络第l层输出的特征图，是样本xi在网络第(l-t)层输出的特征图，是特征图的线性变换，分别是特征图的线性变换，t是矩阵转置，dk是的尺寸。
[0091]
本技术实施例中，高层特征图通常包括语义信息，以行人重识别为例，高层特征图包括俯视视角图像中的头部、肩部等信息，低层特征图通常包含图像细粒度的信息，如头、肩的细节信息等。本技术实施例中的多尺度注意力融合处理，通过对高层特征图和低层特征图的交互计算，保证了输出的特征中更好的保持了低层细粒度信息，为对象识别的准确性提供了保障。
[0092]
在一种示例性实例中，可以通过公式(3)，对交互计算后的多尺度注意力特征进行特征重建得到图像特征fi；对重建得到的图像特征fi进行池化和归一化处理后得到最终的全局特征得到当前样本图像的图像特征，利用损失函数约束当前样本图像的图像特征。
[0093][0094]
公式(3)中，n是初始的图像特征包括的特征图个数即嵌入交互注意力机制的特征提取器输出的特征图个数，β
t
是待学习的超参。通过对超参β
t
的学习，可以调节对象识别模型对不同特征层的依赖，缓解俯视视角下俯视视角图像中的自遮挡(如人体的自遮挡)的问题，从而增强输出特征的判别性。
[0095]
在一种示例性实例中，损失函数还可以包括但不限于如：中心损失函数(center loss)，圆损失函数(circle loss)等。以行人重识别场景为例，可以采用如triplet损失和id损失对特征重建后得到的图像特征进行约束。
[0096]
本技术实施例中，在训练对象识别模型的过程中，一方面，通过交互注意力机制实现了将包含同一对象(如一个身份行人)的不同图片联系起来，激活了俯视视角图像和平视视角图像中的相似区域，使得强迫网络关注了两者共有的身体部位，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。另一方面，通过多尺度注意力特征重建处理，融合了高层特征的语义信息和低层特征的细粒度信息，保证了输出的特征中更好的保持了低层细粒度信息，增强了输出特征的判别性，为对象识别的准确性提供了保障。
[0097]
在一种示例性实例中，与对象识别模型训练过程中使用结合交互注意力机制的特征提取器不同的是，步骤100的具体实现采用嵌入自注意力机制的特征提取器来提取输入对象识别模型的待识别图像的图像特征，比如可以按照如通过公式(4)来实现：
[0098][0099]
公式(4)中，是待识别图像yi在网络第l层输出的特征图，分别是特征图的线性变换，dk是的尺寸；soft()是归一化指数函数(softmax函数)；t是矩阵转置。
[0100]
步骤101：对提取的图像特征中的一层第一特征和至少一层第二特征进行融合，其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征。
[0101]
在一种示例性实例中，可以融合提取的图像特征中的最高层特征(即最后一层特
征)和至少一层低层特征(即最高层之前的一层或任意组合层的特征)，也就是对提取的图像特征中的最高层特征(即最后一层特征)和至少一层低层特征(即最高层之前的一层或任意组合层的特征)进行交互计算得到多尺度注意力特征，这样，得到的特征含有较低某一层特征或较低的多层特征的多尺度注意力特征，融合了高层特征的语义信息和低层特征的细粒度信息，增强了输出特征的判别性。
[0102]
在一种示例性实例中，步骤101可以通过上文中的公式(2)来实现，此时，公式(2)中的是待识别图像的图像在网络第l层输出的特征图，是待识别图像的图像在网络第(l-t)层输出的特征图。高层特征图通常包括语义信息，以行人重识别为例，高层特征图包括俯视视角图像中的头部、肩部等信息，低层特征图通常包含图像细粒度的信息，如头、肩的细节信息等。本技术实施例中的多尺度注意力融合处理，通过对高层特征图和低层特征图的交互计算，保证了输出的特征中更好的保持了低层细粒度信息，为对象识别的准确性提供了保障。
[0103]
步骤102：对融合后的特征进行特征重建，以对待识别图像进行识别。
[0104]
在一种示例性实例中，可以通过上文中的公式(3)，对交互计算后的多尺度注意力特征进行特征重建得到待识别图像的图像特征fi。此时，公式(3)中的，是待识别图像的图像在网络第l层输出的特征图，是待识别图像的图像在网络第(l-t)层输出的特征图。
[0105]
通过本技术实施例提供的对象识别方法，在含有俯视视角图像的数据集中对对象进行识别的结果性能明显提升，同时，本技术实施例提供的对象识别方法也能在常用的针对包含平视视角图像的对象识别处理中达到很好的识别效果。
[0106]
对于包括有安装在特殊位置的摄像头以拍摄俯视视角的图像的应用场景，通过本技术实施例提供的对象识别方法，明显提升了对象识别的性能。以移动对象重识别如车辆重识别为例，在保持对平视视角图像的识别精度高的情况下，明显提高了对俯视视角图像下车辆重识别的精度，明显提升了实际应用场景如收费站、加油站处俯视视角摄像头下车辆重识别的性能，改善了在实际应用场景的应用效果。
[0107]
本技术实施例提供的对象识别方法可以应用于如车辆重识别、图像检索、计算机视觉处理、行人重识别、安防、新零售等场景。
[0108]
本技术还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行图1任一项所述的对象识别方法。
[0109]
本技术再提供一种实现对象识别的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行图1任一项所述的对象识别方法的步骤。
[0110]
本技术实施例还提供一种对象识别模型训练方法，包括：
[0111]
将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
[0112]
对象识别模型训练方法的具体实现可以如图2所述，这里不再赘述。
[0113]
本技术实施例提供的对象识别模型训练方法，在训练对象识别模型的过程中，一方面，通过交互注意力机制实现了将包含同一对象(如一个身份行人)的不同图片联系起
来，激活了俯视视角图像和平视视角图像中的相似区域，使得强迫网络关注了两者共有的身体部位，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。另一方面，通过多尺度注意力特征重建处理，融合了高层特征的语义信息和低层特征的细粒度信息，保证了输出的特征中更好的保持了低层细粒度信息，增强了输出特征的判别性，为对象识别的准确性提供了保障。
[0114]
图3为本技术实施例中对象识别装置的组成结构示意图，如图3所示，至少包括：第一提取模块、交互处理模块、重建模块；其中，
[0115]
第一提取模块，用于利用自注意力机制提取待识别图像的图像特征；
[0116]
交互处理模块，用于对提取的图像特征中的一层第一特征和至少一层第二特征进行融合，其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；
[0117]
重建模块，用于对融合后的特征进行特征重建，以对待识别图像进行识别。
[0118]
在一种示例性实例中，第一提取模块具体可以用于：按照公式(4)，采用嵌入自注意力机制的特征提取器来提取输入对象识别模型的待识别图像的图像特征。
[0119]
在一种示例性实例中，交互处理模块具体可以用于：按照公式(2)，对提取的图像特征中的最高层特征(即最后一层特征)和至少一层低层特征(即最高层之前的一层或任意组合层的特征)进行交互计算，得到多尺度注意力特征。
[0120]
在一种示例性实例中，重建模块具体可以用于：按照公式(3)，对交互计算后的多尺度注意力特征进行特征重建得到待识别图像的图像特征fi。
[0121]
在一种示例性实例中，对象识别装置还可以包括：训练模块，用于利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型；
[0122]
所述第一提取模块还用于：将所述待识别图像输入对象识别模型。
[0123]
通过本技术实施例提供的对象识别装置，在含有俯视视角图像的数据集中对对象进行识别的结果性能明显提升，同时，本技术实施例提供的对象识别方法也能在常用的针对包含平视视角图像的对象识别处理中达到很好的识别效果。
[0124]
对于包括有安装在特殊位置的摄像头以拍摄俯视视角的图像的应用场景，采用本技术实施例提供的对象识别装置，明显提升了对象识别的性能。以行人重识别为例，在保持对平视视角图像的识别精度高的情况下，明显提高了对俯视视角图像下行人重识别的精度，明显提升了实际应用如商场、超市中俯视视角摄像头下行人重识别的性能，改善了在实际应用场景的应用效果。
[0125]
在一种示例性实例中，训练模块可以包括：第二提取模块、处理模块；其中，
[0126]
第二提取模块，用于将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；
[0127]
处理模块，用于对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
[0128]
在一种示例性实例中，第二提取模块具体可以用于：按照公式(1)，利用交互注意力机制提取初始图像特征。
[0129]
交互注意力机制中，使用与当前图像id(如车辆车牌、行人身份等)相同的不同于当前图像的其他图像与当前图像进行交互激活，这样，能够激活当前样本图像和相同id的其他样本图像的相似像素或区域，强迫对象识别模型的训练专注于当前样本图像和与其id
相同的其他样本图像这二者共有的部位(如车辆或行人的身体部分)，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。
[0130]
在一种示例性实例中，利用交互注意力机制提取初始的图像特征可以通过嵌入交互注意力机制的特征提取器来实现，特征提取器的输出是一个多尺度的特征图组合，仍以resnet50为例，多尺度特征图组合包含网络stage2、stage3和stage4输出的特征图。
[0131]
在一种示例性实例中，交互注意力机制处理过程可以嵌入在特征提取器的不同卷积层之间，比如：以具有50层的残差网络(resnet50)为例，可以在第3个卷积组(stage2)和第4个卷积组(stage3)分别嵌入2个和3个交互注意力机制处理过程。
[0132]
在一种示例性实例中，处理模块具体可以用于：对提取的初始图像特征中的最高层特征和至少一层低层特征进行交互计算获取多尺度注意力特征；对交互计算后的多尺度注意力特征进行特征重建得到当前样本图像的图像特征。
[0133]
在一种示例性实例中，处理模块中的进行交互计算获取多尺度注意力特征可以包括：通过公式(2)，对提取的初始图像特征中的最高层特征和至少一层低层特征进行交互计算得到多尺度注意力特征。
[0134]
在一种示例性实例中，处理模块中的对交互计算后的多尺度注意力特征进行特征重建，以对待识别图像进行识别，可以包括：
[0135]
通过公式(3)，对交互计算后的多尺度注意力特征进行特征重建得到图像特征fi；对重建得到的图像特征fi进行池化和归一化处理后得到最终的全局特征得到当前样本图像的图像特征，再利用损失函数约束当前样本图像的图像特征。
[0136]
本技术实施例提供的对象识别装置在训练对象识别模型的过程中，一方面，通过交互注意力机制实现了将包含同一对象(如同一车牌的车辆或同一个身份行人)的不同图片联系起来，激活了俯视视角图像和平视视角图像中的相似区域，使得强迫网络关注了两者共有的身体部位，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。另一方面，通过多尺度注意力特征重建处理，融合了高层特征的语义信息和低层特征的细粒度信息，保证了输出的特征中更好的保持了低层细粒度信息，增强了输出特征的判别性，为对象识别的准确性提供了保障。
[0137]
图4为本技术实施例中移动对象重识别方法的流程示意图，如图4所示，包括：
[0138]
步骤400：利用自注意力机制提取待识别图像的图像特征。
[0139]
步骤401：对提取的图像特征中的一层第一特征和至少一层第二特征进行融合，其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征。
[0140]
步骤402：对融合后的特征进行特征重建，以对待识别图像进行移动对象重识别。
[0141]
在一种示例性实例中，移动对象重识别方法还包括：利用交互注意力机制和多尺度注意力特征重建过程训练移动对象重识别模型；将所述待识别图像输入训练好的移动对象重识别模型。
[0142]
在一种示例性实例中，利用交互注意力机制和多尺度注意力特征重建过程训练移动对象重识别模型，可以包括：
[0143]
将包括当前样本图像和与当前样本图像中的移动对象相同的一个以上样本图像输入预先设置的移动对象重识别模型，利用交互注意力机制提取初始图像特征；对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
[0144]
在一种示例性实例中，交互注意力机制处理过程可以嵌入在特征提取器的不同卷积层之间，比如以resnet50为例，可以在stage2和stage3分别嵌入2个和3个交互注意力机制处理过程。
[0145]
在一种示例性实例中，对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征，可以包括：
[0146]
对提取的初始图像特征中的最高层特征和至少一层低层特征进行交互计算获取多尺度注意力特征；对交互计算后的多尺度注意力特征进行特征重建，并采用损失函数对重建得到的图像特征进行池化和归一化处理后得到最终的全局特征即得到当前样本图像的图像特征。
[0147]
在一种示例性实例中，移动对象可以包括但不限于如：车辆、行人等。
[0148]
本技术实施例提供的移动对象重识别方法的训练移动对象重识别模型的过程中，一方面，通过交互注意力机制实现了将包含同一个身份移动对象的不同图片联系起来，激活了俯视视角图像和平视视角图像中的相似区域，使得强迫网络关注了两者共有的身体部位，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助。另一方面，通过多尺度注意力特征重建处理，融合了高层特征的语义信息和低层特征的细粒度信息，保证了输出的特征中更好的保持了低层细粒度信息，增强了输出特征的判别性，为移动对象重识别的准确性提供了保障。
[0149]
通过本技术实施例提供的移动对象重识别方法，在含有俯视视角图像的数据集中对移动对象重识别的结果性能明显提升，同时，本技术实施例提供的移动对象重识别方法也能在常用的针对包含平视视角图像的移动对象重识别处理中达到很好的识别效果。
[0150]
对于包括有安装在特殊位置的摄像头以拍摄俯视视角的图像的移动对象重识别应用场景，采用本技术实施例提供的移动对象重识别方法，明显提升了移动对象重识别的性能。在保持对平视视角图像的识别精度高的情况下，明显提高了对俯视视角图像下移动对象重识别的精度，明显提升了实际应用场景如车辆收费站、车辆加油站、商场、超市中俯视视角摄像头下移动对象如车辆、行人重识别的性能，改善了在实际应用场景的应用效果。
[0151]
图5(a)为本技术实施例中车辆重识别应用场景的示意图，图5(a)上半部分展示了车辆重识别模型的训练过程，在车辆重识别模型训练过程中，将包括当前样本图像和与当前样本图像中的车辆相同的一个以上样本图像输入预先设置的对象识别数学模型，利用嵌入交互注意力机制的特征提取器提取初始图像特征，然后对初始的图像特征进行多尺度注意力特征重建，并采用损失函数对重建得到的图像特征进行池化和归一化处理后得到最终的全局特征即得到当前样本图像的图像特征。本实施例中，一方面，采用交互注意力机制，使用与当前图像中车辆车牌相同的不同于当前图像的其他图像与当前图像进行交互激活，这样，能够激活当前样本图像和相同id的其他样本图像的相似像素或区域，强迫车辆重识别模型的训练专注于当前样本图像和与其id相同的其他样本图像这二者共有的部位，比如车辆的身体部分，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助；另一方面，高层特征图通常包括语义信息，高层特征图包括俯视视角图像中的车顶、车头等信息，低层特征图通常包含图像细粒度的信息，如车头、车顶的细节信息等。本技术实施例中的多尺度注意力融合处理，通过对高层特征图和低层特征图的交互计算，保证了输出的特征中更好的保持了低层细粒度信息，为车辆重识别的准确性提供了保障。
[0152]
图5(a)下半部分展示了车辆重识别过程，在车辆重识别过程中，将待识别图像输入对象识别模型，利用自注意力机制提取待识别图像的图像特征；对提取的图像特征中的最高层特征和至少一层低层特征进行交互计算得到多尺度注意力特征；对交互计算后的多尺度注意力特征进行特征重建，以对待识别图像进行识别。这样，在含有俯视视角图像的数据集中对车辆重识别的结果性能明显提升，同时，本技术实施例提供的车辆重识别方法也能在常用的针对包含平视视角图像的车辆重识别处理中达到很好的识别效果。对于包括有安装在特殊位置的摄像头以拍摄俯视视角的图像的车辆重识别应用场景，采用本技术实施例提供的车辆重识别方法，明显提升了车辆重识别的性能。在保持对平视视角图像的识别精度高的情况下，明显提高了对俯视视角图像下车辆重识别的精度，明显提升了实际应用场景如收费站、加油站处俯视视角摄像头下车辆重识别的性能，改善了在实际应用场景的应用效果。
[0153]
图5(b)为本技术实施例中行人重识别应用场景的示意图，图5(b)上半部分展示了行人重识别模型的训练过程，在行人重识别模型训练过程中，将包括当前样本图像和与当前样本图像中的行人相同的一个以上样本图像输入预先设置的对象识别数学模型，利用嵌入交互注意力机制的特征提取器提取初始图像特征，然后对初始的图像特征进行多尺度注意力特征重建，并采用损失函数对重建得到的图像特征进行池化和归一化处理后得到最终的全局特征即得到当前样本图像的图像特征。本实施例中，一方面，采用交互注意力机制，使用与当前图像中行人身份相同的不同于当前图像的其他图像与当前图像进行交互激活，这样，能够激活当前样本图像和相同id的其他样本图像的相似像素或区域，强迫行人重识别模型的训练专注于当前样本图像和与其id相同的其他样本图像这二者共有的部位，比如行人的身体部分，为提取俯视视角图像和平视视角图像共有的细粒度信息提供了很大帮助；另一方面，高层特征图通常包括语义信息，高层特征图包括俯视视角图像中的头部、肩部等信息，低层特征图通常包含图像细粒度的信息，如头、肩的细节信息等。本技术实施例中的多尺度注意力融合处理，通过对高层特征图和低层特征图的交互计算，保证了输出的特征中更好的保持了低层细粒度信息，为行人重识别的准确性提供了保障。
[0154]
图5(b)下半部分展示了行人重识别过程，在行人重识别过程中，将待识别图像输入对象识别模型，利用自注意力机制提取待识别图像的图像特征；对提取的图像特征中的最高层特征和至少一层低层特征进行交互计算得到多尺度注意力特征；对交互计算后的多尺度注意力特征进行特征重建，以对待识别图像进行识别。这样，在含有俯视视角图像的数据集中对行人重识别的结果性能明显提升，同时，本技术实施例提供的行人重识别方法也能在常用的针对包含平视视角图像的行人重识别处理中达到很好的识别效果。对于包括有安装在特殊位置的摄像头以拍摄俯视视角的图像的行人重识别应用场景，采用本技术实施例提供的行人重识别方法，明显提升了行人重识别的性能。在保持对平视视角图像的识别精度高的情况下，明显提高了对俯视视角图像下行人重识别的精度，明显提升了实际应用场景如商场、超市中俯视视角摄像头下行人重识别的性能，改善了在实际应用场景的应用效果。
[0155]
本技术实施例还提供过一种图像检索方法，包括：
[0156]
利用自注意力机制提取待检索图像的图像特征；对提取的图像特征中的一层第一特征和至少一层第二特征进行融合，其中，第一特征为包括语义信息的特征，第二特征为包
括细粒度信息的特征；对融合后的特征进行特征重建，以对待检索图像进行检索。
[0157]
在一种示例性实例中，图像检索方法还可以包括：利用交互注意力机制和多尺度注意力特征重建过程训练图像检索模型；将待检索图像输入图像检索模型。
[0158]
在一种示例性实例中，利用交互注意力机制和多尺度注意力特征重建过程训练图像检索模型，可以包括：
[0159]
将包括当前样本图像和与当前样本图像中的检索图像相同的一个以上样本图像输入预先设置的图像检索模型，利用交互注意力机制提取初始图像特征；对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。
[0160]
在一种示例性实例中，对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征，可以包括：
[0161]
对提取的初始图像特征中的最高层特征和至少一层低层特征进行交互计算获取多尺度注意力特征；对交互计算后的多尺度注意力特征进行特征重建，并采用损失函数对重建得到的图像特征进行池化和归一化处理后得到最终的全局特征得到当前样本图像的图像特征。
[0162]
虽然本技术所揭露的实施方式如上，但所述的内容仅为便于理解本技术而采用的实施方式，并非用以限定本技术。任何本技术所属领域内的技术人员，在不脱离本技术所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本技术的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

技术特征：

1.一种对象识别方法，包括：利用自注意力机制提取待识别图像的图像特征；对提取的图像特征中的一层第一特征和至少一层第二特征进行融合；其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；对融合后的特征进行特征重建，以对待识别图像进行识别。2.根据权利要求1所述的对象识别方法，还包括：利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型；将所述待识别图像输入训练好的对象识别模型。3.根据权利要求2所述的对象识别方法，其中，所述利用交互注意力机制和多尺度注意力特征重建过程训练对象识别模型，包括：将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。4.根据权利要求3所述的对象识别方法，其中，所述利用交互注意力机制提取初始的图像特征包括：通过嵌入所述交互注意力机制的特征提取器实现。5.根据权利要求4所述的对象识别方法，其中，所述交互注意力机制处理过程嵌入在所述特征提取器的不同卷积层之间。6.根据权利要求3所述的对象识别方法，其中，所述对初始的图像特征进行多尺度注意力特征重建，包括：对提取的所述初始图像特征中的一层第一特征和至少一层第二特征进行融合；对融合后的样本特征进行特征重建得到所述当前样本图像的图像特征。7.根据权利要求6所述的对象识别方法，其中，所述对融合后的样本特征进行特征重建得到所述当前样本图像的图像特征，包括：对所述融合后的样本特征进行特征重建得到图像特征；所述重建得到的图像特征进行池化和归一化处理后得到所述当前样本图像的图像特征，利用损失函数约束当前样本图像的图像特征。8.根据权利要求7所述的对象识别方法，其中，所述损失函数包括：中心损失函数，圆损失函数。9.根据权利要求1～8任一项所述的对象识别方法，其中，所述一层第一特征包括所述提取的图像特征中的最高层特征；所述至少一层第二特征包括至少一层除最高层特征之外的低层特征。10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求9任一项所述对象识别方法。11.一种实现对象识别的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求9任一项所述的线上场景中实现随想识别的方法的步骤。12.一种对象识别模型训练方法，包括：将包括当前样本图像和与当前样本图像中的对象相同的一个以上样本图像输入预先设置的对象识别模型，利用交互注意力机制提取初始图像特征；
对初始的图像特征进行多尺度注意力特征重建得到当前样本图像的图像特征。13.一种移动对象重识别方法，包括：利用自注意力机制提取待识别图像的图像特征；对提取的图像特征中的一层第一特征和至少一层第二特征进行融合；其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；对融合后的特征进行特征重建，以对待识别图像进行移动对象重识别。14.一种图像检索方法，包括：利用自注意力机制提取待检索图像的图像特征；对提取的图像特征中的一层第一特征和至少一层第二特征进行融合，其中，第一特征为包括语义信息的特征，第二特征为包括细粒度信息的特征；对融合后的多尺度注意力特征进行特征重建，以对待检索图像进行检索。

技术总结

本申请公开了一种对象识别方法及装置和移动对象重识别方法及图像检索方法，在含有俯视视角图像的数据集中对对象进行识别的结果性能明显提升，同时，本申请实施例提供的对象识别方法也能在常用的针对包含平视视角图像的对象识别处理中达到很好的识别效果。的对象识别处理中达到很好的识别效果。的对象识别处理中达到很好的识别效果。