基于文本描述的跨领域人物搜索方法

1.本发明涉及计算机识别技术领域，更具体的，涉及一种基于文本描述的跨领域人物搜索方法。

背景技术：

2.得益于深度学习的快速发展，计算机视觉领域也取得了长足的进步。然而深度学习模型的训练大多依赖巨量的标注数据以达到理想的训练效果，这无疑制约着深度学习的广泛应用。为了解决这个问题，领域自适应试图将模型从富于标注数据的领域迁移(源领域)到缺乏标注数据的领域(目标领域)，从而解决此问题。基于文本描述的人物搜索任务旨在通过描述性文本查询图像库中检索与文本描述相吻的目标人物。解决这样一个细粒度的跨模式检索任务本就极具挑战性，由于缺乏大规模数据集，这一任务进一步受到阻碍。因此考虑采用领域自适应解决该问题。
3.基于文本描述的人物搜索是一种具有挑战性的任务，因为其需要精确捕捉细粒度的特征进行识别，比如人物的穿的衣服、戴的饰品等。
4.按照模型的个数划分，目前的工作主要分为两种方法：(1)单流模型：将图像和文本同时输入到一个模型中，然后计算并比对两者的匹配程度，根据匹配程度的高低选出返回结果。(2)双流模型：将图像和文本分别输入到两个模型中，得到图像的语义信息和文本的语义信息，然后计算匹配分数来得出返回结果。
5.若按照匹配区域划分，目前的工作可大致分为两类：(1)全局匹配法：通过卷积神经网络获取图像和文本的全局特征然后进行匹配，某些工作会将图像和文本嵌入到共享的图像-文本空间。(2)局部匹配法：专注于图像和文本的局部特征以捕捉细微但具有辨别度的语义信息。
6.领域自适应主要有三种不同的方法：(1)样本自适应：这种方法的基本思想是对源域样本进行重采样，从而使得重采样后的源域样本特征分布与目标域样本特征分布趋于相同，在重采样的样本集合上重新学习分类器。这种方法适用于源域和目标域分布差异小的情况。(2)特征自适应：其基本思想是将源域和目标域中的样本特征投射到公共特征空间，并学习公共的特征表示。在公共特征空间，源域和目标域的分布要尽可能相同。这种方法适用于对源域和目标域有一定差异的情况。(3)模型自适应：其基本思想是直接在模型层面进行自适应。模型自适应的方法有两种思路，一是直接建立模型，但是在模型中加入“域间距离近”的约束；二是采用迭代的方法，渐进地对目标域的样本进行分类，将信度高的样本加入训练集，并更新模型。这种方法适用于源域和目标域差异比较大的情况。
7.由于巨大的标注成本，基于文本描述的人物搜索缺少大量的标注样本用于训练，而领域自适应正契合其正面临的问题。目前为止，尚未发现有将领域自适应应用到基于文本描述的人物搜索问题中的相关工作。
8.因此现有技术主要存在的问题如下：基于文本描述的人物搜索是一个细粒度的跨模式检索任务，其数据集的标注工作是复杂且繁琐的，因此缺乏大规模数据集供相关模型
训练，从而导致基于文本描述检索效果很差。在缺乏数据的情况下，当前缺少可以使检索模型具有跨数据集有效性的方法。

技术实现要素：

9.本发明为了解决以上现有技术存在的不足与缺陷的问题，提供了一种基于文本描述的跨领域人物搜索方法，其缺乏数据的情况下，能具有跨领域人物搜索能力。
10.为实现上述本发明目的，采用的技术方案如下：
11.一种基于文本描述的跨领域人物搜索方法，所述的方法包括步骤如下：
12.构建基于文本描述的跨领域人物搜索网络模型，所述的跨领域人物搜索网络模型包括用于提取图像特征的图像特征提取器、用于提取文本特征的文本特征提取器、用于梯度下降的第一梯度反转层、用于梯度下降的第二梯度反转层、图像域分类器、文本域分类器；
13.所述的图像特征提取器通过第一梯度反转层将提取到的图像特征输入图像域分类器；
14.所述的图像域分类器对图像特征处理得到图像域标签，并根据图像域标签计算图像域分类损失；
15.所述的文本特征提取器通过第二梯度反转层将提取到的文本特征输入文本域分类器；
16.所述的文本域分类器对文本特征处理得到文本域标签，并根据文本域标签计算文本域分类损失；
17.利用训练好的跨领域人物搜索网络模型对目标域进行基于文本描述的人物搜索。
18.优选地，具体训练跨领域人物搜索网络模型的方法如下：
19.将源域样本和目标域样本同时输入跨领域人物搜索网络模型进行训练；
20.对于包含一张图片及其描述文本段的源域样本，在源域样本输入跨领域人物搜索网络模型之后获得第一图像特征和第一文本特征，计算第一图像特征和第一文本特征的对比损失，使得匹配的图像特征和文本段的特征对比损失小于第一阈值；
21.同时将第一图像特征和第一文本特征分别经过梯度反转层输入到图像域分类器和文本域分类器得到第一图像域标签和第一文本域标签，分别计算第一图像域分类损失、第一文本域分类损失，然后进行梯度下降，更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的网络参数，实现最大化源域样本的第一图像域分类损失和第一文本域分类损失；
22.对于目标域样本，在输入跨领域人物搜索网络模型之后得到第二图像特征和第二文本特征，直接将第二图像特征和第二文本特征分别经过梯度反转层输入到图像域分类器和文本域分类器得到第二图像域标签和第二文本域标签，分别计算第二图像域分类损失、第二文本域分类损失，然后进行梯度下降，更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的网络参数，实现最大化目标域的第二样本图像域分类损失和第二文本域分类损失；
23.通过同时输入源域样本、目标域样本对跨领域人物搜索网络模型进行训练，使得源域样本和目标域样本的图像特征分布和文本特征分布趋于相似，也即使得源域和目标域
的距离小于第二阈值。
24.进一步地，所述的对比损失的计算公式为：
[0025][0026][0027][0028]
其中，是归一化后的图像特征；是归一化后的文本特征；n是batch size，t是温度系数；得到的lc是对比损失；li是矩阵，用于表示一个batch中每一个图像特征与每一个文本特征的匹配程度；lw是矩阵，用于表示每一个文本特征和每一个图像特征的匹配程度；li
ii
、lw
ii
表示矩阵对角线上的元素，因为对角线上的元素是对应的图片和文本的特征匹配程度。
[0029]
进一步地，采用经验估计h-散度来表示源域和目标域的距离：
[0030][0031]
其中，i[a]是指示函数，括号内为真则输出1，否则返回0；η是一个二分类函数，输入特征后输出域分类结果；n表示源域样本个数，n
′
表示目标域样本个数，n是源域样本个数和目标域样本个数之和。
[0032]
再进一步地，若源域的图像域分类标签、文本域分类标签都是0，则源域样本的图像域分类损失、文本域分类损失的计算方法为：
[0033][0034]
其中，c是分类器输出的域分类结果。
[0035]
再进一步地，由于梯度反转层的作用，回传到图像分类器和文本分类器的梯度均为：
[0036][0037]
回传到图像特征提取器和文本特征提取器的梯度分别为：
[0038][0039]
其中，θc为分类器的系数，θf为特征提取器的系数，λ为用于防止过拟合的正则化参数、ld表示域分类损失。
[0040]
优选地，所述的图像特征提取器采用visual transformer，将图像特征提取器载入预训练模型vit_base_patch16_384，图像特征提取器输出的图像特征是大小为batch_size*768的张量。
[0041]
优选地，所述的文本特征提取器采用bert，将文本特征提取器载入预训练模型
bert-base-uncased；所述的文本特征提取器输出的文本特征是大小为batch_size*768的张量。
[0042]
一种计算机系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述的基于文本描述的跨领域人物搜索方法的步骤。
[0043]
一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现如所述的基于文本描述的跨领域人物搜索方法的步骤。
[0044]
本发明的有益效果如下：
[0045]
本发明提供的一种基于文本描述的跨领域人物搜索方法，通过两个梯度反向层，让文本特征提取器和图像特征提取器在源域样本和目标域样本提取的特征分布趋于相似，从而提高跨领域人物搜索网络模型在无标签领域上的目标检测能力，降低跨领域人物搜索网络模型对标注数据的需求，减轻对人力资源的依赖，在缺乏标签数据的情况下，能具有跨领域人物搜索能力。
附图说明
[0046]
图1是本发明所述的基于文本描述的跨领域人物搜索方法的步骤流程图。
[0047]
图2是本发明所述的基于文本描述的跨领域人物搜索网络模型的原理框图。
具体实施方式
[0048]
下面结合附图和具体实施方式对本发明做详细描述。
[0049]
实施例1
[0050]
如图1所示，一种基于文本描述的跨领域人物搜索方法，所述的方法包括步骤如下：
[0051]
构建基于文本描述的跨领域人物搜索网络模型，所述的跨领域人物搜索网络模型包括用于提取图像特征的图像特征提取器、用于提取文本特征的文本特征提取器、用于梯度下降的第一梯度反转层、用于梯度下降的第二梯度反转层、图像域分类器、文本域分类器；
[0052]
所述的图像特征提取器通过第一梯度反转层将提取到的图像特征输入图像域分类器；
[0053]
所述的图像域分类器对图像特征处理得到图像域标签，并根据图像域标签计算图像域分类损失；
[0054]
所述的文本特征提取器通过第二梯度反转层将提取到的文本特征输入文本域分类器；
[0055]
所述的文本域分类器对文本特征处理得到文本域标签，并根据文本域标签计算文本域分类损失；
[0056]
利用训练好的跨领域人物搜索网络模型对目标域进行基于文本描述的人物搜索。
[0057]
在本实施例中，利用训练好的跨领域人物搜索网络模型对目标域进行基于文本描述的人物搜索，具体如下：输入文本进入到文本特征提取器，得到文本的特征，然后将所有图像输入到图像特征提取器得到图像特征，将文本特征向量与图像特征矩阵作矩阵乘法，
得到每个图像特征关于该文本特征的匹配程度，匹配度最高的图像特征对应的图像就是搜索结果，从而实现出与文本最匹配的图像。
[0058]
在一个具体的实施例中，具体训练跨领域人物搜索网络模型的方法如下：
[0059]
将源域样本和目标域样本同时输入跨领域人物搜索网络模型进行训练；
[0060]
对于包含一张图片及其描述文本段的源域样本，在源域样本输入跨领域人物搜索网络模型之后获得第一图像特征和第一文本特征，计算第一图像特征和第一文本特征的对比损失，使得匹配的图像特征和文本段的特征对比损失小于第一阈值；
[0061]
同时将第一图像特征和第一文本特征分别经过梯度反转层输入到图像域分类器和文本域分类器得到第一图像域标签和第一文本域标签，分别计算第一图像域分类损失、第一文本域分类损失，然后进行梯度下降，更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的网络参数，实现最大化源域样本的第一图像域分类损失和第一文本域分类损失；
[0062]
对于目标域样本，在输入跨领域人物搜索网络模型之后得到第二图像特征和第二文本特征，直接将第二图像特征和第二文本特征分别经过梯度反转层输入到图像域分类器和文本域分类器得到第二图像域标签和第二文本域标签，分别计算第二图像域分类损失、第二文本域分类损失，然后进行梯度下降，更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的网络参数，实现最大化目标域的第二样本图像域分类损失和第二文本域分类损失。
[0063]
通过同时输入源域样本、目标域样本对跨领域人物搜索网络模型进行训练，使得源域样本和目标域样本的图像特征分布和文本特征分布趋于相似，也即使得源域和目标域的距离小于第二阈值。
[0064]
在本实施例中，所述的源域是有标注好的训练样本的，例如对于某个人物的一对文本和图像；目标域样本是没有标注好的训练样本。本实施例希望训练的跨领域人物搜索网络模型能在目标域上也达到比较好的效果；所述的对比损失是计算文本和图像之间的特征，只用于源域的样本。所述的文本域分类器是文本的域分类器，训练时用于判断输入文本是属于源域还是目标域；所述的图像域分类器是图像的域分类器，训练时判断输入图像是属于源域还是目标域。
[0065]
在本实施例中，对源域样本计算对比损失的目的是为了让输入图像对应的文本匹配，使得图像特征提取器和文本特征提取器提取出匹配的图像特征和文本特征具有相对应的分布。
[0066]
本实施例，对于获取到第一图像特征和第一文本特征后计算两者的对比损失后进行梯度下降，使得匹配的图像和文本段的特征趋于相似，从而达到利用源域训练出用于完成基于文本描述的跨领域人物搜索的目的。
[0067]
在一个具体的实施例中，所述的对比损失的计算公式为：
[0068][0069]
[0070][0071]
其中，是归一化后的图像特征；是归一化后的文本特征；n是batch size，t是温度系数；得到的lc是对比损失；li是矩阵，用于表示一个batch中每一个图像特征与每一个文本特征的匹配程度；lw是矩阵，用于表示每一个文本特征和每一个图像特征的匹配程度；li
ii
、lw
ii
表示矩阵对角线上的元素，因为对角线上的元素是对应的图片和文本的特征匹配程度。
[0072]
在一个具体的实施例中，将图像特征和文本特征分别经过梯度反转层进入到图像域分类器和文本域分类器得到图像域标签和文本域标签，分别计算其损失后进行梯度下降，从而拉近源域和目标域的距离。本实施例的目的是最小化源域和目标域的距离，本实施例采用经验估计h-散度来表示源域和目标域的距离：
[0073][0074]
其中，i[a]是指示函数，括号内为真则输出1，否则返回0；η是一个二分类函数，输入特征后输出域分类结果；n表示源域样本个数，n
′
表示目标域样本个数，n是源域样本个数和目标域样本个数之和。
[0075]
在一个具体的实施例中，若源域的图像域分类标签、文本域分类标签都是0，则源域样本的图像域分类损失、文本域分类损失的计算方法为：
[0076][0077]
其中，c是分类器输出的域分类结果。
[0078]
在一个具体的实施例中，由于梯度反转层的作用，回传到图像分类器和文本分类器的梯度均为：
[0079][0080]
回传到图像特征提取器和文本特征提取器的梯度分别为：
[0081][0082]
其中，θc为分类器的系数，θf为特征提取器的系数，λ为用于防止过拟合的正则化参数、ld表示域分类损失。
[0083]
在本实施例中，通过梯度反转层进行梯度下降反向更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的参数，使得跨领域人物搜索网络模型的域分类误差将不断增大。
[0084]
在一个具体的实施例中，所述的图像特征提取器采用visual transformer，将图像特征提取器载入预训练模型vit_base_patch16_384，图像特征提取器输出的图像特征是大小为batch_size*768的张量。
[0085]
在一个具体的实施例中，所述的文本特征提取器采用bert，将文本特征提取器载入预训练模型bert-base-uncased；所述的文本特征提取器输出的文本特征是大小为batch_size*768的张量。
[0086]
一般预训练模型是已经在特定数据集上有过有效的训练，对特征的提取效果较好。载入预训练模型可以减少训练的时间成本，并且有更好的训练效果。
[0087]
实施例2
[0088]
一种计算机系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例1所述的基于文本描述的跨领域人物搜索方法的步骤。
[0089]
其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。
[0090]
实施例2
[0091]
一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现如实施例1所述的基于文本描述的跨领域人物搜索方法的步骤。
[0092]
即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0093]
显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

技术特征：

1.一种基于文本描述的跨领域人物搜索方法，其特征在于：所述的方法包括步骤如下：构建基于文本描述的跨领域人物搜索网络模型，所述的跨领域人物搜索网络模型包括用于提取图像特征的图像特征提取器、用于提取文本特征的文本特征提取器、用于梯度下降的第一梯度反转层、用于梯度下降的第二梯度反转层、图像域分类器、文本域分类器；所述的图像特征提取器通过第一梯度反转层将提取到的图像特征输入图像域分类器；所述的图像域分类器对图像特征处理得到图像域标签，并根据图像域标签计算图像域分类损失；所述的文本特征提取器通过第二梯度反转层将提取到的文本特征输入文本域分类器；所述的文本域分类器对文本特征处理得到文本域标签，并根据文本域标签计算文本域分类损失；利用训练好的跨领域人物搜索网络模型对目标域进行基于文本描述的人物搜索。2.根据权利要求1所述的基于文本描述的跨领域人物搜索方法，其特征在于：具体训练跨领域人物搜索网络模型的方法如下：将源域样本和目标域样本同时输入跨领域人物搜索网络模型进行训练；对于包含一张图片及其描述文本段的源域样本，在源域样本输入跨领域人物搜索网络模型之后获得第一图像特征和第一文本特征，计算第一图像特征和第一文本特征的对比损失，使得匹配的图像特征和文本段的特征对比损失小于第一阈值；同时将第一图像特征和第一文本特征分别经过梯度反转层输入到图像域分类器和文本域分类器得到第一图像域标签和第一文本域标签，分别计算第一图像域分类损失、第一文本域分类损失，然后进行梯度下降，更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的网络参数，实现最大化源域样本的第一图像域分类损失和第一文本域分类损失；对于目标域样本，在输入跨领域人物搜索网络模型之后得到第二图像特征和第二文本特征，直接将第二图像特征和第二文本特征分别经过梯度反转层输入到图像域分类器和文本域分类器得到第二图像域标签和第二文本域标签，分别计算第二图像域分类损失、第二文本域分类损失，然后进行梯度下降，更新图像特征提取器、文本特征提取器、图像域分类器、文本域分类器的网络参数，实现最大化目标域的第二样本图像域分类损失和第二文本域分类损失；通过同时输入源域样本、目标域样本对跨领域人物搜索网络模型进行训练，使得源域样本和目标域样本的图像特征分布和文本特征分布趋于相似，也即使得源域和目标域的距离小于第二阈值。3.根据权利要求2所述的基于文本描述的跨领域人物搜索方法，其特征在于：所述的对比损失的计算公式为：比损失的计算公式为：比损失的计算公式为：
其中，是归一化后的图像特征；是归一化后的文本特征；n是batch size，t是温度系数；得到的l
c
是对比损失；li是矩阵，用于表示一个batch中每一个图像特征与每一个文本特征的匹配程度；lw是矩阵，用于表示每一个文本特征和每一个图像特征的匹配程度；li
ii
、lw
ii
表示矩阵对角线上的元素，因为对角线上的元素是对应的图片和文本的特征匹配程度。4.根据权利要求2所述的基于文本描述的跨领域人物搜索方法，其特征在于：采用经验估计h-散度来表示源域和目标域的距离：其中，i[a]是指示函数，括号内为真则输出1，否则返回0；η是一个二分类函数，输入特征后输出域分类结果；n表示源域样本个数，n
′
表示目标域样本个数，n是源域样本个数和目标域样本个数之和。5.根据权利要求3所述的基于文本描述的跨领域人物搜索方法，其特征在于：若源域的图像域分类标签、文本域分类标签都是0，则源域样本的图像域分类损失、文本域分类损失的计算方法为：其中，c是分类器输出的域分类结果。6.根据权利要求5所述的基于文本描述的跨领域人物搜索方法，其特征在于：由于梯度反转层的作用，回传到图像分类器和文本分类器的梯度均为：回传到图像特征提取器和文本特征提取器的梯度分别为：其中，θ
c
为分类器的系数，θ
f
为特征提取器的系数，λ为用于防止过拟合的正则化参数、l
d
表示域分类损失。7.根据权利要求1所述的基于文本描述的跨领域人物搜索方法，其特征在于：所述的图像特征提取器采用visual transformer，将图像特征提取器载入预训练模型vit_base_patch16_384，图像特征提取器输出的图像特征是大小为batch_size*768的张量。8.根据权利要求1所述的基于文本描述的跨领域人物搜索方法，其特征在于：所述的文本特征提取器采用bert，将文本特征提取器载入预训练模型bert-base-uncased；所述的文本特征提取器输出的文本特征是大小为batch_size*768的张量。9.一种计算机系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的基于文本描述的跨领域人物搜索方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序被处理器执行时，实现如权利要求1至8任一项所述的基于文本描述的跨领域人物搜索方
法的步骤。

技术总结

本发明公开了一种基于文本描述的跨领域人物搜索方法，如下：构建基于文本描述的跨领域人物搜索网络模型，其包括图像特征提取器、文本特征提取器、第一梯度反转层、第二梯度反转层、图像域分类器、文本域分类器；图像特征提取器通过第一梯度反转层将提取到的图像特征输入图像域分类器；图像域分类器对图像特征处理得到图像域标签，并根据图像域标签计算图像域分类损失；文本特征提取器通过第二梯度反转层将提取到的文本特征输入文本域分类器；文本域分类器对文本特征处理得到文本域标签，并根据文本域标签计算文本域分类损失；利用训练好的跨领域人物搜索网络模型对目标域进行基于文本描述的人物搜索。本发明能在缺乏标签数据的情况下，具有跨领域人物搜索能力。具有跨领域人物搜索能力。具有跨领域人物搜索能力。