图文双向搜索及匹配模型训练方法、装置、设备及介质与流程

1.本技术涉及信息检索技术领域，特别是涉及一种图文双向搜索方法及装置、图像文本匹配模型的训练方法及装置、图文双向搜索设备及可读存储介质。

背景技术：

2.随着计算机技术以及网络技术被广泛地应用在日常工作生活中，数据量和数据类型都日益增多，表述同一目标的信息运行于不同媒体中，该信息以不同数据格式的数据存在，如图像数据、文本数据、音频数据、视频数据等。举例来说，对于同一款服务器来说，既可以采用文本数据描述该服务器的物理参数和性能信息发布在网页中，也可以直接以视频方式描述该服务器的物理参数和性能信息发布在视频网站中。相应的，用户可能会希望基于目标检索词如服务器型号检索到所有相关的、且不同格式的数据，也可能基于某一类格式的数据检索到与之相同的其他类型的数据，也即不同类型数据之间的双向搜索。
3.相关技术通常基于注意力机制实现图像文本互检索，其利用注意力将提取到的图像特征加权到文本特征中，对文本特征进行重构，增强文本与图像之间的相似性。该方法虽然能够利用注意力重构电子文本特征，但是，其只是简单地在重构电子文本特征时使用自然图像对电子文本的单向注意力，由于自然图像与电子文本存在对应关系，相互对应的高阶特征间互相影响，仅仅重构电子文本特征而忽略自然图像特征，使得自然图像特征无法准确与电子文本特征对应，影响图像文本互相检索。且其无法获取在不同模态特征交互时的联合特征，对于涉及到先后顺序或者是具有依赖关系的数据，如基于步骤检索的任务中，会导致图像与文本之间的检索准确度较低。
4.鉴于此，如何提升图像数据和文本数据之间的双向搜索精度，是所属领域技术人员需要解决的技术问题。

技术实现要素：

5.本技术提供了一种图文双向搜索方法及装置、图像文本匹配模型的训练方法及装置、图文双向搜索设备及可读存储介质，有效提升图像数据和文本数据之间的双向搜索精度。
6.为解决上述技术问题，本发明实施例提供以下技术方案：本发明实施例第一方面提供了一种图文双向搜索方法，包括：预先训练图文双向搜索模型；所述图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络；调用所述图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征；基于所述文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征；所述目标文本数据对应的目标文本特征包括所述目标识别特征；所述目标识别特征和所述目标文本特征为所述文本异质图网络的节点特征，所述文本异质图网络的连接边由所
述目标识别特征与所述目标文本特征间的包含关系确定；基于图像异质图网络，获取包括一组子图像的待搜索图像的图像特征；所述待搜索图像的原始图像特征和所述目标识别特征作为所述图像异质图网络的节点特征，所述图像异质图网络的连接边由各目标识别特征和所述原始图像特征之间的关联关系确定；将所述图像特征和所述文本特征输入至所述图文双向搜索模型，得到图文搜索结果。
7.可选的，所述预先训练图文双向搜索模型之后，还包括：响应文本拆分指令，将所述目标识别特征拆分为多个文本词组和/或文本单词，将所述目标文本数据拆分为多个文本语句；将各文本词组和/或文本单词输入至预先训练好的文本特征提取模型中，得到多个第一类节点特征；将各文本语句输入至所述文本特征提取模型中，得到多个第二类节点特征。
8.可选的，所述获取仅包含一类目标文本数据的待搜索文本的文本特征之前，还包括：搭建语言表征模型；所述语言表征模型包括文本信息输入层、特征提取层和文本特征输出层；所述特征提取层为基于转换器的双向编码器；利用自然语言文本样本数据集训练所述语言表征模型，并将训练好的语言表征模型作为文本特征提取模型。
9.可选的，所述将各文本语句输入至所述文本特征提取模型中，包括：将各文本语句以及每个文本语句中包含的各词组、各单词所在当前文本语句中的位置信息，输入至所述文本特征提取模型。
10.可选的，所述将各文本词组和/或文本单词输入至预先构建的文本特征提取模型中，得到多个第一类节点特征之前，以及所述将各文本语句输入至所述文本特征提取模型中，得到多个第二类节点特征之前，还包括：获取下一时刻输入至文本特征提取模型中的数据的数据类型，以将所述数据类型连同相应的数据一起输入至所述文本特征提取模型中；所述数据类型包括用于标识所述目标识别特征的第一标识，和用于标识所述目标文本数据的第二标识。
11.可选的，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定，包括：对所述目标识别特征中的每个文本词组或文本单词，依次遍历所述目标文本数据的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则所述当前文本语句对应的第二类节点特征与所述当前文本词组对应的第一类节点特征具有连接关系；若所述当前文本语句所包含的目标单词与当前文本单词相同，则所述当前文本语句对应的第二类节点特征与所述当前文本单词对应的第一类节点特征具有连接关系。
12.可选的，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征，包括：预先利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样
本集，训练得到图像识别网络；将所述待搜索图像输入至所述图像识别网络中，得到所述待搜索图像的每张子图像所包含的目标识别特征。
13.可选的，所述利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络之前，还包括：预先构建目标识别网络结构，所述目标识别网络结构包括输入层、卷积结构、池化层及分类器；所述卷积结构包括基础运算组件和残差运算组件；所述基础运算组件用于对输入图像依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；所述残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对所述基础运算组件的输出特征进行卷积计算；所述池化层，用于将所述卷积结构的输出特征转化为目标特征向量，并输送至所述分类器；所述分类器，用于通过对所述目标特征向量进行计算，并输出所属类别标签的概率。
14.可选的，所述文本异质图网络包括多层第一图注意力网络，每一层第一图注意网络之后还集成第一全连接层；所述获取仅包含一类目标文本数据的待搜索文本的文本特征，包括：对所述文本异质图网络的各第一图注意力网络的每个文本异质节点，根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新所述当前文本异质节点的节点特征；基于更新后的文本异质图网络的每个文本异质节点的节点特征，生成所述待搜索文本的文本特征。
15.可选的，所述根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新所述当前文本异质节点的节点特征，包括：确定与所述当前文本异质节点具有相连关系、且不为同一节点类型的目标文本异质节点；基于所述当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算所述当前文本异质节点与每个目标文本异质节点的初始权重值，并根据各初始权重值确定所述当前文本异质节点的权重值；基于所述权重值和各目标文本异质节点，对所述当前文本异质节点进行节点特征更新，并将所述当前文本异质节点更新后的节点特征和更新前的节点特征之和作为所述当前文本异质节点的节点特征。
16.可选的，所述基于所述当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算所述当前文本异质节点与每个目标文本异质节点的初始权重值，包括：调用权重计算关系式分别计算所述当前文本异质节点与每个目标文本异质节点的初始权重值；所述权重计算关系式为：；
其中，z
qp
为第q个文本异质节点与第p个文本异质节点的初始权重值，为激活函数，wa、wb、wc为已知的维矩阵，为第q个文本异质节点的节点特征，为第p个文本异质节点的节点特征。
17.可选的，所述基于所述权重值和各目标文本异质节点，对所述当前文本异质节点进行节点特征更新，包括：调用初次更新关系式，对所述当前文本异质节点的节点特征进行更新；所述初次更新关系式为：；式中，为第q个文本异质节点更新后的节点特征，为超参数，α
qp
为步骤节点的第q个节点与成分节点的第p个节点特征的归一化的权重，为已知的维矩阵，为第p个文本异质节点的节点特征，为目标文本异质节点总数。
18.可选的，所述目标文本数据对应的各第二类节点特征之间具有先后执行顺序，所述基于所述文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征之后，还包括：将各第二类节点特征以及顺序信息，输入至预先训练好的时序特征提取模型中，得到时序信息特征；将所述时序信息特征，通过全连接层映射至所述文本特征中。
19.可选的，所述将各第二类节点特征以及顺序信息，输入至预先训练好的时序特征提取模型，得到时序信息特征，包括：基于各第二类节点特征之间的先后顺序，依次将各第二类节点特征按照顺序和逆序输入至双向长短期记忆神经网络，得到各第二类节点特征的时序编码特征；根据每个第二类节点特征时序编码特征确定时序信息特征。
20.可选的，依次将各第二类节点特征按照顺序和逆序输入至双向长短期记忆神经网络，得到各第二类节点特征的时序编码特征，包括：对每一个第二类节点特征，调用正序编码关系式，对当前第二类节点特征进行正序编码，得到正序编码特征；所述正序编码关系式为：；调用倒序编码关系式，对所述当前第二类节点特征进行正序编码，得到倒序编码特征；所述倒序编码关系式为：；将所述正序编码特征和所述倒序编码特征作为所述当前第二类节点特征的时序编码特征；式中，，为所述双向长短期记忆神经网络的正向编码方向的第q个单元的输出，为所述文本异质图网络中第t层图注意力网络的第q个第二类节点特征，
为所述双向长短期记忆神经网络的正向编码方向的第q-1个单元的输出，q为第二类节点特征总数，为所述双向长短期记忆神经网络的倒向编码方向的第q个单元的输出，为所述双向长短期记忆神经网络的倒向编码方向的第q+1个单元的输出，为所述双向长短期记忆神经网络的倒向编码函数，为所述双向长短期记忆神经网络的正向编码函数。
21.可选的，所述图像异质图网络包括多层第二图注意网络，每一层第二图注意网络之后还集成第二全连接层；所述获取包括一组子图像的待搜索图像的图像特征，包括：将所述待搜索图像输入至预先训练好的图像特征提取模型，得到所述待搜索图像的原始图像特征；对所述图像异质图网络的各第二图注意力网络的每个图像异质节点，根据当前图像异质节点与其余各图像异质节点之间是否具有连接关系以及各图像异质节点之间的关联关系，更新所述当前图像异质节点的节点特征；基于更新后的图像异质图网络的每个图像异质节点的节点特征，生成所述待搜索文本的图像编码特征；将所述图像编码特征输入至预先训练好的图像特征生成模型，得到所述待搜索图像的图像特征。
22.本发明实施例第二方面提供了一种图文双向搜索装置，包括：图像识别模块，用于调用预先训练好的图文双向搜索模型的图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征；文本特征提取模块，用于基于所述图文双向搜索模型的文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征；所述目标文本数据对应的目标文本特征包括所述目标识别特征；所述目标识别特征和所述目标文本特征为所述文本异质图网络的节点特征，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定；图像特征提取模块，用于基于所述图文双向搜索模型的图像异质图网络，获取包括一组子图像的待搜索图像的图像特征；所述待搜索图像的原始图像特征和所述目标识别特征作为所述图像异质图网络的节点特征，所述图像异质图网络的连接边由各目标识别特征和所述原始图像特征之间的关联关系确定；双向搜索模块，用于将所述图像特征和所述文本特征输入至预先训练好的图文双向搜索模型，得到图文搜索结果；所述图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络。
23.本发明实施例第三方面提供了一种图像文本匹配模型的训练方法，包括：预先搭建图文双向搜索模型；对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的原始图像特征、目标识别特征、图像特征和文本样本的目标文本特征、文本特征；所述目标文本特征包括所述目标识别特征；所述图像样本包括一组子图像；基于将所述目标识别特征和所述目标文本特征分别作为文本异质节点特征，并根据所述目标识别特征与所述目标文本特征间的包含关系确定连接边，构建所述图文双向搜
索模型的文本异质图网络；基于将所述原始图像特征和所述目标识别特征分别作为图像异质节点特征，并根据各目标识别特征与所述原始图像特征间的关联关系确定连接边，构建所述图文双向搜索模型的图像异质图网络；将每组训练样本的图像特征输入所述图像异质图网络、文本特征输入至所述文本异质图网络中，训练所述图文双向搜索模型。
24.本发明实施例第四方面提供了一种图像文本匹配模型的训练装置，包括：特征提取模块，用于对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的原始图像特征、目标识别特征、图像特征和文本样本的目标文本特征、文本特征；所述目标文本特征包括所述目标识别特征；所述图像样本包括一组子图像；模型搭建模块，用于预先搭建图文双向搜索模型；基于将所述目标识别特征和所述目标文本特征分别作为文本异质节点特征，并根据所述目标识别特征与所述目标文本特征间的包含关系确定连接边，构建所述图文双向搜索模型的文本异质图网络；基于将所述原始图像特征和所述目标识别特征分别作为图像异质节点特征，并根据各目标识别特征与所述原始图像特征间的关联关系确定连接边，构建所述图文双向搜索模型的图像异质图网络；模型训练模块，用于将每组训练样本的图像特征输入所述图像异质图网络、文本特征输入至所述文本异质图网络中，训练所述图文双向搜索模型。
25.本发明实施例第五方面还提供了一种图文双向搜索设备，包括处理器、存储器、人机交互组件以及通信组件；所述人机交互组件用于通过信息输入/信息输出接口，接收用户输入的训练样本集选择请求、模型训练请求、搜索请求以及向用户展示图文搜索结果；所述通信组件用于传输图像文本匹配模型的训练过程中以及图文双向搜索任务执行过程中的数据及指令；所述处理器用于执行所述存储器中存储的计算机程序时实现如前任一项所述图文双向搜索方法和/或如前所述图像文本匹配模型的训练方法的步骤。
26.本发明实施例第六方面还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述图文双向搜索方法和/或如前所述图像文本匹配模型的训练方法的步骤。
27.本技术提供的技术方案的优点在于，分别基于仅包含一类文本数据的文本和包含一组子图像的图像所包含的数据及其内部关系构建用于提取相应特征的图神经网络，从而有利于提取可反映现实世界中的文本及其内在关联关系的文本特征，反映现实世界中图像及其内在关联关系的图像特征，并基于提取的文本特征及图像特征进行模型训练，有利于充分挖掘图像与文本细粒度特征之间的关联关系，从而得到高精度的图文双向检索模型，有效提高图像数据与文本数据的相互检索精度。
28.此外，本发明实施例还针对图文双向搜索方法提供了图像文本匹配模型的训练方法及相应的实现装置、图文双向搜索设备及可读存储介质相应的实现装置、图文双向搜索设备及可读存储介质，进一步使得所述图文双向搜索方法更具有实用性，所述图像文本匹配模型的训练方法、装置、图文双向搜索设备及可读存储介质具有相应的优点。
29.应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。
附图说明
30.为了更清楚的说明本发明实施例或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
31.图1为本发明实施例提供的一种图文双向搜索方法的流程示意图；图2为本发明实施例提供的文本异质图网络结构的一种示意图；图3为本发明实施例提供的图像异质图网络结构的一种示意图；图4为本发明实施例提供的一种图像文本匹配模型的训练方法的流程示意图；图5为本发明实施例提供的跨媒体检索装置的一种具体实施方式结构图；图6为本发明实施例提供的图像文本匹配模型的训练装置的一种具体实施方式结构图；图7为本发明实施例提供的图文双向搜索设备的一种具体实施方式结构图；图8为本发明实施例提供的图文双向搜索设备的另一种具体实施方式结构图；图9为本发明实施例提供的一个示例性应用场景的框架示意图。
具体实施方式
32.为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
33.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。
34.在介绍了本发明实施例的技术方案后，下面详细的说明本技术的各种非限制性实施方式。
35.首先参见图1，图1为本发明实施例提供的一种图文双向搜索方法的流程示意图，本发明实施例可包括以下内容：s101：预先训练图文双向搜索模型。
36.本实施例的图文双向搜索模型用于执行文本数据与图像数据之间的图文双向搜索任务，也即可以基于待搜索文本数据从已知图像数据库中确定与之相匹配的图像数据，也可基于待搜索图像数据从已知文本数据库中确定与之相匹配的文本数据。本实施例的图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络；文本异质图网络用于对输入文本数据如文本样本或待搜索文本进行处理并最终输出该文本数据对应的文本特征，图像异质图网络用于对输入图像数据如图像样本或待搜索图像进行处理，并输出
该图像数据的最终图像特征。图像识别网络用于文本异质图网络和图像异质图网络可基于任何技术中的任何一种图结构进行搭建，这均不影响本技术的实现。图像识别网络用于识别图像如待搜索图像以及训练模型过程中所使用的图像样本中某类图像块的类别信息，也即最终输出的是输入图像包括的指定识别目标对应的识别标签信息，为了便于描述，称为目标识别特征。
37.s102：调用图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征。
38.本实施例的待搜索图像以及后续的图像样本包括一组子图像，也即一组子图像共同构成待搜索图像，以待搜索图像为菜谱步骤图像，每个步骤对应一个子图像，该菜谱步骤图像包括每个步骤对应的子图像构成。将待搜索图像中包含相应文本数据的某类指定信息的图像块称为目标图像块，这些目标图像块的识别信息即为目标识别特征，也即目标识别特征为待搜索图像或图像样本中目标图像块的标签信息，标签信息属于该类指定信息。以菜谱做菜步骤文本与菜谱步骤图举例来说，指定信息可为菜谱成分，目标图像块即为标识菜谱成分的图像块，目标识别特征即为识别各目标图像块所属的菜谱成分信息；以电子设备说明文档和电子设备说明书图像为例，指定信息为电子设备的产品结构，目标图像块即为标识产品结构的图像块，目标识别特征即为目标图像块属于某类产品结构的识别信息，如开关键或指示灯。
39.s103：基于文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征。
40.本技术的文本包括待搜索文本以及后续模型训练过程中所使用的训练样本集中的文本样本都只包含一类文本数据，所谓一类文本数据是指文本中的数据是同一类型的数据，以菜谱文本举例来说，菜谱文本可包括菜名、菜谱成分和做菜步骤这三类文本数据，本技术的待搜索文本以及文本样本只能包含其中一类文本数据。以服务器工作原理说明文档举例来说，该类文本可包括两类文本数据即服务器结构组成和工作原理。本技术的待搜索文本以及文本样本只能包含其中一类文本数据，也即待搜索文本以及文本样本仅仅包括服务器的工作原理。在上个步骤获取训练好的模型之后，基于待搜索文本，通过计算文本异质图网络得到相应的文本特征。本实施例的文本特征是指通过对文本异质图网络进行图结构运算之后所得到的特征，目标文本特征是直接利用文本特征提取方法提取待搜索文本所得到的数据。本步骤的目标文本特征与上个步骤所得到的目标识别特征之间具有包含关系，为了便于描述，可定义目标文本数据对应的目标文本特征包括目标识别特征，所谓的包含关系是指目标识别特征均存在于目标文本数据对应的目标文本特征中。以菜谱文本举例来说，目标识别特征表示菜谱成分，目标文本特征表示做菜步骤；以电子设备说明书为例，目标识别特征可为电子设备的产品结构，目标文本特征可为使用说明书。本实施例的目标文本特征与目标识别特征之间具有包含关系，目标识别特征是由每张子图像的多个目标图像块对应的识别特征构成，为了便于描述，不引起歧义，在构建文本异质图网络过程中，可称每个子图像的每个目标图像块的识别特征为一个第一类节点特征，目标文本特征是由多个文本特征构成，每个文本特征称为第二类节点特征。对指定的一个第一类节点特征来说，若其被包含在某个第二类节点特征中，则该第一类节点特征与该第二个节点特征之间具有关联关系。在获取待搜索文本的目标文本特征和待搜索图像的目标识别特征，通过分析目标
文本特征的每个第二类节点特征，判断其是否包含目标识别特征的某一个第一类节点特征或某几个第一类节点特征，则可确定目标识别特征与目标文本特征之间的关联关系。在获取到目标文本特征和目标识别特征之后，根据这两类不同类型特征作为图结构网络的异构节点特征，图结构网络的连接边可根据不同节点特征之间是否具有包含关系来确定，也就是说，目标识别特征和目标文本特征为文本异质图网络的节点特征，文本异质图网络的连接边由目标识别特征与目标文本特征间的包含关系确定。在文本异质图网络中代入了待搜索文本的文本特征信息和待搜索图像的图像识别信息之后，通过进行图结构运算便可提取得到图结构对应的特征，该类特征即作为本步骤中的文本特征。
41.s104：基于图像异质图网络，获取包括一组子图像的待搜索图像的图像特征。
42.本步骤的图像异质图网络，其同样包括节点和连接边，本实施例的图像异质图网络的节点为异质节点，也即至少存在两种性质和结构不同的特征，而对于图像来说，其所提取的图像特征仅能作为一种节点特征，由于图像特征与文本特征是具有相关联对应关系的，所以可将s102提取的目标识别特征作为图像异质图网络的节点特征。考虑到目标识别特征的各第一类节点特征被包含在目标文本特征的各第二类节点特征中，所以可以第一类节点特征作为图像异质图网络的异质节点特征，也即待搜索图像的原始图像特征和目标识别特征作为图像异质图网络的节点特征，图像异质图网络的连接边由目标识别特征和原始图像特征之间的关联关系确定。原始图像特征是指直接采用图像特征方法如人工卷积神经网络、vgg16（visual geometry group network，目视图像生成器）、resnet（deep residual network，深度残差网络）等提取得到的图像特征。本步骤中的图像特征是将待搜索图像的每个子图像的图像特征代入至图像异质图网络中，对图像异质图网络进行图结构运算所得的特征。
43.s105：将图像特征和文本特征输入至图文双向搜索模型，得到图文搜索结果。
44.本实施例的图文搜索结果是指s103步骤提取的文本特征和s104提取的图像特征的匹配程度，也即将文本特征和图像特征输入至图文双向搜索模型之后，图文双向搜索模型可通过计算向量距离如欧式距离来确定特征是否相接近，如果相接近，则待搜索图像和待搜索文本是相匹配的，也即待搜索图像与待搜索文本是相互对应的一组数据。如果不相接近，则待搜索图像和待搜索文本是不相匹配的。
45.在本发明实施例提供的技术方案中，分别基于文本和图像所包含的数据及其内部关系构建用于提取相应特征的图神经网络，从而有利于提取可反映现实世界中的文本及其内在关联关系的文本特征，反映现实世界中图像及其内在关联关系的图像特征，并基于提取的文本特征及图像特征进行模型训练，有利于充分挖掘图像与文本细粒度特征之间的关联关系，从而得到高精度的图文双向检索模型，有效提高图像数据与文本数据的相互检索精度。
46.上述实施例对如何提取目标识别特征并不做任何限定，基于上述实施例，本技术还提供了目标识别特征的一种可选的提取实施方式，可包括：预先利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络；将待搜索图像输入至图像识别网络中，得到待搜索图像的每张子图像所包含的目标识别特征。
47.在本实施例中，图像识别网络用于识别待搜索图像中目标图像块的类别信息，目
标训练样本集包含多张标注有目标特征的图像，也即目标训练样本集中包含的每一张图像样本均携带有类别标签。各图像可为直接从原始数据库中所获取的图像，也可为将原始图像进行翻转、尺寸裁剪、拉伸等变化后所得的图像，这均不影响本技术的实现。图像识别网络可基于任何一种可识别图像类别的现有模型结构来搭建，如卷积神经网络、人工神经网络等等，本技术对此不作任何限定。作为一种可选的实施方式，目标识别网络结构可包括输入层、卷积结构、池化层及分类器；卷积结构包括基础运算组件和残差运算组件；基础运算组件用于对输入图像依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对基础运算组件的输出特征进行卷积计算；池化层，用于将卷积结构的输出特征转化为目标特征向量，并输送至分类器；分类器，用于通过对目标特征向量进行计算，并输出所属类别标签的概率。
48.为了使所属领域技术人员更加清楚明白本技术的技术方案，本技术以菜谱文本和菜谱图像为例阐述本实施例的实现过程，也即通过图像分类网络实现对每张菜谱图像的主成分进行分类，并以分类后的类别信息构建成分节点的过程可包括：首先通过多张菜谱步骤图生成步骤图数据集，对部分菜谱步骤图的主成分进行标注，例如面粉、白糖、木瓜等。使用标注好的菜谱步骤图训练resnet50网络，以对图像主成分进行分类。resnet50网络结构可包括七个部分，第一部分不包含残差块，主要对输入进行卷积、正则化、激活函数、最大池化的计算，第二、三、四、五部分结构都包含了残差块，每个残差块含有三层卷积，经过前五部分的卷积计算后，池化层将其转化为一个特征向量，最后分类器对这个特征向量进行计算并输出类别概率。训练好的resnet50网络可以很好的获得输入图像的主成分信息。
49.可以理解的是，从待搜索文本到目标文本特征的第二类文本特征是需要经过文本特征的提取操作的，在上述实施例中，对于如何从待搜索文本中提取文本特征并没有进行任何限定，基于上述实施例，本技术还给出了文本特征的一种可选的实施方式，可包括下述内容：响应文本拆分指令，将目标识别特征拆分为多个文本词组和/或文本单词，将目标文本数据拆分为多个文本语句；将各文本词组和/或文本单词输入至预先训练好的文本特征提取模型中，得到多个第一类节点特征；将各文本语句输入至文本特征提取模型中，得到多个第二类节点特征。
50.文本拆分指令为用于将待搜索文本拆分为多个文本语句，目标识别特征拆分为多个文本词组或文本单词的，可采用任何一种文本数据拆分算法。对于该种实施方式，相应的，文本异质图网络中每个连接边的确定方法可为：对目标识别特征中的每个文本词组或文本单词，依次遍历目标文本数据的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则当前文本语句对应的第二类节点特征与当前文本词组对应的第一类节点特征具有连接关系；若当前文本语句所包含的目标单词与当前文本单词相同，则当前文本语句对应的第二类节点特征与当前文本单词对应的第一类节点特征具有连接关系。本实施例的文本特征提取模型用于对输入文本数据或目标识别特征进行文本特征提取，作为一种可选的实施方式，文本特征提取模型的训练过程为：搭建语言表征模型；语言表征模型包括文本信息输入层、特征提取层和文本特征输出层；特征提取层为基于转换器的双向编码器；利用自然语言文本样本数据集训练语言表征模型，并将训练好的语言表征模型作为
文本特征提取模型。语言表征模型例如可为bert（bidirectional encoder representation from transformers，预训练的语言表征模型）、word2vec（word to vector，词向量模型），这均不影响本技术的实现。在获取训练好文本特征提取模型之后，为了进一步提高文本特征提取准确度，还可同时为文本数据设置数据类型，数据类型包括用于标识目标识别特征的第一标识和用于标识目标文本数据或者是说目标文本特征的第二标识。在将待搜索文本输入至文本特征提取模型的同时，获取下一时刻输入至文本特征提取模型中的数据的数据类型，还可将各文本语句以及每个文本语句中包含的各词组、各单词所在当前文本语句中的位置信息，输入至文本特征提取模型。将数据类型连同相应的数据一起输入至文本特征提取模型中。
51.可以理解的是，提取待搜索文本中的目标文本数据可以得到多个第二类文本特征，对于具有先后执行顺序的各第二类文本特征，或者是对于具有先后依赖关系的第二类文本特征的场景，为了进一步提取到贴合实际文本的文本特征，本技术还进一步的进行时序特征提取，并提供了时序特征的提取方法，可包括下述内容：若各第二类节点特征之间具有先后执行顺序，将各第二类节点特征以及顺序信息，输入至预先训练好的时序特征提取模型中，得到时序信息特征。可选的，时序特征提取模型可为双向长短期记忆神经网络，相应的，可基于各第二类节点特征之间的先后顺序，依次将各第二类节点特征按照顺序和逆序输入至双向长短期记忆神经网络，得到各第二类节点特征的时序编码特征；根据每个第二类节点特征时序编码特征确定时序信息特征。可选的，对每一个第二类节点特征，时序编码特征均可包括正序编码特征和倒序编码特征，为了将时序特征整合至最终生成的文本特征中，可将提取所得到的时序信息特征通过全连接层映射至文本特征中。对于正序编码特征和倒序编码特征的获取可通过下述方法：可调用正序编码关系式，对当前第二类节点特征进行正序编码，得到正序编码特征；正序编码关系式可表述为：；然后调用倒序编码关系式，对当前第二类节点特征进行正序编码，得到倒序编码特征；倒序编码关系式可表述为：；式中，，为双向长短期记忆神经网络的正向编码方向的第q个单元的输出，为文本异质图网络中第t层图注意力网络的第q个第二类节点特征，为双向长短期记忆神经网络的正向编码方向的第q-1个单元的输出，q为第二类节点特征总数，为双向长短期记忆神经网络的倒向编码方向的第q个单元的输出，为双向长短期记忆神经网络的倒向编码方向的第q+1个单元的输出，为双向长短期记忆神经网络的倒向编码函数，为双向长短期记忆神经网络的正向编码函数。
52.当然，对于时序特征的提取，本实施例还可基于长短期记忆神经网络实现，在获取第二类文本特征之后，可调用关系式，得到时序特征信息，
其中，代表lstm中第q个单元的输出。则代表lstm中第q-1个单元的输出，也即上一个状态的输出。
53.上述实施例对如何基于文本异质图网络进行文本特征的生成并不做任何限定，文本特征的提取是通过异质图运算得到的，异质图运算也即对文本异质图网络的节点更新的过程，本实施例提供了一种可选的实施方式，可包括下述内容：为了提高文本异质图网络的模型精度，可实施例可叠加多层相同的结构，为了便于描述，每一层可称为第一图注意力网络，每一层第一图注意网络之后还集成第一全连接层；对文本异质图网络的各第一图注意力网络的每个文本异质节点，根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新当前文本异质节点的节点特征；基于更新后的文本异质图网络的每个文本异质节点的节点特征，生成待搜索文本的文本特征。
54.其中，根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新当前文本异质节点的节点特征的过程，可包括：确定与当前文本异质节点具有相连关系、且不为同一节点类型的目标文本异质节点；基于当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算当前文本异质节点与每个目标文本异质节点的初始权重值，并根据各初始权重值确定当前文本异质节点的权重值；基于权重值和各目标文本异质节点，对当前文本异质节点进行节点特征更新，并将当前文本异质节点更新后的节点特征和更新前的节点特征之和作为当前文本异质节点的节点特征。
55.其中，基于当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算当前文本异质节点与每个目标文本异质节点的初始权重值的过程，可包括：调用权重计算关系式分别计算当前文本异质节点与每个目标文本异质节点的初始权重值；权重计算关系式可为：；其中，z
qp
为第q个文本异质节点与第p个文本异质节点的初始权重值，为激活函数，wa、wb、wc为已知的维矩阵，表示d
×
d维实向量，表示实向量，为第q个文本异质节点的节点特征，为第p个文本异质节点的节点特征。
56.其中，基于权重值和各目标文本异质节点，对当前文本异质节点进行节点特征更新，包括：调用初次更新关系式，对当前文本异质节点的节点特征进行更新；初次更新关系式可表述为：；式中，为第q个文本异质节点更新后的节点特征，为超参数，α
qp
为步骤节点
的第q个节点与成分节点的第p个节点特征的归一化的权重，为已知的维矩阵，为第p个文本异质节点的节点特征，为目标文本异质节点总数。
57.为了使所属领域技术人员更加清楚明白本技术的技术方案，本技术以待搜索文本为菜谱文本，菜谱文本包括做菜步骤数据，可简称为步骤，且做菜步骤之间具有先后顺序，下面阐述整个文本特征的生成过程：本实施例将文本特征构建成一种图结构，图结构包括节点及节点特征和连接关系，如图2所示，第一类文本数据提取的文本特征为，i=1，2，3，4；第二类文本数据提取的文本特征为i=1，2，3，4。第一类文本数据提取的各文本特征和第二类文本数据提取的各文本特征作为图结构的节点，各文本特征也即各节点之间的连接关系e
11
、e
32
、e
33
即为图结构的连接关系。由于待搜索文本仅仅包含一类文本数据，也即得到一种类型的文本特征，为了构建异质图网络，本技术可从待搜索图像中提取特征以作为另一类节点特征。本实施例的待搜索图像为菜谱步骤图，首先通过多张菜谱步骤样本图生成步骤图数据集，对部分菜谱步骤样本图的主成分进行标注，例如面粉、白糖、木瓜等。使用标注好的菜谱步骤样本图训练resnet50网络，以对图像主成分进行分类。将待搜索图像也即待搜索菜谱步骤图输入至训练好的resnet50网络，得到该待搜索菜谱步骤图的主成分信息，也即相应的目标识别特征。成分和步骤从构造到性质都是不同的，所以称为异质节点。本实施例中每一个步骤称为1个节点，同理每1个成分称为1个节点。节点是由1句话或者1个词组组成，本实施例可使用bert模型提取每句话或每个单词的特征，实现方式如下：所有菜谱文本连通提取的主成分信息从最下方的文本信息输入，同时还会输入与菜谱文本信息以及主成分信息相伴随的位置信息和数据类型。位置信息是指若一句话中有 5个单词“peel and slice the mango”，则其位置信息分别为“1，2，3，4，5”。数据类型是指：若输入是步骤数据，其数据类型为 1；若输入是成分数据，其数据类型为2。通过该bert模型，可以获得每句话和每个单词的编码特征，该特征用于代表节点特征，即成分节点特征和步骤节点特征，成分节点特征和步骤节点特征都是一个高维向量，其维度均为维度（d维实向量）。在确定节点特征之后，如果该主成分存在该操作步骤中，则该成分节点和步骤节点需要有一条边连接，也即两个节点之间具有连接关系。可选的，可通过文本比对的方法，遍历步骤信息，提取每个步骤文本，然后依次查主成分，如果该主成分中的单词在该步骤中出现，则该步骤和该主成分之间连接一条边即有连接关系。通过遍历所有步骤文本，可以构建步骤节点预成分节点的连接关系，即异质图的连接关系。在异质图建立之后，异质图信息更新可采用图注意力网络实现特征聚合与更新，更新方法是依次遍历每个异质节点进行更新。通过异质图运算来实现文本特征的聚合与提取，计算方法可如下所示：首先对步骤节点进行更新，是步骤节点的第q个节点的节点特征，代表成分节点的第p个节点的特征。若步骤节点的第q个节点与成分节点的第p个节点有连接（边），则用成分节点的第p个节点的特征去更新步骤节点的第q个节点特征。在更新过程中，需要考虑各节点之间的相关性，本实施例可通过赋予权重来表示节点间的关联性，可选的，可调用下述关系式（1）计算步骤节点的第q个节点与成分节点的第p个节点特征的相关权重z
qp
。对于每个步骤节点，例如，遍历所有与其有相连的边的成分节点，假设有n
p
个，都会得到与
其对应的相关权重z
qp
。
58.ꢀꢀ
（1）其中，wa、wb、wc为已知的维矩阵，代表矩阵乘法，也即向量映射。
59.在更新完各步骤节点之后，可对所有与步骤节点相连的边的成分节点进行相关权重的归一化，也即可调用下述关系式（2）得到归一化的相关权重α
qp
：（2）式中，α
qp
代表步骤节点的第q个节点与成分节点的第p个节点特征的归一化的权重，l代表第l个成分节点，exp代表求指数函数，exp(z
qp
) 代表求z
qp
的指数函数，代表求取所有与步骤节点相连的边的成分节点的相关权重的总和。最后通过归一化的相关权重对步骤节点的节点特征进行更新，也即调用下述关系式（3）进行计算：
ꢀꢀ
（3）其中，代表超参数，在[0，1]区间。是维矩阵，是被与其相连的成分节点更新后的新的特征向量。
[0060]
进一步，基于残差网络的思想，调用下述关系式（4）可将更新后的与未更前的初始特征相加：（4）同理，可调用关系式（5）对成分节点也做相同的计算与更新，为更新后的特征：（5）其中，为步骤节点的第q个节点与成分节点的第p个节点特征的第k层网络的归一化的权重，为第k层网络的可训练的权重矩阵，为步骤节点的第q个节点的n个近邻节点集合。
[0061]
遍历完所有的成分节点和步骤节点，即完成图注意力网络一层的网络更新。通常，可叠加t层图注意力网络，用t代表第t层的图注意力网络，每一层的节点特征的更新方式都如上所述。通常会在每层图注意力网络后面加入集成全连接层，实现对节点特征（包括成分节点和步骤节点）特征的再编码，如下述关系式（6）所示：
ꢀꢀꢀ
（6）ffn代表全连接层，、代表t+1层的图注意力网络的初始化节点特征。
[0062]
如上完成了对本节点特征的更新，为了实现与菜谱图像的检索，还需要将所有文字节点的特征如操作步骤和成分信息进行归纳和综合。由于步骤节点融合了成分节点信息，成分节点通过图神经网络更新，以关键词的形式对相关步骤节点特征进行了强调。在获取各文本特征之后，可采用bilstm（双向长短期记忆神经网络）方法进一步挖掘步骤节点的时序信息，实现对文字节点特征的归纳综合，并将其打包成一个向量。
[0063]
本实施例可调用下述关系式（7）和（8）提取所有步骤节点的时序信息特征：
ꢀꢀ
（7）
ꢀꢀ
（8）其中，向左和向右的箭头代表lstm编码的方向，即步骤节点特征正序编码和倒序编码。代表bilstm中第q个单元的输出，箭头方向不同代表按照步骤节点输入顺序不同得到的bilstm编码输出。同理，则代表bilstm中第q-1个单元的输出，也即上一个状态的输出。假设菜谱步骤共有q步，为0，代表第t层的图神经网络的第q个步骤节点的特征。按照步骤的顺序和逆序，依次输入到其对应的bilstm网络中，最后得到所有步骤节点的bilstm编码，如下述关系式（9）所示：（9）在获取所有bilstm单元的输出之后，可通过求和后取平均值得到整个文本特征的输出。其中，e
rec
代表文本特征的输出，用来进行下一步的检索。将e
rec
特征与菜名title特征进行融合，代表特征拼接，即特征首尾相连。e
rec
特征最后会经过一个全连接层进行特征映射，也即e
rec
=fc(e
rec
)，得到新维度的向量，也即菜谱文本的文本特征信息，其用于作为与菜谱图像的编码特征进行匹配。
[0064]
上述实施例对如何执行步骤s103并不做任何限定，基于上述实施例，本技术还给出了一种可选的实施方式，包括下述内容：同样的，为了提高模型性能，图像异质图网络可包括多层第二图注意网络，每一层第二图注意网络之后还集成第二全连接层；将待搜索图像输入至预先训练好的图像特征提取模型，得到待搜索图像的原始图像特征；对图像异质图网络的各第二图注意力网络的每个图像异质节点，根据当前图像异质节点与其余各图像异质节点之间是否具有连接关系以及各图像异质节点之间的关联关系，更新当前图像异质节点的节点特征；基于更新后的图像异质图网络的每个图像异质节点的节点特征，生成待搜索文本的图像编码特征；将图像编码特征输入至预先训练好的图像特征生成模型，得到待搜索图像的图像特征。
[0065]
其中，图像特征提取模型用于提取待搜索图像以及图像样本的原始图像特征，其可基于任何一种现有的图像特征提取模型来提取，这均不影响本技术的实现。至于图像异质图网络的图运算，可基于上述实施例所提供的文本异质图网络的图运算方法实现，此处，便不再赘述。本实施例所针对的图像为包含一组图像的图像，对于图像特征生成模型是用于整合待搜索图像的所有图像特征的。
[0066]
同样的，为了使所属领域技术人员更加清楚明白本技术的技术方案，本实施例以
待搜索图像为菜谱步骤图为例阐述整个图像特征的生成过程：首先可使用resnet骨干网络提取每一张菜谱步骤图的原始图像特征，获取resnet网络在分类层前一层的特征作为每一张图像的特征，并用该特征构建图像异质图网络的图像节点，记为。ingredients为菜的成分，在下文统一用成分表示。本实施例菜的主成分通过对菜谱步骤图进行分类获得类别标签，该道菜通过图像分类共获得多少类别标签就有多少成分，例如：西红柿炒鸡蛋包括西红柿、鸡蛋、油等标签。如图3所示，图像异质图网络包含节点和关系。下面一行的代表了成分节点，来自于图像分类网络的对于图像的分类标签。我们对每个类别标签，例如芒果，将其输入到bert网络模型中，获取每个类别单词短语的编码特征，该特征代表节点特征。关系的建立仍然通过分类网络建立，如果该图像分类结果中有该类别，则该步骤图像特征就和该成分建立一条边。如图3所示，芒果在所有步骤图像中都出现了，所以所有步骤图像都会与其建立边。以上，节点和边都建立好了，下面就是如何使用图像异质图网络进行计算，以得到相应的图像特征：首先对步骤节点进行更新，是步骤图节点的第m个节点的节点特征，代表成分节点的第n个节点的特征。若步骤图节点的第m个节点与成分节点的第n个节点有连接（边），则用成分节点的第n个节点的特征去更新步骤图节点的第m个节点特征。在更新过程中，需要考虑各节点之间的相关性，本实施例可通过赋予权重来表示节点间的关联性，可选的，可调用下述关系式（10）计算步骤图节点的第m个节点与成分节点的第n个节点特征的相关权重z
mn
。对于每个步骤图节点，例如，遍历所有与其有相连的边的成分节点，假设有nn个，都会得到与其对应的相关权重z
mn
。
[0067]
ꢀꢀ
（10）其中，是维矩阵，代表矩阵乘法，也即向量映射，代表矩阵乘法，同样表示向量映射。
[0068]
在更新完各步骤图节点之后，可对所有与步骤图节点相连的边的成分节点进行相关权重的归一化，也即可调用下述关系式（11）得到归一化的相关权重α
mn
：（11）式中，exp代表求指数函数，代表求取所有与步骤图节点相连的边的成分节点的相关权重的总和。最后通过归一化的相关权重对步骤图节点的节点特征进行更新，也即调用下述关系式（12）进行计算：
ꢀꢀ
（12）其中，代表更新后的步骤图节点的节点特征，代表超参数，在[0，1]区间。是维矩阵，是被与其相连的成分节点更新后的新的特征向量。
[0069]
进一步，基于残差网络的思想，调用下述关系式（13）可将更新后的与未更前的初始特征相加：（13）同理，nm代表公共m个步骤图节点与该成分节点相连，可调用关系式（14）对成分节点也做相同的计算与更新：
ꢀꢀ
（14）式中，α
mn
代表步骤节点的第m个节点与成分节点的第n个节点特征的归一化的权重，α
qp
代表步骤节点的第q个节点与成分节点的第p个节点特征的归一化的权重，代表未更前的初始特征，代表更新后的特征，代表矩阵乘法，也即将映射至，代表第k层网络的可训练权重矩阵，代表矩阵乘法，也即将映射至。
[0070]
遍历完所有的成分节点和步骤节点，即完成图注意力网络一层的网络更新。通常，可叠加t层图注意力网络，用t代表第t层的图注意力网络，每一层的节点特征的更新方式都如上所述。通常会在每层图注意力网络后面加入集成全连接层，实现对节点特征（包括成分节点和步骤图节点）特征的再编码，如下述关系式（15）所示：
ꢀꢀꢀ
（15）ffn代表全连接层，代表t+1层的图注意力网络的初始化节点特征。
[0071]
在提供图像异质图网络得到菜谱步骤图的图像特征之后，可将图像特征输入至长短期记忆神经网络lstm中获取菜谱步骤图像的总体特征，也即可通过关系式获取得到。其中，lstm代表lstm网络的每一个单元。代表第m个lstm单元的输出。代表菜谱步骤图特征，来自于最后一层的异质图节点特征，m代表第m张图像。相应的，最后一个lstm单元的特征编码输出作为该菜谱步骤图的特征输出，也即。
[0072]
基于上述实施例，本实施例还提供了图像数据与文本数据的双向搜索模型的训练方法，请参见图4，可包括以下内容：s401：预先搭建图文双向搜索模型；s402：对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的原始图像特征、目标识别特征、图像特征和文本样本的目标文本特征、文本特征。
[0073]
本步骤的训练样本集包括多组训练样本，每组训练样本均包括相对应的一个文本样本和一个图像样本，也就是文本样本和图像样本为相匹配的一组样本数据，训练样本集所包含的训练样本组数可根据实际训练需求以及实际应用场景来确定，本技术对此不作任
何限定。训练样本集中的文本样本可从任何一种已有数据库中获取，该文本样本对应的图像样本可从相应的数据库中获取。当然，为了扩充训练样本集的数量。文本样本或图像文本也可为对原始文本样本或图像文本样本进行裁剪、拼接、拉伸等处理后的数据。
[0074]
s403：基于将目标识别特征和目标文本特征分别作为文本异质节点特征，并根据目标识别特征与目标文本特征间的包含关系确定连接边，构建图文双向搜索模型的文本异质图网络；s404：基于将原始图像特征和目标识别特征分别作为图像异质节点特征，并根据目标识别特征与原始图像特征间的关联关系确定连接边，构建图文双向搜索模型的图像异质图网络；s405：将每组训练样本的图像特征输入图像异质图网络、文本特征输入至文本异质图网络中，训练图文双向搜索模型。
[0075]
在本实施例中，一个文本样本的文本特征信息对应一个图像样本的图像特征，模型训练过程中，会采用损失函数来指导模型的训练，然后通过诸如梯度反传等方式实现对图文双向搜索模型的各网络参数的更新，直至满足模型训练条件，如达到迭代次数或者收敛效果较好。举例来说，图文双向搜索模型的训练过程可包括前向传播阶段和反向传播阶段，前向传播阶段是数据由低层次向高层次传播的阶段，反向传播阶段是当前向传播得出的结果与预期不相符时，将误差从高层次向底层次进行传播训练的阶段。具体来说，首先初始化所有网络层权值，如随机初始化；然后输入图像特征和文本特征信息经过图神经网络、卷积层、下采样层、全连接层等各层的前向传播得到输出值；计算图文双向搜索模型的模型输出值，并基于损失函数计算该输出值的损失值。将误差反向传回图文双向搜索模型中，依次求得图文双向搜索模型的各部分如图神经网络层，全连接层，卷积层等各层的反向传播误差。图文双向搜索模型的各层根据各层的反向传播误差对图文双向搜索模型的所有权重系数进行调整，实现权重的更新。重新随机选取新批次的图像特征和文本特征信息，然后再次进行上述过程，获得网络前向传播得到输出值。无限往复迭代，当计算得到的模型输出值与目标值（也即标签）之间的误差小于预设阈值时，或者迭代次数超过预设迭代次数时，结束模型训练。将结束模型训练当前对应的模型的所有层参数作为训练好的图文双向搜索模型的网络参数。
[0076]
其中，为了提高模型训练精度，本实施例还给出了一种损失函数的可选实施方式，也即可基于每组训练样本的文本特征及相应的图像特征，调用损失函数指导图文双向搜索模型的训练过程；损失函数可表述为：；式中，为损失函数，min d()用于表示计算距离的最小值的函数，yn为和的类别标签，ya为和的类别标签，n为训练样本组数，模型训练共遍历n次，n代表在本batch(批次)中，共有n个成对的样本。首先对图像组特征进行遍历（共n个），遍历选中的图像样本称为，a代表anchor（锚点样本）。与锚点样本成对的文本特征编码记为
，p代表positive。同理，在本batch中与不配对的文本特征记为。
▽
是超参数，在训练时固定，例如设置为0.3。同理，对于文本特征也做相同的遍历操作，代表遍历中被选中的那个样本，与其对应的正图像组特征样本记为，不对应的记为，
▽
是超参数。
[0077]
本实施例与上述实施例相同的步骤与相似的步骤可参阅上述实施例记载的实现方式，此处，便不再赘述。
[0078]
需要说明的是，本技术中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图1和图4只是一种示意方式，并不代表只能是这样的执行顺序。
[0079]
本发明实施例还针对图文双向搜索方法及图像文本匹配模型的训练方法提供了相应的装置，进一步使得方法更具有实用性。其中，装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的图文双向搜索装置及图像文本匹配模型的训练装置进行介绍，下文描述的图文双向搜索装置及图像文本匹配模型的训练装置与上文描述的图文双向搜索方法及图像文本匹配模型的训练方法可相互对应参照。
[0080]
基于功能模块的角度，首先请参见图5，图5为本发明实施例提供的图文双向搜索装置在一种具体实施方式下的结构图，该装置可包括：图像识别模块501，用于调用预先训练好的图文双向搜索模型的图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征；文本特征提取模块502，用于基于图文双向搜索模型的文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征；目标文本数据对应的目标文本特征包括目标识别特征；目标识别特征和目标文本特征为文本异质图网络的节点特征，文本异质图网络的连接边由目标识别特征与目标文本特征间的包含关系确定；图像特征提取模块503，用于基于图文双向搜索模型的图像异质图网络，获取包括一组子图像的待搜索图像的图像特征；待搜索图像的原始图像特征和目标识别特征作为图像异质图网络的节点特征，图像异质图网络的连接边由目标识别特征和原始图像特征之间的关联关系确定；双向搜索模块504，用于将图像特征和文本特征输入至预先训练好的图文双向搜索模型，得到图文搜索结果；图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络。
[0081]
可选的，在本实施例的一些实施方式中，上述文本特征提取模块502还可用于：获取仅包含一类目标文本数据的待搜索文本的文本特征，包括：响应文本拆分指令，将目标识别特征拆分为多个文本词组和/或文本单词，将目标文本数据拆分为多个文本语句；将各文本词组和/或文本单词输入至预先训练好的文本特征提取模型中，得到多个第一类节点特征；将各文本语句输入至文本特征提取模型中，得到多个第二类节点特征。
[0082]
作为上述实施例的一种可选的实施方式，上述文本特征提取模块502还可包括特征提取单元，用于搭建语言表征模型；语言表征模型包括文本信息输入层、特征提取层和文本特征输出层；特征提取层为基于转换器的双向编码器；利用自然语言文本样本数据集训练语言表征模型，并将训练好的语言表征模型作为文本特征提取模型。
[0083]
作为上述实施例的另一种可选的实施方式，上述文本特征提取模块502还可包括
位置输入单元，用于将各文本语句以及每个文本语句中包含的各词组、各单词所在当前文本语句中的位置信息，输入至文本特征提取模型。
[0084]
作为上述实施例的再一种可选的实施方式，上述文本特征提取模块502还可包括标识处理单元，用于获取下一时刻输入至文本特征提取模型中的数据的数据类型，以将数据类型连同相应的数据一起输入至文本特征提取模型中；数据类型包括用于标识目标识别特征的第一标识，和用于标识目标文本数据的第二标识。
[0085]
作为上述实施例的再一种可选的实施方式，上述文本特征提取模块502进一步还可包括边连接确定单元，用于对目标识别特征中的每个文本词组或文本单词，依次遍历目标文本数据的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则当前文本语句对应的第二类节点特征与当前文本词组对应的第一类节点特征具有连接关系；若当前文本语句所包含的目标单词与当前文本单词相同，则当前文本语句对应的第二类节点特征与当前文本单词对应的第一类节点特征具有连接关系。
[0086]
可选的，作为上述实施例的一种可选的实施方式，上述图像识别模块501还可用于预先利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络；将待搜索图像输入至图像识别网络中，得到待搜索图像的每张子图像所包含的目标识别特征。
[0087]
作为上述实施例的一种可选的实施方式，目标识别网络结构包括输入层、卷积结构、池化层及分类器；卷积结构包括基础运算组件和残差运算组件；基础运算组件用于对输入图像依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对基础运算组件的输出特征进行卷积计算；池化层，用于将卷积结构的输出特征转化为目标特征向量，并输送至分类器；分类器，用于通过对目标特征向量进行计算，并输出所属类别标签的概率。
[0088]
可选的，在本实施例的另一些实施方式中，上述文本特征提取模块502还可包括图运算单元，用于文本异质图网络包括多层第一图注意力网络，每一层第一图注意网络之后还集成第一全连接层；对文本异质图网络的各第一图注意力网络的每个文本异质节点，根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新当前文本异质节点的节点特征；基于更新后的文本异质图网络的每个文本异质节点的节点特征，生成待搜索文本的文本特征。
[0089]
作为上述实施例的一种可选的实施方式，上述图运算单元还可用于：确定与当前文本异质节点具有相连关系、且不为同一节点类型的目标文本异质节点；基于当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算当前文本异质节点与每个目标文本异质节点的初始权重值，并根据各初始权重值确定当前文本异质节点的权重值；基于权重值和各目标文本异质节点，对当前文本异质节点进行节点特征更新，并将当前文本异质节点更新后的节点特征和更新前的节点特征之和作为当前文本异质节点的节点特征。
[0090]
作为上述实施例的另一种可选的实施方式，上述图运算单元进一步可用于：调用权重计算关系式分别计算当前文本异质节点与每个目标文本异质节点的初始权重值；权重计算关系式为：；
其中，z
qp
为第q个文本异质节点与第p个文本异质节点的初始权重值，为激活函数，wa、wb、wc为已知的维矩阵，为第q个文本异质节点的节点特征，为第p个文本异质节点的节点特征。
[0091]
作为上述实施例的另一种可选的实施方式，上述图运算单元进一步还可用于：调用初次更新关系式，对当前文本异质节点的节点特征进行更新；初次更新关系式为：；式中，为第q个文本异质节点更新后的节点特征，为超参数，α
qp
为步骤节点的第q个节点与成分节点的第p个节点特征的归一化的权重为已知的维矩阵，为第p个文本异质节点的节点特征，为目标文本异质节点总数。
[0092]
可选的，在本实施例的再一些实施方式中，上述文本特征提取模块502还可进一步包括时序特征提取单元，用于各第二类节点特征之间具有先后执行顺序，将各第二类节点特征以及顺序信息，输入至预先训练好的时序特征提取模型中，得到时序信息特征；将时序信息特征，通过全连接层映射至文本特征中。
[0093]
作为上述实施例的一种可选的实施方式，上述时序特征提取单元可进一步用于：基于各第二类节点特征之间的先后顺序，依次将各第二类节点特征按照顺序和逆序输入至双向长短期记忆神经网络，得到各第二类节点特征的时序编码特征；根据每个第二类节点特征时序编码特征确定时序信息特征。
[0094]
作为上述实施例的另一种可选的实施方式，上述时序特征提取单元还可进一步用于：对每一个第二类节点特征，调用正序编码关系式，对当前第二类节点特征进行正序编码，得到正序编码特征；正序编码关系式为：；调用倒序编码关系式，对所述当前第二类节点特征进行正序编码，得到倒序编码特征；所述倒序编码关系式为：；将所述正序编码特征和所述倒序编码特征作为所述当前第二类节点特征的时序编码特征；式中，，为所述双向长短期记忆神经网络的正向编码方向的第q个单元的输出，为所述文本异质图网络中第t层图注意力网络的第q个第二类节点特征，为所述双向长短期记忆神经网络的正向编码方向的第q-1个单元的输出，q为第二类节点特征总数，为所述双向长短期记忆神经网络的倒向编码方向的第q个单元的输出，为所述双向长短期记忆神经网络的倒向编码方向的第q+1个单元的输出，为所述双向长短期记忆神经网络的倒向编码函数，为所述双向长短期记忆神经网络的正向编码函数。
[0095]
可选的，在本实施例的一些实施方式中，上述图像特征提取模块503还可用于：图像异质图网络包括多层第二图注意网络，每一层第二图注意网络之后还集成第二全连接层；将待搜索图像输入至预先训练好的图像特征提取模型，得到待搜索图像的原始图像特征；对图像异质图网络的各第二图注意力网络的每个图像异质节点，根据当前图像异质节点与其余各图像异质节点之间是否具有连接关系以及各图像异质节点之间的关联关系，更新当前图像异质节点的节点特征；基于更新后的图像异质图网络的每个图像异质节点的节点特征，生成待搜索文本的图像编码特征；将图像编码特征输入至预先训练好的图像特征生成模型，得到待搜索图像的图像特征。
[0096]
其次，请参见图6，图6为本发明实施例提供的图像文本匹配模型的训练装置在一种具体实施方式下的结构图，该装置可包括：特征提取模块601，用于对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的原始图像特征、目标识别特征、图像特征和文本样本的目标文本特征、文本特征；目标文本特征包括目标识别特征；图像样本包括一组子图像；模型搭建模块602，用于预先搭建图文双向搜索模型；基于将目标识别特征和目标文本特征分别作为文本异质节点特征，并根据目标识别特征与目标文本特征间的包含关系确定连接边，构建图文双向搜索模型的文本异质图网络；基于将原始图像特征和目标识别特征分别作为图像异质节点特征，并根据各目标识别特征与原始图像特征间的关联关系确定连接边，构建图文双向搜索模型的图像异质图网络；模型训练模块603，用于将每组训练样本的图像特征输入图像异质图网络、文本特征输入至文本异质图网络中，训练图文双向搜索模型。
[0097]
本发明实施例所述图文双向搜索装置及图像文本匹配模型的训练装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
[0098]
由上可知，本发明实施例可有效提升图像数据和文本数据之间的双向搜索精度。
[0099]
上文中提到的图文双向搜索装置及图像文本匹配模型的训练装置是从功能模块的角度描述，进一步的，本技术还提供一种图文双向搜索设备，是从硬件角度描述。图7为本技术实施例提供的图文双向搜索设备在一种实施方式下的结构示意图。如图7所示，该图文双向搜索设备可包括存储器70，用于存储计算机程序；处理器71，用于执行计算机程序时实现如上述任一实施例提到的图文双向搜索方法及图像文本匹配模型的训练方法的步骤。人机交互组件72用于通过信息输入/信息输出接口，接收用户输入的训练样本集选择请求、模型训练请求、搜索请求以及向用户展示图文搜索结果；通信组件73用于传输图像文本匹配模型的训练过程中以及图文双向搜索任务执行过程中的数据及指令。
[0100]
其中，处理器71可以包括一个或多个处理核心，比如4核心处理器、8核心处理器，处理器71还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器71可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器
71可以集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器71还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0101]
存储器70可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器70还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。存储器70在一些实施例中可以是图文双向搜索设备的内部存储单元，例如服务器的硬盘。存储器70在另一些实施例中也可以是图文双向搜索设备的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡（smart media card，smc），安全数字（secure digital，sd）卡，闪存卡（flash card）等。进一步地，存储器70还可以既包括图文双向搜索设备的内部存储单元也包括外部存储设备。存储器70不仅可以用于存储安装于图文双向搜索设备的应用软件及各类数据，例如：执行图文双向搜索过程中以及图像文本匹配模型的训练过程中使用以及产生的程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中，存储器70至少用于存储以下计算机程序701，其中，该计算机程序被处理器71加载并执行之后，能够实现前述任一实施例公开的图文双向搜索方法中以及图像文本匹配模型的训练方法的相关步骤。另外，存储器70所存储的资源还可以包括操作系统702和数据703等，存储方式可以是短暂存储或者永久存储。其中，操作系统702可以包括windows、unix、linux等。数据703可以包括但不限于图文双向搜索过程中以及图像文本匹配模型的训练过程所生成的数据以及双向搜索结果等对应的数据等。
[0102]
人机交互组件72可包括有显示屏、信息输入/信息输出接口如键盘或鼠标，显示屏、信息输入/信息输出接口属于用户接口，可选的用户接口还可以包括标准的有线接口、无线接口等。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled（organic light-emitting diode，有机发光二极管）触摸器等。显示器也可以适当的称为显示屏或显示单元，用于显示在互检索设备中处理的信息以及用于显示可视化的用户界面。通信组件73可包括通信接口或者称为网络接口、通信总线等，通信接口可选的可以包括有线接口和/或无线接口，如wi-fi接口、蓝牙接口等，通常用于在图文双向搜索设备与其他设备之间建立通信连接。通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。在一些实施例中，上述互检索设备还可包括电源74以及实现各类功能的传感器75。本领域技术人员可以理解，图7中示出的结构并不构成对该图文双向搜索设备的限定，可以包括比图示更多或更少的组件。
[0103]
进一步的，本实施例中并不对图文双向搜索设备的数量进行限定，其可以是多个图文双向搜索设备共同协作完成的图文双向搜索模型训练方法和/或图像文本匹配模型的训练方法。在一种可能的实施方式中，请参考图8，图8为本技术实施例提供的另一种图文双向搜索模型训练方法和/或图像文本匹配模型的训练方法所适用的硬件组成框架示意图。由图8可知，该硬件组成框架可以包括：第一图文双向搜索设备81和第二图文双向搜索设备82，二者之间通过网络连接。
[0104]
在本技术实施例中，第一图文双向搜索设备81和第二图文双向搜索设备82的硬件
结构可以参考图7中电子设备。即可以理解为本实施例中具有两个电子设备，两者进行数据交互。可将如图9所示的训练好的图文双向搜索模型预部署在任何一台设备中，进一步，本技术实施例中并不对网络的形式进行限定，即，网络可以是无线网络（如wifi、蓝牙等），也可以是有线网络。
[0105]
其中，第一图文双向搜索设备81和第二图文双向搜索设备82可以是同一种电子设备，如第一图文双向搜索设备81和第二图文双向搜索设备82均为服务器；也可以是不同类型的电子设备，例如，第一图文双向搜索设备81可以是智能手机或其它智能终端，第二图文双向搜索设备82可以是服务器。在该种实施方式中，为了提高整体性能，可将模型训练过程以及训练好的图文双向搜索模型预部署计算性能高的那端。也即可以利用计算能力强的服务器作为第二图文双向搜索设备82来提高数据处理效率及可靠性，进而提高模型训练和/或图文双向检索的处理效率。同时利用成本低，应用范围广的智能手机作为第一图文双向搜索设备81，用于实现第二图文双向搜索设备82与用户之间的交互。可以理解的是，该交互过程例如可以为：智能手机从服务器处获取训练样本集，并获取训练样本集的标签，将这些标签发送至服务器，由服务器利用获取到的标签进行后续的模型训练步骤。服务器在生成图文双向搜索模型后，获取智能手机发送的搜索请求，搜索请求为用户下发的，且携带待搜索数据，服务器在获取到该搜索请求后，通过解析搜索请求确定待搜索数据，并调用图文双向搜索模型对待搜索数据进行相应处理，得到相应的搜索结果，同时将搜索结果反馈至第一图文双向搜索设备81。
[0106]
本发明实施例所述图文双向搜索设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。
[0107]
由上可知，本发明实施例可有效提升图像数据和文本数据之间的双向搜索精度。
[0108]
可以理解的是，如果上述实施例中的图文双向搜索方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（read-only memory，rom）、随机存取存储器（random access memory，ram）、电可擦除可编程rom、寄存器、硬盘、多媒体卡、卡型存储器（例如sd或dx存储器等）、磁性存储器、可移动磁盘、cd-rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0109]
基于此，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时如上任意一实施例所述图文双向搜索方法的步骤。
[0110]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0111]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些
功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0112]
以上对本技术所提供的一种图文双向搜索方法及装置、图像文本匹配模型的训练方法及装置、图文双向搜索设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本技术进行若干改进和修饰，这些改进和修饰也落入本技术权利要求的保护范围内。

技术特征：

1.一种图文双向搜索方法，其特征在于，包括：预先训练图文双向搜索模型；所述图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络；调用所述图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征；基于所述文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征；所述目标文本数据对应的目标文本特征包括所述目标识别特征；所述目标识别特征和所述目标文本特征为所述文本异质图网络的节点特征，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定；基于所述图像异质图网络，获取包括一组子图像的待搜索图像的图像特征；所述待搜索图像的原始图像特征和所述目标识别特征作为所述图像异质图网络的节点特征，所述图像异质图网络的连接边由所述目标识别特征和所述原始图像特征之间的关联关系确定；将所述图像特征和所述文本特征输入至所述图文双向搜索模型，得到图文搜索结果。2.根据权利要求1所述的图文双向搜索方法，其特征在于，所述预先训练图文双向搜索模型之后，还包括：响应文本拆分指令，将所述目标识别特征拆分为多个文本词组和/或文本单词，将所述目标文本数据拆分为多个文本语句；将各文本词组和/或文本单词输入至预先训练好的文本特征提取模型中，得到多个第一类节点特征；将各文本语句输入至所述文本特征提取模型中，得到多个第二类节点特征。3.根据权利要求2所述的图文双向搜索方法，其特征在于，所述获取仅包含一类目标文本数据的待搜索文本的文本特征之前，还包括：搭建语言表征模型；所述语言表征模型包括文本信息输入层、特征提取层和文本特征输出层；所述特征提取层为基于转换器的双向编码器；利用自然语言文本样本数据集训练所述语言表征模型，并将训练好的语言表征模型作为文本特征提取模型。4.根据权利要求2所述的图文双向搜索方法，其特征在于，所述将各文本语句输入至所述文本特征提取模型中，包括：将各文本语句以及每个文本语句中包含的各词组、各单词所在当前文本语句中的位置信息，输入至所述文本特征提取模型。5.根据权利要求2所述的图文双向搜索方法，其特征在于，所述将各文本词组和/或文本单词输入至预先构建的文本特征提取模型中，得到多个第一类节点特征之前，以及所述将各文本语句输入至所述文本特征提取模型中，得到多个第二类节点特征之前，还包括：获取下一时刻输入至文本特征提取模型中的数据的数据类型，以将所述数据类型连同相应的数据一起输入至所述文本特征提取模型中；所述数据类型包括用于标识所述目标识别特征的第一标识，和用于标识所述目标文本数据的第二标识。6.根据权利要求2所述的图文双向搜索方法，其特征在于，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定，包括：
对所述目标识别特征中的每个文本词组或文本单词，依次遍历所述目标文本数据的每个文本语句；若当前文本语句所包含的目标词组与当前文本词组相同，则所述当前文本语句对应的第二类节点特征与所述当前文本词组对应的第一类节点特征具有连接关系；若所述当前文本语句所包含的目标单词与当前文本单词相同，则所述当前文本语句对应的第二类节点特征与所述当前文本单词对应的第一类节点特征具有连接关系。7.根据权利要求1所述的图文双向搜索方法，其特征在于，所述调用所述图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征，包括：预先利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络；将所述待搜索图像输入至所述图像识别网络中，得到所述待搜索图像的每张子图像所包含的目标识别特征。8.根据权利要求7所述的图文双向搜索方法，其特征在于，所述利用在包含多张子图像的图像样本中标注相应目标识别特征的目标训练样本集，训练得到图像识别网络之前，还包括：预先构建目标识别网络结构，所述目标识别网络结构包括输入层、卷积结构、池化层及分类器；所述卷积结构包括基础运算组件和残差运算组件；所述基础运算组件用于对输入图像依次进行卷积处理、正则化处理、激活函数处理及最大池化处理；所述残差运算组件包括多个相连的残差块，每个残差块均包括多层卷积层，用于对所述基础运算组件的输出特征进行卷积计算；所述池化层，用于将所述卷积结构的输出特征转化为目标特征向量，并输送至所述分类器；所述分类器，用于通过对所述目标特征向量进行计算，并输出所属类别标签的概率。9.根据权利要求1所述的图文双向搜索方法，其特征在于，所述文本异质图网络包括多层第一图注意力网络，每一层第一图注意网络之后还集成第一全连接层；所述获取仅包含一类目标文本数据的待搜索文本的文本特征，包括：对所述文本异质图网络的各第一图注意力网络的每个文本异质节点，根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新所述当前文本异质节点的节点特征；基于更新后的文本异质图网络的每个文本异质节点的节点特征，生成所述待搜索文本的文本特征。10.根据权利要求9所述的图文双向搜索方法，其特征在于，所述根据当前文本异质节点与其余各文本异质节点之间是否具有连接关系以及各文本异质节点之间的关联关系，更新所述当前文本异质节点的节点特征，包括：确定与所述当前文本异质节点具有相连关系、且不为同一节点类型的目标文本异质节点；基于所述当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算所述当前文本异质节点与每个目标文本异质节点的初始权重值，并根据各初
始权重值确定所述当前文本异质节点的权重值；基于所述权重值和各目标文本异质节点，对所述当前文本异质节点进行节点特征更新，并将所述当前文本异质节点更新后的节点特征和更新前的节点特征之和作为所述当前文本异质节点的节点特征。11.根据权利要求10所述的图文双向搜索方法，其特征在于，所述基于所述当前文本异质节点的节点特征与各目标文本异质节点的节点特征之间的关联关系，计算所述当前文本异质节点与每个目标文本异质节点的初始权重值，包括：调用权重计算关系式分别计算所述当前文本异质节点与每个目标文本异质节点的初始权重值；所述权重计算关系式为：；其中，z
qp
为第q个文本异质节点与第p个文本异质节点的初始权重值，为激活函数，w
a
、w
b
、w
c
为已知的维矩阵，为第q个文本异质节点的节点特征，为第p个文本异质节点的节点特征。12.根据权利要求10所述的图文双向搜索方法，其特征在于，所述基于所述权重值和各目标文本异质节点，对所述当前文本异质节点进行节点特征更新，包括：调用初次更新关系式，对所述当前文本异质节点的节点特征进行更新；所述初次更新关系式为：；式中，为第q个文本异质节点更新后的节点特征，为超参数，α
qp
为步骤节点的第q个节点与成分节点的第p个节点特征的归一化的权重，为已知的维矩阵，为第p个文本异质节点的节点特征，为目标文本异质节点总数。13.根据权利要求1至12任意一项所述的图文双向搜索方法，其特征在于，所述目标文本数据对应的各第二类节点特征之间具有先后执行顺序，所述基于所述文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征之后，还包括：将各第二类节点特征以及顺序信息，输入至预先训练好的时序特征提取模型中，得到时序信息特征；将所述时序信息特征，通过全连接层映射至所述文本特征中。14.根据权利要求13所述的图文双向搜索方法，其特征在于，所述将各第二类节点特征以及顺序信息，输入至预先训练好的时序特征提取模型，得到时序信息特征，包括：基于各第二类节点特征之间的先后顺序，依次将各第二类节点特征按照顺序和逆序输入至双向长短期记忆神经网络，得到各第二类节点特征的时序编码特征；根据每个第二类节点特征时序编码特征确定时序信息特征。15.根据权利要求13所述的图文双向搜索方法，其特征在于，所述基于各第二类节点特征之间的先后顺序，依次将各第二类节点特征按照顺序和逆序输入至双向长短期记忆神经网络，得到各第二类节点特征的时序编码特征，包括：对每一个第二类节点特征，调用正序编码关系式，对当前第二类节点特征进行正序编
码，得到正序编码特征；所述正序编码关系式为：；调用倒序编码关系式，对所述当前第二类节点特征进行正序编码，得到倒序编码特征；所述倒序编码关系式为：；将所述正序编码特征和所述倒序编码特征作为所述当前第二类节点特征的时序编码特征；式中，，为所述双向长短期记忆神经网络的正向编码方向的第q个单元的输出，为所述文本异质图网络中第t层图注意力网络的第q个第二类节点特征，为所述双向长短期记忆神经网络的正向编码方向的第q-1个单元的输出，q为第二类节点特征总数，为所述双向长短期记忆神经网络的倒向编码方向的第q个单元的输出，为所述双向长短期记忆神经网络的倒向编码方向的第q+1个单元的输出，为所述双向长短期记忆神经网络的倒向编码函数，为所述双向长短期记忆神经网络的正向编码函数。16.根据权利要求1所述的图文双向搜索方法，其特征在于，所述图像异质图网络包括多层第二图注意网络，每一层第二图注意网络之后还集成第二全连接层；所述获取包括一组子图像的待搜索图像的图像特征，包括：将所述待搜索图像输入至预先训练好的图像特征提取模型，得到所述待搜索图像的原始图像特征；对所述图像异质图网络的各第二图注意力网络的每个图像异质节点，根据当前图像异质节点与其余各图像异质节点之间是否具有连接关系以及各图像异质节点之间的关联关系，更新所述当前图像异质节点的节点特征；基于更新后的图像异质图网络的每个图像异质节点的节点特征，生成所述待搜索文本的图像编码特征；将所述图像编码特征输入至预先训练好的图像特征生成模型，得到所述待搜索图像的图像特征。17.一种图像文本匹配模型的训练方法，其特征在于，包括：预先搭建图文双向搜索模型；对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的原始图像特征、目标识别特征、图像特征和文本样本的目标文本特征、文本特征；所述目标文本特征包括所述目标识别特征；所述图像样本包括一组子图像；基于将所述目标识别特征和所述目标文本特征分别作为文本异质节点特征，并根据所述目标识别特征与所述目标文本特征间的包含关系确定连接边，构建所述图文双向搜索模型的文本异质图网络；基于将所述原始图像特征和所述目标识别特征分别作为图像异质节点特征，并根据所述目标识别特征与所述原始图像特征间的关联关系确定连接边，构建所述图文双向搜索模
型的图像异质图网络；将每组训练样本的图像特征输入所述图像异质图网络、文本特征输入至所述文本异质图网络中，训练所述图文双向搜索模型。18.一种图文双向搜索装置，其特征在于，包括：图像识别模块，用于调用预先训练好的图文双向搜索模型的图像识别网络，获取待搜索图像的每张子图像所包含的目标图像块的目标识别特征；文本特征提取模块，用于基于所述图文双向搜索模型的文本异质图网络，获取仅包含一类目标文本数据的待搜索文本的文本特征；所述目标文本数据对应的目标文本特征包括所述目标识别特征；所述目标识别特征和所述目标文本特征为所述文本异质图网络的节点特征，所述文本异质图网络的连接边由所述目标识别特征与所述目标文本特征间的包含关系确定；图像特征提取模块，用于基于所述图文双向搜索模型的图像异质图网络，获取包括一组子图像的待搜索图像的图像特征；所述待搜索图像的原始图像特征和所述目标识别特征作为所述图像异质图网络的节点特征，所述图像异质图网络的连接边由所述目标识别特征和所述原始图像特征之间的关联关系确定；双向搜索模块，用于将所述图像特征和所述文本特征输入至预先训练好的图文双向搜索模型，得到图文搜索结果；所述图文双向搜索模型包括文本异质图网络、图像异质图网络和图像识别网络。19.一种图像文本匹配模型的训练装置，其特征在于，包括：特征提取模块，用于对训练样本集的每组训练样本，分别获取当前组训练样本中的图像样本的原始图像特征、目标识别特征、图像特征和文本样本的目标文本特征、文本特征；所述目标文本特征包括所述目标识别特征；所述图像样本包括一组子图像；模型搭建模块，用于预先搭建图文双向搜索模型；基于将所述目标识别特征和所述目标文本特征分别作为文本异质节点特征，并根据所述目标识别特征与所述目标文本特征间的包含关系确定连接边，构建所述图文双向搜索模型的文本异质图网络；基于将所述原始图像特征和所述目标识别特征分别作为图像异质节点特征，并根据各目标识别特征与所述原始图像特征间的关联关系确定连接边，构建所述图文双向搜索模型的图像异质图网络；模型训练模块，用于将每组训练样本的图像特征输入所述图像异质图网络、文本特征输入至所述文本异质图网络中，训练所述图文双向搜索模型。20.一种图文双向搜索设备，其特征在于，包括处理器、存储器、人机交互组件以及通信组件；所述人机交互组件用于通过信息输入/信息输出接口，接收用户输入的训练样本集选择请求、模型训练请求、搜索请求以及向用户展示图文搜索结果；所述通信组件用于传输图像文本匹配模型的训练过程中以及图文双向搜索任务执行过程中的数据及指令；所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1或16任一项所述图文双向搜索方法和/或如权利要求17所述图像文本匹配模型的训练方法的步骤。21.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1或16任一项所述图文双向搜索方法和/或如权
利要求17所述图像文本匹配模型的训练方法的步骤。

技术总结

本申请公开了一种图文双向搜索及匹配模型训练方法、装置、设备及介质，应用于信息检索技术领域。方法为：预先训练包括文本异质图网络、图像异质图网络和图像识别网络的图文双向搜索模型。调用图像识别网络获取待搜索图像的目标识别特征；基于文本异质图网络，获取待搜索文本的文本特征和目标文本特征，文本异质图网络是由目标文本特征和目标识别特征作为节点所构建。基于图像异质图网络，获取待搜索图像的图像特征；图像异质图网络是由待搜索图像的原始图像特征和目标识别特征作为节点所构建。将图像特征和文本特征输入至图文双向搜索模型得到图文搜索结果，可有效提升图文数据间的双向搜索精度。的双向搜索精度。的双向搜索精度。