一种基于深度度量学习的细粒度跨媒体检索方法与流程



1.本发明涉及跨媒体检索技术领域,具体为一种基于深度度量学习的细粒度跨媒体检索方法。


背景技术:



2.近些年来,各种细粒度跨媒体检索方法是跨媒体检索领域最常采用的一类方法;跨媒体深度度量学习的研究者们将具有丰富媒体独特信息的特征直接映射到嵌入空间中进行度量学习,同时不需要额外的细粒度语义特征学习网络或者公共空间学习;研究者们把深度网络视为一个黑盒,旨在把网络最后一层softmax层替换成线性层或者非线性层来将不同媒体的特征映射到嵌入空间中进行相似性度量,他们认为仅仅需要在嵌入空间中进行相似性度量就可以解决“媒体鸿沟”问题,而不需要对网络结构进行额外的修改;例如,world wide web期刊中deep adversarial metric learning for cross-modal retrieval的论文中使用对抗度量学习来学习不同媒体数据的相似性,通过优化对抗损失来缩小类内差异、增大类间差异并缩小同一类中不同媒体数据对的差异,这可以有效度量不同媒体之间的差异;然而这类方法是基于粗粒度级别的深度度量学习方法,由于细粒度数据集具有类间方差小、类内方差大的特点,这使得同时度量细粒度差发异和媒体差异比较困难。
3.此外,传统的深度度量学习方法都是基于元组的度量学习方法;这些基于元组的深度度量学习方法由于需要对正负样本进行采样,这会导致元组内含有大量的冗余信息并且导致模型训练复杂度达到甚至,其中是训练样本的数量;近年来主流的深度度量学习方法通过为训练数据设置代理来解决基于元组方法的训练复杂度问题,通过为每一个类别设置一个代理,然后计算每个训练数据与代理之间的距离来解决信息冗余问题;然而,这种方法只计算训练数据与所有代理之间的差异,这导致该方法不能有效利用数据与数据之间丰富的语义信息;与此相比,cvpr 2020国际会议中proxy anchor loss for deep metric learning论文中提出了基于代理锚的深度度量学习方法,他们将每个代理与嵌入空间中的所有数据相关联,可以同时计算数据与代理、数据与数据之间的相关性;细粒度跨媒体检索任务不仅需要计算不同媒体数据到各个类别代理之间的差异以减少类内方差、增大类间方差,还需要计算不同媒体数据与数据之间的差异以减少语义差异。


技术实现要素:



4.本发明的目的在于提供一种基于深度度量学习的细粒度跨媒体检索方法,以解决上述背景技术提出的问题。
5.为实现上述目的,本发明提供如下技术方案:一种基于深度度量学习的细粒度跨媒体检索方法,包括如下步骤:s1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;
s11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中;s12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失;s2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;s21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体,对正样本和负样本进行采样,通过拉进正样本并远离负样本,将属于同一细粒度子类别的数据聚集在一起;s22.为了防止模型训练过程中发生拟合,采用l2范数的平方作为距离度量函数,从而来推断出跨媒体元组损失;s23.对跨媒体元组损失进行梯度优化;s3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;s31.通过度量相同细粒度子类别数据和代理之间的距离来到该类别的代理点;s32.使用跨媒体代理损失对代理点和每个训练数据进行约束;s33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异,促进负样本远离代理点增加类间差异。
6.进一步的,在s11中,将图像、视频、音频和文本这四种不同的媒体数据混合输入到网络中进行训练,通过一个统一的深度网络来提取不同媒体数据的特征表示;网络的输入可表示为,其中、、、代表图像、视频、音频、文本;通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中;线性层的输出可以表示为,其中,为嵌入空间的维度,深度度量学习方法为:;其中为当前计算的数据,为正样本,为负样本,为当前计算的代理,为正样本数据集合,为负样本数据集合,为跨媒体元组度量学习函数,为跨媒体代理度量学习函数。
7.更进一步的,在s2中,嵌入空间中包含四种不同的媒体数据,每种媒体数据可表示为,表示第个数据的特征向量,表示标签;若当前对第个数据计算跨媒体元组损失,则输入数据为,将嵌入空间中所有与标签相同的数据标记为正样本,并将嵌入空间中所有与标签不同的数据标记为负样本;然后同时度量与正样本的距离
和与负样本之间的距离,跨媒体元组度量学习要求当前计算数据与正样本距离近、与负样本距离远,可表示为:;其中,表示正样本对和负样本对之间的边距。
8.进一步的,采用l2范数的平方来作为距离度量函数,跨媒体元组损失可以定义为:;该损失梯度优化过程如下:;;;通过学习每个数据与数据之间丰富的语义信息可以使接近,并使远离。
9.更进一步的,在s31中,对于嵌入空间中的每一个数据,确定每个类别代理的特征向量表示,通过度量相同细粒度子类别数据和代理之间的距离来到该类别最合适的代理点,可表示为:;其中使用l2范数的平方作来度量代理点和数据之间的距离,该距离度量可表示为:。
10.进一步的,在s32中,将嵌入空间中的所有数据分为正样本集合和负样本集合,使用跨媒体代理损失来约束代理点和每个训练数据,损失如下:
;其中表示当前计算的代理点,表示所有代理的集合,表示所有正代理的集合,表示人工定义的参数,表示细粒度子类别之间的边距,表示余弦相似度。
11.更进一步的,在s33中,跨媒体代理损失梯度更新过程如下:;;其中。
12.与现有技术相比,本发明的有益效果是:本技术通过线性层将不同的媒体特征直接映射到嵌入空间中进行相似性度量;并且为了有效度量不同媒体特征之间的相似性,采用跨媒体元组度量学习方法来度量不同媒体间的跨媒体相关性,并且采用跨媒体代理度量学习方法来度量各个媒体内的细粒度语义相关性;对比传统的细粒度跨媒体网络结构,本发明不需要构建复杂的跨媒体学习网络和细粒度语义特征学习网络,具有更低的模型复杂度。
附图说明
13.图1为本发明基于深度度量学习的细粒度跨媒体检索网络结构示意图;图2为本发明基于深度度量学习的细粒度跨媒体检索方法流程图。
具体实施方式
14.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
15.请参照图1和图2所示,本发明为一种基于深度度量学习的细粒度跨媒体检索方法,包括如下步骤:s1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;s11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中;s12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失;
s2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;s21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体,对正样本和负样本进行采样,通过拉进正样本并远离负样本,将属于同一细粒度子类别的数据聚集在一起;s22.为了防止模型训练过程中发生拟合,采用l2范数的平方作为距离度量函数,从而来推断出跨媒体元组损失;s23.对跨媒体元组损失进行梯度优化;s3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;s31.通过度量相同细粒度子类别数据和代理之间的距离来到该类别的代理点;s32.使用跨媒体代理损失对代理点和每个训练数据进行约束;s33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异,促进负样本远离代理点增加类间差异。
16.在本实施例中,在s1中,首先,将一组多媒体实例混合输入到同一个深度网络(例如卷积网络或者注意力网络)中提取特征,然后通过线性层将这些不同媒体的特征映射到嵌入空间中进行度量学习;最后,通过本发明提出的跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性。
17.为了减少模型训练复杂度,本发明将图像、视频、音频和文本这四种不同的媒体数据混合输入到网络中进行训练,旨在通过一个统一的深度网络来提取不同媒体数据的特征表示,网络的输入可以表示成,其中、、、代表图像、视频、音频、文本,通过将深度网络(例如resnet50网络结构)的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中,线性层的输出可以表示为,其中,为嵌入空间的维度(实验中将设定为512维,表示在嵌入空间中采用512维的特征向量来代表每一个训练数据);由于不同的媒体特征表达的含义不同,它们在这个嵌入空间中优先按媒体类别分布而不是按细粒度子类别,本发明通过跨媒体深度度量方法计算这个嵌入空间中数据与代理之间的细粒度损失和数据与数据之间的跨媒体损失,深度度量学习方法可以表示以下形式:;其中为当前计算的数据,为正样本,为负样本,为当前计算的代理,为正样本数据集合,为负样本数据集合,为跨媒体元组度量学习函数,为跨媒体代理度量学习函数,通过跨媒体元组度量学习来使每个训练数据接近嵌入空间中所有的正样本,远离嵌入空间中的所有负样本,并通过跨媒体代理度量学习来为每种媒体中不同的细粒度子类别设置值代理,使得媒体内的数据更加接近正代理,远离负代理。
18.在本实施例中,跨媒体度量学习有两种:跨媒体元组度量学习和跨媒体代理度量
学习;在s2中,跨媒体元组度量学习旨在将嵌入空间中的所有数据按细粒度子类别进行分布而不是按媒体类型,由于嵌入空间中具有相同细粒度子类别的不同媒体数据距离很远,然而具有不同细粒度子类别的相同媒体数据距离却很近,因此,将图像、视频、音频和文本这四种不同媒体的特征视为一个整体,对正样本和负样本进行采样,通过拉近正样本并远离负样本,将属于同一细粒度子类别的数据聚集在一起。
19.具体来说,嵌入空间中包含四种不同的媒体数据,每种媒体数据可以表示为,表示第个数据的特征向量,表示标签,假设当前对第个数据计算跨媒体元组损失,则输入数据为,将嵌入空间中所有与标签相同的数据标记为正样本,并将嵌入空间中所有与标签不同的数据标记为负样本。然后同时度量与正样本的距离和与负样本之间的距离,跨媒体元组度量学习要求当前计算数据与正样本距离近、与负样本距离远,可以表示为:;其中,表示正样本对和负样本对之间的边距。通过对正负样本距离进行约束,从而拉近属于同一细粒度子类别的不同媒体数据;为了防止模型训练过程中发生过拟合,采用l2范数的平方来作为距离度量函数。因此,跨媒体元组损失可定义为:;该损失梯度优化过程如下:;;;通过学习每个数据与数据之间丰富的语义信息可以使接近,并使远离,从而有效解决“媒体鸿沟”问题 ,然而由于随机选取的样本会导致数据的分布并不一定均匀,模型训练过程会表现很不稳定,并且收敛缓慢;因此选择合适的正负样本组合是至关重要的,实验中将使用元组在线生成方法,通过对训练数据中的负样本进行采样,选取固定数量的最不满足正负样本距离判别式的困难样本组合来进行度量学习。
20.在s3中,由于跨媒体深度度量学习方法将不同的媒体数据直接映射到嵌入空间中,没有对这些不同的媒体特征进行特殊处理,因此嵌入空间中的特征具有大量的媒体独特信息。跨媒体代理度量学习旨在学习这些特征之间的细粒度语义相关性来缩小内类差异、增加类间差异,将图像、视频、音频和文本这四种媒体数据按媒体类型作为划分,分别进行度量学习,通过为每一种细粒度子类别设置代理,然后度量各个代理与媒体空间中所有数据之间的距离,从而使具有相同细粒度子类别的数据接近代理,使具有不同细粒度子类别的数据远离代理。
21.具体来说,对于嵌入空间中的每一个数据,首先需要确定每个类别代理的特征向量表示,通过度量相同细粒度子类别数据和代理之间的距离来到该类别最合适的代理点,可表示为:;其中使用l2范数的平方作来度量代理点和数据之间的距离,该距离度量可以表示为:;根据当前计算的代理点的类别,将嵌入空间中的所有数据分为正样本集合和负样本集合,使用跨媒体代理损失来约束代理点和每个训练数据,该损失定义如下:;其中表示当前计算的代理点,表示所有代理的集合,表示所有正代理的集合,表示人工定义的参数,表示细粒度子类别之间的边距,表示余弦相似度,该损失梯度更新过程如下:;;其中;可以发现,当正样本距离代理点较远时,变大,当负样本
距离代理点较近时,变大,通过优化跨媒体代理损失可以促进正样本接近代理点来减小类内差异,促进负样本远离代理点来增加类间差异,同时,由于本方法仅仅为每一个细粒度子类别设置一个代理,代理点的数量相比于训练样本要少得多,这可以大大降低模型训练复杂度。
22.尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:


1.一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,包括如下步骤:s1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;s11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中;s12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失;s2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;s21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体,对正样本和负样本进行采样,通过拉进正样本并远离负样本,将属于同一细粒度子类别的数据聚集在一起;s22.为了防止模型训练过程中发生拟合,采用l2范数的平方作为距离度量函数,从而来推断出跨媒体元组损失;s23.对跨媒体元组损失进行梯度优化;s3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;s31.通过度量相同细粒度子类别数据和代理之间的距离来到该类别的代理点;s32.使用跨媒体代理损失对代理点和每个训练数据进行约束;s33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异,促进负样本远离代理点增加类间差异。2.根据权利要求1所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,在s11中,通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中;线性层的输出表示为,其中 d为嵌入空间的维度,度量学习方法为:;其中a为当前计算的数据,p为正样本,n为负样本,c为当前计算的代理,为正样本数据集合,为负样本数据集合,为跨媒体元组度量学习函数,为跨媒体代理度量学习函数。3.根据权利要求2所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,在s2中,不同媒体的特征包含四种媒体数据,其中每种媒体数据表示为,表示第i个数据的特征向量,表示标签;当对第i个数据计算跨媒体元组损失,则输入数据为,将嵌入空间中所有与标签相同的数据标记为正样本,并将嵌入空间中所有与标签不同的数据标记为负样本;然后同时度量 与正样本的距离 和与负样本之间的距离,跨媒体元组度量学习为当前计算数据与正样本距离近、与负样本距离远,表示为:
;其中,表示正样本对和负样本对之间的边距。4.根据权利要求3所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,采用l2范数的平方来作为距离度量函数,跨媒体元组损失可以定义为:;该损失梯度优化过程如下:;;。5.根据权利要求4所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,在s3中,对于嵌入空间中的每一个数据,确定每个类别代理p的特征向量表示,通过度量相同细粒度子类别数据和代理之间的距离来到该类别的代理点,可表示为:;其中使用l2范数的平方作来度量代理点和数据之间的距离,该距离度量表示为:。6.根据权利要求5所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,在s32中,将嵌入空间中的所有数据分为正样本集合和负样本集合,使用跨媒体代理损失来约束代理点和每个训练数据,损失如下:;其中p表示当前计算的代理点,p表示所有代理的集合,表示所有正代理的集合,表示人工定义的参数,表示细粒度子类别之间的边距,表示余弦相似度。7.根据权利要求6所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在
于,在s33中,跨媒体代理损失梯度更新过程如下:;;其中。

技术总结


本发明公开一种基于深度度量学习的细粒度跨媒体检索方法,包括S1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;本发明通过线性层将不同的媒体特征直接映射到嵌入空间中进行相似性度量;并且为了有效度量不同媒体特征之间的相似性,采用跨媒体元组度量学习方法来度量不同媒体间的跨媒体相关性,并且采用跨媒体代理度量学习方法来度量各个媒体内的细粒度语义相关性;对比传统的细粒度跨媒体网络结构,具有更低的模型复杂度。杂度。杂度。


技术研发人员:

姚亚洲 黄丹 沈复民 孙泽人 申恒涛

受保护的技术使用者:

南京码极客科技有限公司

技术研发日:

2022.11.09

技术公布日:

2022/12/12

本文发布于:2024-09-22 23:21:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/33642.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:度量   样本   数据   跨媒体
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议