首页 > 学术百科

基于跨模态动态卷积网络的跨模态视频时刻检索方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202011575231.7

(22)申请日 2020.12.28

(71)申请人电子科技大学

地址 611731 四川省成都市高新区（西区）

西源大道2006号

(72)发明人徐行　王公勉　沈复民　邵杰　

申恒涛　

(74)专利代理机构电子科技大学专利中心

51203

代理人周刘英

(51)Int.Cl.

G06F 16/783(2019.01)

G06K 9/62(2006.01)

G06N 3/04(2006.01)

(54)发明名称

基于跨模态动态卷积网络的跨模态视频时

刻检索方法

(57)摘要

本发明公开了一种基于跨模态动态卷积网

络的跨模态视频时刻检索方法，属于计算机视觉

中的跨模态检索领域。本发明使用基于注意力机

制的层级视频特征提取模块提取细粒度视频特

征，一定程度上减少了视频特征中的噪声，提高

了动作特征的精细程度。同时，本发明使用基于

跨模态卷积神经网络的时刻定位模块完成时刻

检索，更加充分的利用了文本中隐含的信息来得

到检索结果，以达到提高检索结果的准确性的目

的。权利要求书2页说明书10页附图3页CN 112650886 A 2021.04.13

C N 112650886

1.一种基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，该方法采用基于跨模态动态卷积网络的跨模态视频时刻检索模型实现，所述基于跨模态动态卷积网络的跨模态视频时刻检索模型包括层级视频特征提取模块，文本特征提取模块，跨模态融合模块和基于跨模态卷积神经网络的时刻定位

模块，该方法包括以下步骤：步骤S1：选择训练数据集；

步骤S2：对于训练数据集中的每一段视频中的每一帧，使用预训练网络提取帧级视频特征，所述预训练网络为VGG或C3D；

步骤S3：构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构，利用步骤S2中的帧级视频特征通过层级视频特征提取模块生成候选片段的段级视频特征，并利用步骤S1中训练数据集中的文本通过文本特征提取模块生成文本特征；

步骤S4：构建跨模态融合模块，融合步骤S3中候选片段的段级视频特征和文本特征；

步骤S5：构建基于跨模态卷积神经网络的时刻定位模块，并定义损失函数对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行约束；

步骤S6：采用Adam优化器，对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行训练；

步骤S7：使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索，以验证训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络效果。

2.根据权利要求1所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述步骤S2具体包括：

步骤S21：通过预训练网络提取训练数据集中的每一段视频中每一帧的特征；

步骤S22：预设F个帧级视频特征，对帧级视频特征个数不符合的视频采用平均采样的方式使视频的特征个数保持在F个，F设定为256。

3.根据权利要求2所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述步骤S3具体包括：

步骤S31：构建由3层长短期记忆网络组成的文本特征提取模块，提取文本特征；

步骤S32：将视频平均分为T个视频片段；

步骤S33：对于每一个视频片段，使用层级视频特征提取模块提取每一个视频片段多个不同层级的动作特征，将该视频片段的多个动作特征级联，作为该视频片段的视频特征；

步骤S34：以视频片段的时间位置为候选时间，预设P个由两个不同候选时间内所包含的视频片段为候选片段，对于T个视频片段的视频特征，首先使用一层全连接层对其降维，然后使用卷积网络或平均池化的方法融合不同起始和结束候选片段的视频特征，构建2D时序特征图，即候选片段的段级视频特征；

其中，所述步骤S33的层级视频特征提取模块每一个层级的操作具体包括：

步骤S331：对每一个视频片段内的所有视频特征进行平均池化；

步骤S332：将步骤S331平均池化后的特征与上一级的动作特征级联，生成该层级的引导特征；

步骤S333：将步骤S332生成的引导特征与该视频片段内的所有视频特征进行融合，生成注意力权重；

步骤S334：使用步骤S333中的注意力权重对该视频片段内的原视频特征进行加权求和，得到该层级的动作特征。

4.根据权利要求3所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述步骤S4具体为：所述跨模态融合模块使用候选片段的段级视频特征和文本特征的哈达玛积作为2D时序融合特征图，所述候选片段的段级视频特征即2D时序特征图。

5.根据权利要求4所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述步骤S5具体包括：所述基于跨模态卷积神经网络的时刻定位模块由K个跨模态卷积神经网络层组成，并采用了残差连接，在基于跨模态卷积神经网络的时刻定位模块的网络末端连接了一层1D卷积神经网络来得到每个视频候选片段的置信度；

其中，所述跨模态卷积神经网络层执行的操作具体包括：

步骤S51：使用级联的方式融合2D时序融合特征图和文本特征，

得到融合特征；步骤S52：根据步骤S51的融合特征生成注意力权值；

步骤S53：

根据步骤S52生成的注意力权值来融合基卷积核，生成融合卷积核；步骤S54：使用步骤S53生成的融合卷积核对2D时序融合特征图进行卷积；

所述步骤S5中的损失函数为：L＝L S_IoU +βL dis_att ；其中，β表示损失函数中帧注意力差异损失的权重系数，用于平衡缩放交并比损失和帧注意力差异损失的比例，β设定为0.1；L s_IoU 表示缩放交并比损失，具体如下所示：

其中o i 表示视频候选片段与视频真实片段的交并比IoU，p i 表示基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络预测的该视频候选片段的置信度，t max 与t min 表示缩放的范围，C表示训练数据集中视频和文本对的个数，L dis_att 表示帧注意力差异损失，具体如下所示：

其中A为步骤S333获得的注意力权重的连接；λ表示帧自注意力抵消系数，用于抵消每一帧对自己计算注意力的影响；‖·‖F 表示F ‑范数。

6.根据权利要求5所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述步骤S7具体为：使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索时，将步骤S5中得到的置信度最大的视频候选片段的开始时间和结束时间作为输出结果。

7.根据权利要求6所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述T＝16，所述P＝136，所述K＝8。

8.根据权利要求7所述的基于跨模态动态卷积网络的跨模态视频时刻检索方法，其特征在于，所述步骤S6中Adam优化器的学习率设置为0.0001，并且不使用权重衰减，整个基于跨模态动态卷积网络的跨模态视频时刻检索模型在训练数据集上训练50个周期。

基于跨模态动态卷积网络的跨模态视频时刻检索方法

技术领域

[0001]本发明属于计算机视觉中的跨模态检索领域，具体涉及一种基于跨模态动态卷积网络的跨模态视频时刻检索方法。

背景技术

[0002]跨模态视频时刻检索是跨模态视频检索的子任务。其目标是根据查询文本，在一段视频中出与文本相对应的视频片段。和跨模态视频检索不同，跨模态视频时刻检索需要在指定视频中获得与文本对应的视频片段的开始时间和结束时间，而不是文本与整段视频的对应关系。跨模态视频时刻检索在视频问答，视频定位，视频描述等领域都有广泛的应用。

[0003]研究技术尝试利用前沿的深度学习技术改善模型表现力，基于深度学习的跨模态视频时刻检索技术不断涌现。相较于手工设计数据的特征，深度学习方法可以自动学习数据的特征并由此对数据进行分类与回归，因此具有更高的鲁棒性。其中，基于深度学习的跨模态视频时刻检索方法主要有以下三种技术路线：

[0004]1)基于候选片段的跨模态视频时刻检索方法：受到基于锚点的目标检测方法的启发，基于候选片

段的跨模态视频时刻检索方法首先通过滑动窗口生成多尺度的候选片段，然后融合视频特征和文本特征，利用融合后的特征预测匹配分数，来度量候选片段和查询文本之间的相似性。

[0005]2)无候选片段的跨模态视频时刻检索方法：无候选片段的跨模态视频时刻检索方法使用帧级的视频表示而不是生成候选片段的特征来预测与查询文本对应的视频片段。该类方法利用循环神经网络或者注意力机制来获得与文本相关上下文信息以得到准确的开始时间和结束时间。

[0006]3)基于强化学习的跨模态视频时刻检索方法：为了解决跨模态视频时刻检索的效率问题，基于强化学习的跨模态视频时刻检索方法主动地去选择一部分帧或几个视频片段进行观察，然后观察得到的信息进行预测，而不需要观察整段视频的视频特征。这类方法在效率上有较大的优势。

[0007]目前跨模态视频时刻检索采用的方法主要为基于候选片段的跨模态视频时刻检索方法。相较于其他方法，该类方法在检索的准确率上有较大的优势。

[0008]但现有的时刻检索方法仍有很大的不足，如：视频特征的表示不够精细、视频特征中包含较多的噪声没有去除、文本信息没有被充分融合利用等。以上问题均一定程度上导致了视频时刻检索准确率的下降。

发明内容

[0009]本发明的目的在于克服现有技术的不足，提供一种基于跨模态动态卷积网络的跨模态视频时刻检索方法；以基于注意力机制的层级视频特征提取模块提取细粒度视频特征，一定程度上减少了视频特征中的噪声，提高了动作特征表示的精细程度。同时，使用基

于跨模态卷积神经网络的时刻定位模块完成时刻检索，更加充分的利用了文本中隐含的信息来得到检索结果，以达到提高检索结果的准确性的目的。

[0010]本发明通过下述技术方案实现：一种基于跨模态动态卷积网络的跨模态视频时刻检索方法，首先使用层级视频特征提取模块和文本特征提取模块分别提取视频和文本这两种模态的特征，然后采用跨模态融合机制对这两种模态的特征进行融合，最后使用基于跨模态卷积神经网络的时刻定位模块完成跨模态视频时刻检索。

[0011]一种基于跨模态动态卷积网络的跨模态视频时刻检索方法，该方法采用基于跨模态动态卷积网络的跨模态视频时刻检索模型实现，所述基于跨模态动态卷积网络的跨模态视频时刻检索模型包括层级视频特征提取模块，文本特征提取模块，跨模态融合模块和基于跨模态卷积神经网络的时刻定位模块，该方法具体包括以下步骤：

[0012]步骤S1：选择训练数据集；

[0013]步骤S2：对于训练数据集中的每一段视频中的每一帧，使用预训练网络(如VGG或C3D)提取帧级视频特征；

[0014]步骤S3：构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构，利用步骤S2中的帧级视频特征通过层级视频特征提取模块生成候选片段的段级视频特征，并利用步骤S1中训练数据集中的文本通过文本特征提取模块生成文本特征；[0015]步骤S4：构建跨模态融合模块，融合步骤S3中的段级视频特征和文本特征；[0016]步骤S5：构建基于跨模态卷积神经网络的时刻定位模块，并定义损失函数对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行约束；

[0017]步骤S6：采用Adam优化器，对基于跨模态动态卷积网络的跨模态视频时刻检索模型进行训练；

[0018]步骤S7：使用训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型对视频和文本对进行时刻检索，以验证训练完成的基于跨模态动态卷积网络的跨模态视频时刻检索模型的网络效果。

[0019]进一步地，所述步骤S2具体包括以下步骤：

[0020]步骤S21：通过预训练网络提取训练数据集中的每一段视频中每一帧的特征；[0021]步骤S22：预设F个帧级视频特征，对帧级视频特征个数不符合的视频采用平均采样的方式使视频的特征个数保持在F个，F一般设定为256。

[0022]进一步地，所述步骤S3具体包括以下步骤：

[0023]步骤S31：构建由3层长短期记忆网络组成的文本特征提取模块，提取文本的特征；[0024]步骤S32：将视频平均分为T个视频片段；

[0025]步骤S33：对于每一个视频片段，使用层级视频特征提取模块提取每一个视频片段的视频特征；

[0026]步骤S34：以视频片段的时间位置为候选时间，预设P个由两个不同候选时间内所包含的视频片段为候选片段。对于T个视频片段的视频特征，使用卷积网络或平均池化的方法融合候选片段内的视频特征，构建2D时序特征图，即候选片段的段级视频特征。[0027]进一步地，所述步骤S33的层级视频特征提取模块每一个层级的操作具体包括以下步骤：

[0028]步骤S331：对每一个视频片段内的所有视频特征进行平均池化；

本文发布于:2024-09-20 13:30:33，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/754314.html

上一篇：一种基于自注意力机制加权的细粒度图像检索方法[发明专利]

下一篇：《文献检索与利用》总结

标签：视频模态检索特征时刻

留言与评论（共有 0 条评论）