...描述生成模型方法、装置和计算机设备[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202210028340.X
(22)申请日 2022.01.11
(71)申请人 重庆师范大学
地址 401331 重庆市沙坪坝区大学城中路
37号
(72)发明人 翟浩 陈立志 方小龙 潘龙越 
杨有 
(74)专利代理机构 北京和联顺知识产权代理有
限公司 11621
代理人 白京萍
(51)Int.Cl.
G06V  10/46(2022.01)
G06V  10/44(2022.01)
G06V  10/764(2022.01)
G06V  10/82(2022.01)
G06N  3/04(2006.01)G06N  3/08(2006.01)
(54)发明名称基于Transformer结构的图像描述生成模型方法、装置和计算机设备(57)摘要本申请涉及计算机视觉和自然语言处理技术领域,公开了一种基于Transformer结构的图像描述生成模型方法、装置和计算机设备,本申请使用Faster  R ‑CNN模型提取图像显著区域特征,使用VC  R ‑CNN模型提取视觉
常识特征,通过将显著区域特征和视觉常识特征分层输入到Transformer编码器中,并在每一分层中设计使用了自适应常识门,从而增强了图像描述生成模型对视觉常识信息的提取能力,同时进一步融合了图像的显著区域信息和视觉常识信息,生成更加符合语境的描述语句,从而减少生成语句中的内容缺失,
提高描述语句的准确性。权利要求书3页  说明书12页  附图3页CN 114266905 A 2022.04.01
C N  114266905
A
1.一种基于Transformer结构的图像描述生成模型方法,其特征在于,包括:
提取图像特征,其中,所述图像特征包括显著区域特征和视觉常识特征;
将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中,以生成自适应融合的编码特征,其中,Transformer编码器包括多个分层,多个所述分层根据所述显著区域特征和视觉常识特征生成自适应常识门,所述自适应常识门用于对所述显著区域特征和所述视觉常识特征进行自适应融合;
将所述编码特征输入至Transformer解码器中完成训练,以搭建图像描述生成模型;
基于MSCOCO数据集对所述图像描述生成模型进行测试,以完成图像到语句的转化。
2.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述提取图像特征的步骤,包括:
基于Faster R‑CNN构建图像的区域建议网络;
将所述区域建议网络引入深度神经网络模型中,得到基于深度神经网络的组合图像特征,将所述组合图像特征作为显著区域特征;
基于VCR‑CNN提取图像边界框的坐标,其中,坐标包括多个;
将多个所述坐标输入卷积神经网络模型中进行训练,训练完成后得到视觉常识特征。
3.根据权利要求2所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述将所述区域建议网络引入深度神经网络模型中,得到基于深度神经网络的组合图像特征的步骤,包括:
基于所述区域建议网络获取多个不同批次的多个第一图像;
对每一个批次的每一个所述第一图像进行短边缩放,得到每一个批次的短边缩放的多个第二图像;
将每一个批次的多个所述第二图像传入卷积神经网络层中以对多个所述第二图像进行卷积和池化,以生成每一个批次的多个第二图像的组合图像特征。
4.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中,以生成自适应融合的编码特征的步骤,包括:
对所述显著区域特征和所述视觉常识特征进行拼接,得到拼接融合特征;
根据所述拼接融合特征对图像模态间和模态内的常识性关系进行建模,得到ACG融合模型;
将所述拼接融合特征输入到所述ACG融合模型中进行训练,得到ACG输出特征;
将所述ACG输出特征分层输入到自注意力块中进行融合,得到多个层次的融合编码向量,其中,所述自注意力块包括多个,多个所述自注意力块进行模态内和跨模态的分层交互;
对所述融合编码向量进行残差和归一化处理,得到自适应融合的编码特征。
5.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法,其特征在于,所述对所述显著区域特征和所述视觉常识特征进行拼接,得到拼接融合特征的步骤,包括:
基于所述视觉常识特征依次获取每一个所述视觉常识特征对应的视觉特征向量;
基于所述显著区域特征依次获取每一个所述显著区域特征对应的显著区域向量;
根据所述视觉特征向量与所述显著区域向量对所述显著区域特征和所述视觉常识特征进行拼接,其中,拼接公式为:
vc i =[v i ,c i ];
VC={vc 1,vc 2,…,vc N };
其中,所述v i ∈R d ,c i ∈R d ,vc i ∈R 2d ,v i ∈R d 表示d维的第i个视觉特征向量,c i ∈R d 表示d 维的第i个显著区域向量,vc i ∈R 2d 表示2d维的显著区域特征和视觉常识特征的拼接向量;所述vc i 表示第i个显著区域特征和第i个视觉常识特征拼接;VC表示拼接融合特征。
6.根据权利要求4所述的基于Transformer结构的图像描述生成模型方法,其特征在于,根据所述拼接融合特征对图像模态间和模态内的常识性关系进行建模,得到ACG融合模型的步骤,包括:
获取所述拼接融合特征中显著区域特征的第一线性表示;
获取所述拼接融合特征中视觉常识特征的第二线性表示;
根据所述第一线性表示与所述第二线性表示,计算拼接融合特征的线性表示施加影响,其中,计算公式为:
f vc =sigmoid(
g v +g c )*g c ;
其中,所述f vc 表示拼接融合特征的线性表示施加影响;g v 表示第一线性表示;g c 表示第二线性表示;
根据所述线性表示施加影响对所述拼接融合特征的模态间和模态内的常识性关系进行建模,得到ACG融合模型,其中,建模过程为:
V acg =tanh(W f f vc +b f )+V;
其中,V acg 表示模态间和模态内的常识性关系,f vc 表示拼接融合特征的线性表示施加影响,W f 表示需要被学习的权重,b f 表示偏置项,V表示显著区域特征,V={v 1,v 2,…,v N }。
7.根据权利要求1所述的基于Transformer结构的图像描述生成模型方法,其特征在于,将所述编码特征输入至Transformer解码器中完成训练,以搭建图像描述生成模型的步骤,包括:
向Transformer解码器中的掩码自注意块输入标签信息,并将所述掩码自注意块作为第一子层,得到第一子层的第一特征信息;
将所述第一特征信息与所述编码特征作为查询向量输入到Transformer解码器中的交叉注意力块中,并将所述交叉注意力块作为第二子层,得到第二子层的第二特征信息;
将所述第二特征信息输入到位置前馈网络进行非线性变换训练;
返回到所述向Transformer解码器中的掩码自注意块输入标签信息的步骤,并对返回次数进行计数,得到返回总数;
判断所述返回总数是否超过预设次数;
若所述返回总数超过预设次数,判定所述第二特征信息训练完成,搭建图像描述生成模型。
8.一种基于Transformer结构的图像描述生成模型装置,其特征在于,包括:
提取模块,用于提取图像特征,其中,所述图像特征包括显著区域特征和视觉常识特征;
分层输入模块,用于将所述显著区域特征和视觉常识特征分层输入到Transformer编
码器中,以生成自适应融合的编码特征,其中,Transformer编码器包括多个分层,多个所述分层根据所述显著区域特征和视觉常识特征生成自适应常识门,所述自适应常识门用于对所述显著区域特征和所述视觉常识特征进行自适应融合;
训练模块,用于将所述编码特征输入至Transformer解码器中完成训练,以搭建图像描述生成模型;
测试模块,用于基于MSCOCO数据集对所述图像描述生成模型进行测试,以完成图像到语句的转化。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于Transformer 结构的图像描述生成模型方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于Transformer结构的图像描述生成模型方法的步骤。
基于Transformer结构的图像描述生成模型方法、装置和计算
机设备
技术领域
[0001]本申请涉及计算机视觉和自然语言处理技术领域,特别涉及一种基于Transformer结构的图像描述生成模型方法、装置和计算机设备。
背景技术
[0002]图像描述生成是一个融合了计算机视觉和自然语言处理的跨模态任务,它是图像处理的高级层次。从传统的基于检索、模板的方法到后来基于编码器‑解码器的深度学习方法,使图像描述生成任务从只能生成单一形式的语句发展到现在可以生成精度更高、描述更加准确的语句。在常规的编解码框架中,使用了卷积神经网络(Convolutional  Neural  Network,CNN)作为编码器将图像编码为相应特征,使用长短期记忆(Long  Short ‑Term  Memory,LSTM)网络作为解码器将图像特征解码为对应描述句子。现有技术中首先提出了一种完全依赖于注意力机制的Transformer结构,可以对图像特征进行关系建模,解决了循环神经网络(Recurrent  Neural  Networks ,RNN)存在的时间依赖问题。随后,基于Transformer结构的各种变体在图像描述模型中应运而生。2018年,又首次采用Faster  R ‑CNN(Faster  Region ‑based  Convolutional  Neural  Network)作为编码器,提取图像的显著区域特征并应用在图像描述生成模型中,在Transformer结构之上,通过几何注意合并对象事物之间的空间关系信息,证明了模型空间意识的重要性。以上的图像描述生成模型虽然能产生描述图像语义内容的句子,但无法确切描述图像事物的因果关系,存在潜在的视觉注意不合理问题。且图像描述生成模型在使用多个特征进行融合处理时,会出现特征信息利用不充分且融合方式单一的问题,存在一定的局限性,例如,整体融合方式是单一拼接,没有重点融合其中的关键信息,这导致生成语句存在重要内容缺失问题。
发明内容
[0003]本申请的主要目的为提供一种基于Transformer结构的图像描述生成模型方法,旨在解决现有技术
中图像描述生成模型在使用多个特征进行融合处理时,会出现特征信息利用不充分且融合方式单一,导致生成语句存在重要内容缺失的技术问题。
[0004]本申请提出一种基于Transformer结构的图像描述生成模型方法,包括:
[0005]提取图像特征,其中,所述图像特征包括显著区域特征和视觉常识特征;
[0006]将所述显著区域特征和视觉常识特征分层输入到Transformer编码器中,以生成自适应融合的编码特征,其中,Transformer编码器包括多个分层,多个所述分层根据所述显著区域特征和视觉常识特征生成自适应常识门,所述自适应常识门用于对所述显著区域特征和所述视觉常识特征进行自适应融合;
[0007]将所述编码特征输入至Transformer解码器中完成训练,以搭建图像描述生成模型;
[0008]基于MSCOCO数据集对所述图像描述生成模型进行测试,以完成图像到语句的转
说 明 书1/12页CN 114266905 A

本文发布于:2024-09-20 18:29:05,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/441748.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   图像   生成   描述   模型   视觉   融合
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议