基于深度学习的时间维视频超分辨率方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710341864.3
(22)申请日 2017.05.16
(71)申请人 西安电子科技大学
地址 710071 陕西省西安市雁塔区太白南
路2号
(72)发明人 董伟生 巨丹 石光明 谢雪梅 
吴金建 李甫 
(74)专利代理机构 陕西电子工业专利中心
61205
代理人 王品华 朱红星
(51)Int.Cl.
G06T  3/40(2006.01)
H04N  19/587(2014.01)
G06N  3/08(2006.01)
G06N  3/04(2006.01)
(54)发明名称
基于深度学习的时间视频超分辨率方法
(57)摘要
本发明公开了一种基于深度学习的时间维
视频超分辨率方法,主要解决现有技术重构的视
图像插帧稳定性差和精度低的问题。其技术关
键是利用神经网络训练拟合原始视频图像和下
采样视频图像之间的非线性映射关系,包括:1)
获取原始视频图像集和下采样视频图像集作为
神经网络的训练样本;2)构建神经网络模型并利
用训练样本训练神经网络的参数;3)将任给的一
段视频作为测试样本,输入到训练好的神经网络
模型中,神经网络的输出结果即为重构的视频图
像。本发明降低了视频图像插帧重构的计算复杂
度,提高了重构视频图像插帧的稳定性和精度,
可用于场景插值、动画制作、实现低帧率视频的
时间域插帧。权利要求书2页  说明书5页  附图2页CN 107133919 A 2017.09.05
C N  107133919
A
1.基于深度学习的时间维视频超分辨率方法,包括:
(1)将彩视频图像集S={S1,S2,...,S i,...,S N}转换为灰度视频图像集,即原始视频图像集X={X1,X2,...,X i,...,X N},并利用下采样矩阵F对原始视频图像集X进行直接下采样,得到下采样视频图像集Y={Y1,Y2,...,Y i,...,Y N},其中,表示第i个原始视频图像样本,表示第i个下采样视频图像样本,1≤i≤N,N表示原始视频图像集中图像样本的数量,M表示原始视频图像块的大小,L h表示原始视频图像集每个样本中图像块的数量,L l表示下采样视频图像集每个样本中图像块的数量,且L h=r×L l,r表示原始视频图像集对下采样视频图像集的放大倍数;
(2)构建神经网络模型,并利用下采样视频图像集Y和原始视频图像集X训练神经网络参数:
(2a)确定神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数量,随机初始化各层的连接权值W(t)和偏置b(t),给定学习速率η,选定激活函数为:
其中,g表示神经网络节点的输入值,t=1,2,…,n,n表示神经网络的总层数;
(2b)随机输入下采样视频图像集中的一个下采样视频图像Y i作为输入训练样本,同时输入对应的原始视频图像集中的一个原始视频图像X i作为输出训练样本,使用选定的激活函数计算神经网络每一层的激活值,计算得到:
第1层即输入层的激活值为:a(1)=Y i,
第t'=2,3,...,n层的激活值为:a(t′)=f(W(t′-1)*a(t′-1)+b(t′-1)),其中,在该网络的第二层,第三层,第四层即t'=2,t'=3,t'=4时,为了充分提取视频帧间的相关性,设计了三个三维滤波器用来代替传统的二维滤波器,f(g)表示tanh(g)激活函数,g=W(t′-1)*a(t′-1)+b (t′-1),W(t′-1)和b(t′-1)分别表示第t'-1层的权重和偏置,a(t′-1)表示第t'-1层的激活值;
(2c)计算神经网络各层的学习误差:
输出层即第n层的误差为:δ(n)=X i-a(n),
第t"=n-1,n-2,...,2层的误差为:δ(t′)=((W(t”))Tδ(t”+1)).*f'(W(t”-1)*a(t”-1)+b(t”-1)),其中,W(t”)表示第t"层的权值,δ(t″+1)表示第t"+1层的误差,W(t”-1)和b(t”-1)分别表示第t"-1层的权值和偏置,a(t”-1)表示第t"-1层的激活值,f'(g')表示函数f(g')的导数,(g”)T表示转置变换,g'=W(t”-1)*a(t”-1)+b(t”-1),g”=W(t”);
(2d)按误差梯度下降方法更新神经网络各层的权值和偏置:
将权值更新为W(t)=W(t)-ηδ(t+1)(a(t))T,将偏置更新为b(t)=b(t)-ηδ(t+1),其中,δ(t+1)表示第t+1层的误差,a(t)表示第t层的激活值;
(2e)反复执行步骤(2b)-(2d),直到神经网络的输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型;
(3)任给一段视频,输入到训练好的神经网络模型中,神经网络的输出即为时间维超分辨后的视频。
2.根据权利要求1所述的方法,其中步骤(1)中利用下采样矩阵F,将原始视频图像集X 转换为下采样视频图像集Y,是用原始视频图像乘以下采样矩阵F,即:
Y=FX,
其中,M表示原始视频图像块的大小,L l表示下采样视频图像集每个样本中图像块的数量,L h表示原始视频图像集每个样本中图像块的数量,且L h=r×L l,r表示下采样视频图像集到原始视频图像集在时间维上的放大倍数。
3.根据权利要求1所述的方法,其中步骤(2a)中确定神经网络的输入层节点数,是根据输入训练样本的视频帧数来确定的,即输入层节点数等于下采样视频图像集每个样本中图像块的数量L l。
4.根据权利要求1所述的方法,其中步骤(2a)中确定神经网络的输出层节点数,是根据输出训练样本的视频帧数来确定的,即输出层节点数等于原始视频图像集每个样本中图像块的数量L h。
5.根据权利要求1所述的方法,其中步骤(2a)中确定神经网络的隐藏层节点数,是通过实验调节确定的。
基于深度学习的时间维视频超分辨率方法
技术领域
[0001]本发明属于图像处理领域,具体涉及一种时间维视频超分辨方法,可用于场景插值、动画制作、实现低帧率视频的时间域插帧。
背景技术
[0002]视频图像不仅包含了被观测目标的空间信息,而且包含了被观测目标在时间上的运动信息,具备“空时合一”的性质。由于视频图像可以把反映物体性质的空间信息和时间信息维系在一起,因此极大的提高了人类认知客观世界的能力,在遥感、军事、农业、医学、生物化学等领域都被证明有着巨大的应用价值。
[0003]利用视频成像设备获取精密的视频图像成本很高,而且受到传感器和光学器件制造工艺的限制,为了提高成像视频的分辨率,通常需要对视频进行压缩,以牺牲视频的时间分辨率为代价,这显然难以满足科学研究和大规模实际应用的需求。所以利用信号处理技术从压缩后的视频图像中重建出高分辨率的视频图像成为获取视频图像的一个重要途径。[0004]Kang S J等人在“Dual Motion Estimation for Frame Rate Up-Conversion”中提出了一种采用运动估计和运动补偿的方法实现视频图像插帧重构的算法。该视频图像插帧重构问题是一个病态逆问题,其利用视频图图像的时间信息并结合视频图像的空间信息来实现视频图像插帧重构,但是该算法由于没有充分利用视频图像中存在的较强的相邻帧间的结构相似性,使得重构的视频图像稳定性和精度难以满足科学研究和大规模实际应用的要求。
发明内容
[0005]本发明的目的在于针对上述现有技术的不足,提出一种基于深度学习的时间维视频超分辨率方法,以提高重构视频图像的稳定性和精度,满足大规模实际应用的要求。[0006]本发明的技术方案是这样实现的:
[0007]将经过下采样的视频图像集和原始视频图像集分别作为神经网络的输入训练样本和输出训练样本,通过神经网络训练拟合下采样视频图像和原始视频图像之间的非线性映射关系,并以这种关系为
指导进行测试样本的插帧重构,从而达到利用神经网络进行视频时间域插帧的目的,其具体步骤包括如下:
[0008](1)将彩视频图像集S={S1,S2,...,S i,...,S N}转换为灰度视频图像集,即原始视频图像集X={X1,X2,...,X i,...,X N},并利用下采样矩阵F对原始视频图像集X进行直接下采样,得到下采样视频图像集Y={Y1,Y2,...,Y i,...,Y N},其中,表示第i个原始视频图像样本,表示第i个下采样视频图像样本,1≤i≤N,N表示原始视频图像集中图像样本的数量,M表示原始视频图像块的大小,L h表示原始视频图像集每个样本中图像块的数量,L l表示下采样视频图像集每个样本中图像块的数量,且L h=r×L l,r表示原始视频图像集对下采样视频图像集的放大倍数;
[0009](2)构建神经网络模型,并利用下采样视频图像集Y和原始视频图像集X训练神经
网络参数:
[0010](2a)确定神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数量,随机初始化各层的连接权值W(t)和偏置b(t),给定学习速率η,选定激活函数为:
其中,g表示神经网络节点的输入值,t=1,2,···,n,n表示神经网络
的总层数;
[0011](2b)随机输入下采样视频图像集中的一个下采样视频图像Y i作为输入训练样本,同时输入对应的原始视频图像集中的一个原始视频图像X i作为输出训练样本,使用选定的激活函数计算神经网络每一层的激活值,计算得到:
[0012]第1层即输入层的激活值为:a(1)=Y i,
[0013]第t'=2,3,...,n层的激活值为:a(t′)=f(W(t′-1)*a(t′-1)+b(t′-1)),其中,在该网络的第二层,第三层,第四层即t'=2,t'=3,t'=4时,为了充分提取视频帧间的相关性,设计了三个三维滤波器用来代替传统的二维滤波器,f(g)表示tanh(g)激活函数,g=W(t′-1)*a (t′-1)+b(t′-1),W(t'-1)和b(t'-1)分别表示第t'-1层的权重和偏置,a(t'-1)表示第t'-1层的激活值;
[0014](2c)计算神经网络各层的学习误差:
[0015]输出层即第n层的误差为:δ(n)=X i-a(n),
[0016]第t"=n-1,n-2,...,2层的误差为:δ(t")=((W(t”))Tδ(t”+1)).*f'(W(t”-1)*a(t”-1)+b (t”-1)),其中,W(t”)
表示第t"层的权值,δ(t"+1)表示第t"+1层的误差,W(t”-1)和b(t”-1)分别表示第t"-1层的权值和偏置,a(t”-1)表示第t"-1层的激活值,f'(g')表示函数f(g')的导数,(g”)T表示转置变换,g'=W(t”-1)*a(t”-1)+b(t”-1),g”=W(t”);
[0017](2d)按误差梯度下降方法更新神经网络各层的权值和偏置:
[0018]将权值更新为W(t)=W(t)-ηδ(t+1)(a(t))T,将偏置更新为b(t)=b(t)-ηδ(t+1),其中,δ(t+1)表示第t+1层的误差,a(t)表示第t层的激活值;
[0019](2e)反复执行步骤(2b)-(2d),直到神经网络的输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型;
[0020](3)任给一段视频,输入到训练好的神经网络模型中,神经网络的输出即为时间维超分辨后的视频。
[0021]本发明与现有的技术相比具有以下优点:
[0022]1)本发明由于利用卷积神经网络进行时间维视频超分辨率重建,相比现有技术降低了计算复杂度,提高了时间维视频图像超分辨重建的稳定性;
[0023]2)本发明所设计的三维滤波器,由于充分考虑了视频相邻帧间的相关性,提高了时间维视频图像时间超分辨重建的精度。
附图说明
[0024]图1为本发明的实现流程图;
[0025]图2为本发明构建的神经网络结构图;
[0026]图3为本发明仿真实验所用的bus视频的原始图像;

本文发布于:2024-09-25 03:25:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/404973.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:视频   图像   神经网络   原始   时间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议