刍西北大学学报(自然科学版)
2021年4月,第51卷第2期,Apr.,2021,Vo,51,No.2
Journal of Northwest University(Natural Science Edition)
【主持人语】随着人工智能技术的发展,计算机视觉领域实现的任务被广泛应用于人类生活的各个方面。计算机视觉任务的核心是研究如何让计算机具备处理视觉信息和理
解客观世界的能力。不同于人类对客观世界信息的感知与理解,计算机需要特定的信息
处理机制来获取深度信息,达到处理和理解信息的目的。在当前计算机视觉领域,深度信
息感知与理解集中体现在利用深度学习或者机器学习的方式对深度信息进行感知、提取、
整合、生成和理解。针对这一新兴的研究热点,本专题主要以智能深度信息感知与理解为
主题,针对视频感知质量提高、三维点云数据配准、医学影像特征提取及分类、气敏传感器 的开发及应用展开探讨,并提出创新性解决方案。祝轩等人在《光流估计补偿结合生成 对抗网络提高视频超分辨率感知质量》中提出引入时空特征补偿和多特征鉴别器的端到 端的VSR网络模型,该模型利用光流估计补偿网络为多特征鉴别生成对抗网络提供有效
丰富的细节信息,生成器与多特征鉴别器的对抗训练促使生成的SR帧与HR帧趋于一
致,有效提升了低质量视频的感知质量;汪霖等人在《基于改进ICP算法的三维点云刚体
配准方法》中提出基于改进ICP的鲁棒性和精确性的三维点云刚体配准方法,通过引入
伪Huber损失函数建立配准模型,以及颜信息辅助建立点云对应关系,有效抑制了噪声
和外点对配准精度的影响;王雪文等人在《基于智能感知的In』,-”-薄膜的气敏性能研
究》中用优化的磁控溅射工艺制备出掺St和纯的III-V族合金半导体薄膜,测试发现掺杂
薄膜提高了载流子浓度,颗粒细小且缺陷较多,使气敏的活性位点增多,提高了抗辐射环
境、降温快的气体传感器的灵敏度,研究成果为应用在高速智能感知方面的气体传感器提
供了可靠依据。林玉萍等人在《基于医学影像和病历文本的甲状腺多模态语料库构建与
应用》中提出基于特征筛选的深度学习分类方法实现甲状腺的良恶性精确分类,结合自
然语言处理提取的病历文本特征构建多模态语料库,为医学领域的教育教学和科研工作
提供辅助。
期待该专题相关研究成果及思想有助于提升智能深度信息感知与理解的技术应用深度和广度。
【主持人】祝轩,西北大学信息科学与技术学院教授,博士生导师。
光流估计补偿结合生成对抗网络提高视频
超分辨率感知质量
祝轩1,柳欣1,兰志翔#,孙逸霏2,金玉莹#,陈培榕#(1.西北大学信息科学与技术学院,陕西西安710127;2.西北大学数学学院,陕西西安710127)
摘要:视频超分辨率(VSR)的任务是利用序列视频帧具有的时间连续性和空间相似性提
软件仿真
高视频的分辨率。主流的VSR方法利用像素损失优化网络,导致生成的超分辨率(SR)
收稿日期:2020-12-15
基金项目:陕西省自然科学基金重点资助项目!2018J06007)
通信作者:祝轩,女,湖南常德人,教授,从事图像处理、计算机视觉、模式识别等研究,E-m1:20132081@nwu.edu o
-174-西北大学学报(自然科学版)第51卷
重建结果边缘模糊、细节平滑。为此,提出了一个新的引入时空特征补偿和多特征鉴别器
的端到端的VSR网络框架MC-PETGAN O该框架包括光流估计补偿网络和多特征鉴别生
成对抗网络。光流估计补偿网络利用相邻视频帧之间的短时连续和内容相似性特征为多
特征鉴别生成对抗网络提供有效丰富的细节信息;生成器与包括像素、边缘和纹理鉴别器
的多特征鉴别器的对抗训练促使SR帧与高分辨率(HR)帧的像素、边缘和纹理趋于一
致。大量公共数据集和监控视频数据的实验结果表明,该文方法能够有效提高视频SR
结果的像素精度,并恢复出清晰的边缘和纹理,而且视觉感受愉快,感知指标有竞争力。
关键词:视频超分辨率;光流估计补偿;多特征鉴别器;感知质量
中图分类号:TP391.4
DOI:10.16152/jkt.cdxbzr.2021-02-001开放科学(资源服务)标识码(OSID):
Optical flow estimation compensation combined with generative adversarial network for viteo super-resolution perceptual
quality improvement
ZHU Xuan1#LID Xin1#LAN Zhixiang1#SUN YifeV#
JID Yuying1#CHEN Peirong1
(1.School of Information Science and Technology,Northwest University#Xi'an710127#China;
2.School of Mathematics,Northwest University,Xi'an710127,China)
Abstract:Vide super-resolution(VSR)aims tu improve5X0resolution by exploiting the temporal continut-ty and spatial simiUOty of videe sequencc frames.MainpUem VSR metUods utilize tUe pixel loss tu optimize networks,which results ix blur edges and smooth textures in super-resolution(SR)results.For this arson, by using temporal-spatial features compensation and multi-feature discrimmaoIO,a noveS end-to-end VSR^-chttectu ee MC-PETGAN ts p eoposed.MC-PETGAN tscomposed oIopttca,Iow esttmatton compensatton network and generative adversarial netuork with multi-feature discriminators.The opticcl flow estimation ccmpen-sation netuork makes uss of shortcontinuity and content similarity features of adjacent frames i provide dective and rich detailed information for generative adversarial netuork with multi-feature discriminatoia.The adversarial training between the generator and multi-feature discriminators that include pixS discriminlor, edge discriminator and texture discriminator makes the pixel,edge and texture of SR frames similar to high-resolution(HR)frames.Extensive experiments on public datasets and surveillancc videos show that the preposed metUod ccn not only effectively improve the pixd accuscy of SR results,and restore clear edges and textures,but also acquire pleasant visual feeling and competitive perception indee(PI).
Key wodt:videe super-resolution;opticol flow estimation compensation;multi-featurediscVminators;perceptual qulity
超分辨率(super-resolution,SR)技术是从低分辨率(low-resolution丄R)图像或视频中恢复出高分辨率(high-resolution,HR)图像或视频⑴。随着高清显示技术的发展,SR技术在提高监控视频[2]、医学图像⑶以及遥感图像⑷等质量方面的应用越来越广泛。目前,SR方法分为单幅图像超分辨率(single image super-resolution,SISR)方法和视频超分辨率(idee super-resolution,VSR)方法。相较于SISR方法,VSR方法可以利用帧内的空间信息和帧间的短时连续性和内容相似恢复出包含更多高频细节的视频(5p)&
近年来,基于深度学习的卷积神经网络(con-volutional neural netuork,CNN)以其在图像特征提取和模拟复杂映射关系上的优势被广泛应用于VSR&大部分基于CNN的VSR方法(79〕利用像素损失(均方误差)训练网络,促使SR帧的平均像素值接近HR帧的平均像素值,其结果往往导致重建的SR帧缺乏高频细节、边缘不清晰、纹理平
第2期祝轩等:光流估计补偿结合生成对抗网络提高视频超分辨率感知质量-175-
滑、视觉效果较差。目前,基于感知损失训练的生成对抗网络!generative adversarial networks,GAN)在SISR任务中生成了清晰的边缘、丰富的纹理和真实的颜am,但基于G&N的VSR方法尚不多见[12],且重建出的视频SR结果的感知质量有待提高。
本文提出了一个光流估计补偿结合多特征鉴别GAN的端到端视频超分辨率网络框架MC-PETGAN,该框架由光流估计补偿网络串联多特征鉴别GAN组成。光流估计补偿网络利用相邻视频帧之间具有的短时连续性和内容相似性特点补偿相邻视频帧;多特征鉴别GAN基于多特征鉴别器在像素、边缘和纹理3个方面的对抗训练促使生成器生成的SR帧与HR帧分别在像素、边缘和纹理3个方面的数据分布趋于一致,提高SR 帧的感知质量。
1相关工作
1.1单幅图像超分辨率
单幅图像超分辨率是从单幅LR图像中恢复出具有高频信息的SR图像。Dong等人将CNN 应用于SISR,设计了一个包含3个卷积层的轻量级网络SRCNN[13],其性能和速度均优于传统方法&ICm等人使用全局残差策略设计了一个20层的残差网络*DSR(1$],该网络通过学习HR图像与LR图像之间的
高频残差加快模型收敛速度。Sajjadi等人提出的EnhanceNet网络利用纹理匹配损失增强SR结果的真实感[10] &Ledig等人提出的SRGAN[11]网络联合内容损失和对抗损失训练网络,以便生成真实的结构和纹理&
1.2视频超分辨率
视频超分辨率(*SR)是从序列LR视频帧+,"”+1,…,"R,…,"R-中恢复出SR帧"R,其中%是时间半径&基于CNN的VSR方法通过学习LR帧和HR帧之间的函数映射关系获得"R,重建精度和效率较传统方法有较大提高& Kappelea等人提出*SRnet网络,首先,利用传统光流方法进行运动估计和补偿,然后,将补偿帧和目标帧进行融合输入到3层CNN中进行SR重建,其重建结果边缘模糊,纹理平滑⑴&Cabtlera 等人首次提出了端到端联合训练的VSR网络框架VESPCN,该框架将运动估计补偿网络和时空亚像素卷积SR重建网络整合在一个框架中提升网络性能和训练效率[7];La等人提出时间自适应网络TD*SR,该网络可以自适应选择最优的时间依赖范围以减少不准确的运动补偿带来的影响[15];Wang等人提出利用估计的HR光流补偿相邻帧的SOF-VSR网络,通过运动补偿精度的提升达到SR重建质量提高⑷;Sajjadi等人提出递归帧模型FRVSR,利用前一帧的SR结果和当前LR帧重建待超分辨率帧,提高重建结果的时间连续性⑼;Li等人提出快速时空残差网络FSTRN,采用3D卷积捕捉视频时空信息[16]o Xiang等人提出的时空*SR网络ST*SR在一个网络框架里同时实现视频插帧和超分辨率重建,相比于其他方法,SR性能和计算效率均有较大提升(17)&
1.3视频感知质量评价
全参考图像质量评价指标(如峰值信噪比(PSNR)、根均方误差(RMSE))度量的是SR图像和HR图像像素点之间的差异,其往往用于评价图像或视频的失真度&2018PIRM-SR(PIRM challenge on perceptual image super-resolution)(18)提出的感知分数(PI)指标用于评价SR视频的感知质量&PI能够表征图像或视频在像素、结构、纹理和彩等方面的视觉质量&有研究指出,PSNR值所反映的具有良好视觉质量的SR结果与人类观察者的主观评价往往不一致,甚至相反(11,18呵&
感知指标PI的定义如下:智能材料
PI=;((10-Ma(I))+NIQE(")&(1)
其中:"表示待评价图像;Ma(*)表示一种无参考图像质量评价方法[2"];NIQE(*)是基于自然图像统计特征的无参考图像质量评价方法[21]&大量文献表明PI和NIQE跟人类主观评分结果高度相关,越低的PI和NIQE表示越好的感知质量(18呵&
2方法
外商投资企业外方权益确认表2.1MC-PETGAN网络框架
MCVPETGAN网络框架如图1所示,MCVPETGAN 由光流估计补偿网络和多特征鉴别GAN构成,多特征鉴别器包括像素鉴别器D p、边缘鉴别器D e 和纹理鉴别器D q &
・176・西北大学学报(自然科学版)第51卷
FNet
多特征鉴别GAN
D e(區)―
D e(暗r)
D t(臥)…
^t(^hr)
Update
图1mc-petg络框架
Fig-1The architecturr of MC-PETGAN
MC-PETGAN网络的训练过程为:首先,将视频LR帧,"R和"&1输入光流估计补偿网络,分别估计相邻两帧和与目标帧"R之间的光流("#1和(L+1,并计算用光流和(R+1补偿后的补偿帧"R和"&;其次,在深度维度上堆叠,"R和"R获得融合特征(usd,并将(usd 输入生成器生成SR结果;最后生成器G与像素鉴别器D p、边缘鉴别器D>和纹理鉴别器'对抗鉴别SR帧"R与HR帧"R,促使"R和"R的整体像素值、边缘和纹理趋于一致。测试过程是将LR待超分帧和相邻两帧输入到训练好的MC-PETGAN网络,获取生成器输出的SR结果。2.2光流估计补偿网络
视频光流是相邻视频帧之间像素运动的瞬时速度,其描述了像素随时间在视频帧之间的运动。运动补偿可以减少视频帧之间的信息冗余、抑制运动模糊以及引入更多相关信息。MC-PETGAN 网络采用光流网络FNet预测相邻视频帧之间的光流对于给定的连续3帧LR视频帧,"R#(0,1],目标帧"R与相邻两帧心连心艺术团慰问演出
和之间的光流为
("#1-FNet("R,"$)#[_1,1严+,Q)
("#1-FNet("R,"&)#[_1,1严+&(3)其中:FNet(*)表示光流估计函数;*和,分别表示LR视频帧的高度和宽度。
补偿帧为
-Warp("$,("#1)#[0,1]*++,(4)
-Warp("&,("#1)#[0,1]*++&(5)其中,Warp(-)表示warp操作,即将,"&的坐标值分别映射到"R,"&1中相应的位置。
本文以"R,"R与"R之间的均方误差(MSE)作为光流损失Z e”训练FNet,光流损失厶。”定义为
L ew-$Warp(,(R$)-"R$;+
||Warp("R1,("#1)-"R$2&(6) 2.3多特征鉴别GAN
2.3.1多特征鉴别器训练多特征鉴别器D p、D>和D q分别用于鉴别SR帧和HR帧的像素值、边缘和纹理的一致性。多特征鉴别器的网络结构如表1~3所示,Conv(%,0,s)为卷积层,其中,参数%,0,1分别表示卷积核数量、大小和步长。
1)像素鉴别器D p: D p的输入是初始SR帧和HR帧。训练D p的损失函数L d p为
公明党Lf--(D p("R)-D p("R))&(7)其中,(D p("R)-D p(I"))表示"R与"R数据分布间的Wasserstein距离(22]&
2)边缘鉴别器D>:边缘反映了图像局部特性的不连续性(如灰度突变、颜突变、纹理突变等),人类
视觉对边缘十分敏感,边缘质量与图像质量紧密相关&D e用于鉴别SR帧和HR帧的边缘&训练D>的损失函数.如为
L D e--(D E(Edge("R))-D>(Edge(/")))o
(8)其中,Edge(*)表示边缘提取检测算子&本文采用canny算子提取边缘。
3)纹理鉴别器D q:不包含彩信息的灰度图像能够更加突出图像的纹理&D q用于鉴别灰度化的SR帧和HR帧&训练D q的损失函数L d t
为
第2期祝轩等:光流估计补偿结合生成对抗网络提高视频超分辨率感知质量-177-
.d t=$(D T(G ray("R))-D T(Gray("R)))。
(9)其中,Gray(-)表示灰度化操作。
表1像素鉴别器网络结构
Tab.1The architectures of pixei discriminators
输岀操作层
(2,3,3)Input
(2,3,64)Conv(64,3,1),LeakyRelu
(寺2,寺3,64)Conv(64,3,2), LeakyRelu,BN (寺2,寺3,128)Conv(128,3,1),LeakyRelu, BN (+2,寺3,128)Conv(128,3,2),LeakyRelu,BN (+2,*3,256)Conv(256,3,1),LeakyRelu,BN (寻2,*3,256)Conv(256,3,2),LeakyRelu,BN (Y2,寺3,256)Conv(256,3,1),LeakyRelu,BN (寻2,鲁3,256)Conv(256,3,2),LeakyRelu,BN (咅2,詈3,512)Conv(512,3,1),LeakyRelu,BN (寻2,吉3,512)Conv(512,3,2),LeakyRelu,BN
1024Dense,LeakyRelu
1Den7e
表2边缘鉴别器网络结构
Tab.2The architectures of edge discriminators 输岀操作层
(2,3,1)Input
(2,3,64)Conv(64,3,1),LeakyRelu (寺2,寺3,64)Conv(64,3,2), LeakyRelu,BN (+2,寺3,128)Conv(128,3,1),LeakyRelu, BN (+2,*3,128)Conv(128,3,2),LeakyRelu,BN (+2,寺3,256)Conv(256,3,1),LeakyReuu,BN (Y2,寺3,256)Conv(256,3,2),LeakyReuu,BN (寻2,*3,256)Conv(256,3,1),LeakyReuu,BN (吾2冶3,256)Conv(256,3,2),LeakyReuu,BN (吾2冶3,512)Conv(512,3,1),LeakyReuu,BN (322,323,512)Conv(512,3,2),LeakyReuu,BN
1024Den7e,LeakyReuu
1Den7e
表3纹理鉴别器网络结构
四川职业技术学院学报Tab.3The architectures of texture discriminators
输岀操作层
(2,3,1)Input
(+2,*3,48)Conv(48,11,4),LeakyReuu
(寺2,寺3,64)Conv(64,5,2),LeakyReuu,BN
(+2,*3,128)Conv(128,3,1),LeakyReuu,BN (£2,163,128)Conv(128,3,2),LeakyReuu,BN (£2,163,128)Conv(128,3,1),LeakyReuu,BN
(322,323,64)Conv(64,3,2),LeakyReuu,BN 1024Dence,LeakyReuu
1Dence
2.3.2生成器训练
@4倍SR重建的生成器网络结构如图2所示,其包含浅层特征提取,深度特征提取和超分辨率重建3个模块。首先,用一个卷积层提取(usd的浅层特征;其次,用20个串联的局部残差块!LRB)和一个卷积层提取深度特征,并以元素相加的方式将浅层特征与深层特征融合在一起;最后,亚像素卷积上采样层进行4倍SR 重建。I#的生成过程表示为
I-G((tad)。(10)其中,4(*)表示生成器,其输入是(uad(*XWX 9),输出是I R(H x W x3)o5是上采样因子,2和3分别表示SR视频帧I#的高度和宽度,H-5, W-5。
2.3.3损失函数生成器采用感知损失.peepwa训练。感知损失Z peepwal由加权的均方误差(MSE)损失函数.mse、对抗损失函数L T w和内容损失函数.rnwnt组成。
1)MSE损失.mse度量I R与I R之间每个像素点的差异,驱使I R与I R的平均像素值趋于一致, MSE损失.MSE记为
.MSE-$I R-I R$2&(11)
2)对抗损失.A ai由像素对抗损失.:、边缘对抗损失.A和纹理对抗损失.A的加权和组成,它们分别定义为
.P-_D p(I r),(12) =-D>(Edged#)),(13)