基于压缩感知理论的视频编解码器

1引言
现有的视频压缩编码标准是基于传统的香农采样定理。在该定理要求下,信号的采样率必须大于信号带宽的2倍,才能实现信号的准确重构。因此,要实现视频图像的准确重构所需要的样本数较多。此外,视频编码过程中,图像变换后大部分的系数被舍弃,造成了数据和系统资源的浪费。近年来出现的压缩感知(Compres-sive Sensing,CS)理论指出,在已知信号具有稀疏性或可压缩性的前提下,用于重构的样本数可以远远低于传统的香农采样定理下的样本数[1-4]。由于视频图像通常在某些变换域上具有可压缩性,而且视频残差图像具有较强的稀疏性,所以CS理论在视频编码中有着良好的应用前景[5-8]。
2压缩感知理论和传统的编解码核心技术
2.1压缩感知理论
压缩感知理论下,信号若具有稀疏性或可压缩性,则可通过少量的测量样本进行重构。假定实的离散信号x[n],n=1,2,…,N,在N×N的稀疏基Ψ=[ψ1,ψ2,…,ψN]下具有稀疏性,即
x=
N
k=1
Σψkαk=Ψα(1)式中:系数α仅有K垲N个元素非零,其余N-K个元素为零或接近于零。
在上述稀疏条件的假设下,对该信号进行采样或测量,设测量矩阵用M×N(K<M垲N)的矩阵Φ表示,则可得到M×1的样本矩阵y,即
y=Φx(2)将式(1)代入式(2)可得,
y=ΦΨα=Θα(3)由于M垲N,所以方程组是欠定方程组,从测量样本y重构信号x的过程是病态的,但是如果测量矩阵Φ和稀疏矩阵Ψ能满足RIP[1-4]或者两者非相关时,则可实现精确的重构。一种常用的算法是基于l1极小范数求解系数α
文章编号:1002-8692(2010)05-0014-04
基于压缩感知理论的视频编解码器*
谢晓春1,2,赖昭胜1,杨汉祥1
(1.赣南师范学院物理与电子信息学院,江西赣州341000;2.中国科学院空间科学与应用研究中心,北京100190)
【摘要】结合压缩感知理论和传统的视频编解码技术,提出了一种基于压缩感知理论的视频编解码器。其编码过程可看成是将高维信号投影到低维空间的过程,解码过程不再是传统方式下的编码的逆过程,而可看作是求解欠定方程组的过程。该编解码器结构比较简单,不仅所需图像的样本数很少,样本数可根据不同的编码模式进行选择,而且能获得较高的压缩比和较好的重构图
像质量。
【关键词】压缩感知;视频编码;编码器;解码器
【中图分类号】TN919.81【文献标识码】A
Video Codec Framework Based on Compressive Sensing
XIE Xiao-chun1,2,LAI Zhao-sheng1,YANG Han-xiang1
(1.School of Physics and Electronic Information,Gannan Normal University,Jiangxi Ganzhou341000,China;
2.Center for Space Science and Applied Research,Chinese Academy of Sciences,Beijing100190,China)
【Abstract】In this paper,a new video codec which combines compressive sensing theory and some critical ideas of traditional video codecs is proposed.The encoder works as a projector,which projects a high dimensional signal to a low dimensional domain,while the decoder which is no longer the inverse of encoder works for the solution of underdetermined equations. Compared with traditional codecs,the new codec is simpler.Not only samples needed in the new codec are fewer than in traditional codecs and the number of samples can be changed according to the encoding mode,but also high compression ratio and good quality of reconstructed video are obtained.
【Key words】compressive sensing;video coding;encoder;decoder
·实用技术·*江西省自然科学基金项目(2009GQS0008)
min α
‖α‖l
1
< =ΦΨα(4)再将稀疏系数α代入式(1)即可重构原信号。
2.2视频编解码核心技术
传统的视频编解码器是基于宏块操作的,编码模式
包括帧内模式和帧间模式。下面以H.264为例,简单分析传统视频编解码的核心技术[9]。
H.264的编码器如图1所示。在帧内模式下,当前宏块的像素的预测是基于对帧内已经编码并解码重构后的宏块进行的。将当前宏块与参考宏块求残差后进行变换,再将得到的系数中少数重要部分保留,并对其幅度和位置进行量化、熵编码。在帧间模式下,当前宏块的预测块是基于对参考帧进行运动估计和补偿得到,再将当前帧和预测帧的宏块求残差,最后对残差进行量化、熵编码,得到编码码流用于传输或存储。由于编码器中需要参考帧,所以编码器内包含了部分解码器。
H.264的解码器如图2所示,整个解码的过程是编码的逆过程。接收的码流先经过熵解码、逆量化、逆变换得到残差图像,再加上根据帧内编码或帧间编码的参数得到的预测图像即为重构的图像。
从上述过程看,传统的编码过程复杂,解码简单,对编码端的要求更为严格。编码过程中,图像变换后的系数大部分被抛弃,造成数据和内存资源的浪费。
3
基于压缩感知理论的编解码器
结合上节中的压缩感知理论和传统的视频编解码
核心技术,本节将设计一种基于压缩感知理论的视频编解码器。
3.1基于压缩感知理论的编码器
基于压缩感知理论的编码原理如图3所示。编码
前,先将视频序列分成图像组。编码时,如果当前帧采用
帧内编码(记为I 帧),则它的编码方法是直接对该帧进行预处理和编码测量,其中,预处理过程是个可选的步骤;如果当前帧采用帧间编码(记为P 帧),编码方法是用前面解码重构帧作为参考帧,并与当前帧求残差,再对残差进行预处理和编码测量。由于残差图像的稀疏性更强,所需的测量样本数可以更少。两种模式下得到的编码测量值再经量化、熵编码便可得到编码码流。和传统的视频编码器一样,编码器内有个局部的解码器,目的是得到用于帧间编码的参考帧。
和传统的视频编码器相比,存在以下几个不同点:
1)传统方式下是以块作为处理单元的,而基于压缩感知理论的编码器是对整幅图像进行处理的;2)传统方式下所需的图像样本数远远大于压缩感知理论下的情况;
3)基于压缩感知编码中的测量过程是将高维信号投影
到低维空间的一个非自适应过程,事实上,它可对应于传统方式下的采样和变换过程,由于得到的每个测量值包含了传统方式下的所有样本的部分信息,所以它能避免传统方式下因丢弃高频分量而带来图像细节丢失的现象;4)传统方式下的帧间编码需进行运动估计和补偿,而基于压缩感知的帧间编码不需这些过程,有利于降低运算的复杂度。
广州塔模型3.2基于压缩感知理论的解码器
基于压缩感知理论的解码原理如图4所示。解码时,
接收的码流先进行熵解码、反量化后,用求欠定线性方程组解的方法(即求解表达式(3))进行重构,接着进行后处理。得到的如果是I 帧图像,则该图像即是重构图像;如果是P 帧,则该图像是残差图像,此时需要将帧存储内保存的参考图像与残差图像通过加法器相加,进一步得到重构图像。两种模式下的重构图像需送入帧存储,作为后面帧的参考帧。
基于压缩感知理论的解码器与传统解码器的主要区别在于,传统解码过程是编码的逆过程,解码器相对简
当前帧F n
参考帧F n -1
重构帧F n ′
滤波器
逆变换
帧内预测
帧间运动补偿运动估计
选择
帧内
逆量化
洛湛铁路
变换
量化
熵编码
NAL
图1H.264编码器
图2
H.264解码器
参考帧F n -1
重构帧F n ′
滤波器
运动补偿帧内预测
帧间帧内
预防职务犯罪论文
逆变换逆量化熵解码
NAL
图4基于压缩感知理论的解码器
重构图像
帧存储
noteexpress后处理重构
反量化
帧间
帧内熵解码
接收码流
图3
基于压缩感知理论的编码器
视频图像
预处理测量量化输出码流
熵编码
帧存储
帧间
帧内
后处理重构反量化
帧间
帧内
单,编码器较为复杂,而基于压缩感知理论的解码不再是编码的逆过程,而是一个求欠定线性方程组
解的过程,相对于编码器来说,解码器较为复杂。这种情况有利于环境恶劣或条件较为严格时的编码测量。
总之,基于压缩感知理论的视频编解码器结构比传统的更简单,且编码达到的压缩比和解码重构图像的质量都较高。
4
实验结果及分析
为了验证基于CS 理论的视频编码器的有效性,对
两组视频序列进行处理,考虑不同I 帧采样数N 与P 帧采样数N 1组合下的视频重构质量。编码测量过程中的稀疏基采用Daubechies 9/7小波基,测量矩阵选用32×32的随机扰动分块Hadamard 矩阵[10]。重构算法采用GPSR 算法
[11]
。由于量化(反量化)和熵编码(熵解码)技术在
传统的视频编解码技术中非常成熟,所以实验中没有加以考虑。
对第一组尺寸为176×144像素的“carphone ”视频序列进行处理时,连续的12帧被分成3组,每组4帧。每组的第一帧进行I 帧编码,而组内的其余帧采用P 帧编码方式,参考帧选用当前帧的前面已解码重构的帧。当I 帧的测量样本数N 由10000增至25000,P 帧的测量样本数N 1由1000增至25000时,重构视频图像的平均
PSNR 随N 和N 1的变化如图5所示。实验结果表明,当I 帧测量样本数N 较大时,重构的视频图像的平均PSNR 较高,此时,即使P 帧测量样本数N 1增加很大,平均
PSNR 的改善很小。原因是帧间编码的残差图像的稀疏性很强,在压缩感知理论下,很少的测量值已经足够得到一定质量的重构图像。但是,如果当I 帧测量样本数N 较小,即使P 帧的测量样本数N 1很高,重构的视频图像的平均PSNR 仍是很低,这是由于I 帧的重构误差扩散所造成的。
图6a 为视频源序列中的第7帧图像。当N 为10000且N 1为100时,整个视频的压缩率为9.8,平均PSNR 为
26.26dB 。当N 仍为10000而N 1为10000时,视频压缩率
为2.5,平均PSNR 为26.88dB 。在这两种情况下,第7帧图像的重构情况分别如图6b ,6c 所示。当N 变为25000,
N 1为100时,视频压缩率变为4,平均PSNR 为32.48dB ;N 不变,N 1改为10000时,视频压缩率为1.8,平均PSNR 为33.83dB 。这两种情况下的第7帧图像重构情况分别如图6e ,6f 所示。由此可见,测量样本数和视频的平均
PSNR 之间可以根据实际需要进行合理的折中,以达到合理的压缩率和重构质量的平衡。例如设置N 为15000,N 1为100,视频压缩率可以达到6.6,而平均PSNR 接近30dB 。此时,第7帧重构如图6d 所示。
第二组实验中,连续的80帧视频序列“salesman ”被分成8组,每组10帧。每组的第一帧进行I 帧编码,组内的其余帧采用P 帧编码方式,参考帧选用当前帧的前面已解码重构的帧。当I 帧的采样数N 从10000到65000进行变化,对每种I 帧的情况,P 帧的采样数N 1从5000到
65000变化。各种情况下,重构视频图像的平均PSNR 随N 和N 1的变化如图7所示。
图8a 为视频源序列中的第31帧图像。当N 为
10000且N 1为1000时,视频压缩率为34.5,平均PSNR 为19.6dB 。当N 仍为10000而N 1为10000时,视频压缩
率降为6.6,平均PSNR 为19.81dB 。在这两种情况下,第
31帧的重构情况分别如图8b ,8c 所示。当N 变为60000,N 1为1000时,视频压缩率为9.5,平均PSNR 为27.65dB ;N 不变,N 1改为10000时,视频压缩率为4.4,平均PSNR 为28.77dB 。这两种情况下的第31帧重构情况分别如图
图6第7帧源图及其重构图
(a )源图像(b )N =10000,N 1=100(c )N =10000,N 1=10000
(e )N =25000,N 1=100(f )N =25000,N 1=10000
(d )N =15000,N 1=1001
2
3
456
302826242220
N 1/10
4
平均P S N R /d B
N=10000N=15000N=20000N=25000N=30000N=35000N=40000N=45000N=50000N=55000N=60000N=65
000
图7
N 和N 1对视频图像重构质量的影响
34333231302928270.0
0.5
1.0
1.5
刘锡山2.0  2.5
平均P S N R /d B
图5
N 和N 1对视频图像重构质量的影响
N 1/104
N=25000N=20000N=15000N=10
000
于上层应用之间相对独立,使数字电视功能升级有了更大的自由度和可扩展范围;消息驱动作为系统中的关键技术,使系统各模块的交互和通信更加高效和简化,系统的资源利用也相对合理,满足了数
字电视用户的需求。该嵌入式消息模式已经应用于数字电视产品中。随着数字电视的全面普及,该系统模式的应用将越来越广泛。参考文献:
[1]
马立欣.数字电视概述[J].电视技术,2000(6):5-8.
[2]杨晓宏.我国数字电视发展与展望[J].中国有线电视,2002(14):
10-12.
[3]
郭敏强.基于AVS 的高清晰度数字电视设计[J].电视技术,2006(5):52-53.
作者简介:
闻,硕士生,主研多媒体通信、数字电视;
门爱东,教授,博士生导师,主研多媒体通信、数字电视;蒋
飞,硕士生,主研多媒体通信、嵌入式Linux 、数字电视。
责任编辑:哈宏疆
收稿日期:2010-02-28
8e ,8f 所示。若考虑测量样本数和重构质量之间的平衡,设置N 为30000,N 1为1000,那么压缩率可以达到16.8,而平均PSNR 能够高于24dB 。此时,重构的图像如图8d 所示。
5
小结
结合压缩感知理论和传统的视频编解码技术,笔者
提出了一种结构较为简单的基于压缩感知理论的视频编解码器。该编解码器充分利用了视频图像的相邻帧间的残差具有较强的稀疏性的特点,在样本数很少的情况下,仍取得了较高的压缩比和较好的图像重构效果。实验验证时采用的是对视频图像固定分组形式,若采用根据图像稀疏度变化情况自适应地分组形式,效果将会更好。参考文献:
[1]
CANDES E ,ROMBERG J ,TAO T.Robust uncertainty principles :Exact signal reconstruction from highly incomplete frequency information[J].IEEE Trans.Inform.Theory ,2006,52(2):489-509.[2]DONOHO D.Compressed sensing[J].IEEE Trans.Inform.Theory ,2006,52(4):1289-1306.
[3]
BARANIUK R G.Compressive sensing [J].IEEE Signal Processing
Magazine ,2007,24(7):118-121.
[4]喻玲娟,谢晓春.压缩感知理论简介[J].电视技术,2008,32(12):
16-18.
[5]
DUARTE M ,DAVENPORT M ,TAKHAR D ,et al.Single-pixel imaging via compressive sampling[J].IEEE Signal Processing Magazine ,2008,25(2):83-91.[6]
STANKOVIC V ,STANKOVIC L ,CHENG S.Compressive video sampling [C/OL]//Proceedings of the European Signal Processing Conf.,Lausanne ,Switzerland ,2008[2009-11-02].
/
Proceedings/Eusipco/Eusipco2008/papers/1569099804.pdf.
[7]MARCIA R ,WILLETT R.Compressive coded aperture video reconstruc-tion [C/OL]//Proceedings of the European Signal Processing Conf.,Lausanne ,Switzerland ,2008[2009-11-02].duke.edu/~willett/papers/MarciaEUSIPCO2008.pdf.
[8]PARK J Y ,WAKIN M B.A multiscale framework for compressive sensing of video [C/OL]//Proceedings of Picture Coding Symposium ,Chicago ,Illinois ,2009[2009-11-12].inside.mines.edu/~mwakin/papers/jyp-mbw-videocs-pcs2009.pdf.
[9]
WIEGAND T ,SULLIVAN G J ,BJONTEGAARD G ,et al.Overview of the H.264/AVC video coding standard [J].IEEE Trans.Circ.Syst.Video Technol.,2003,13(7):560-576.
[10]
GAN L ,DO T T ,TRAN T    D.Fast compressive imaging using scrambled block Hadamard ensemble [C/OL]//Proceedings of the European Signal Processing Conf.,Lausanne ,Switzerland ,2008[2009-11-11]./Proceedings/Eusipco/Eusipco2008/papers/1569104824.pdf.
[11]
FIGUEIREDO M A T ,NOWAK R D ,WRIGHT S J.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems [J].IEEE Journal of Selected Topics in Signal Processing ,2007,1(4):586-597.
作者简介:
谢晓春(1975-),副教授,主研信号与信息处理;赖昭胜(1966-),教授,主研视频图像处理;杨汉祥(1950-),教授,主研视频图像处理。责任编辑:哈宏疆
收稿日期:2010-03-01
图8第31帧源图及其重构图
(a )源图像(b )N =10000,N 1=100(c )N =10000,N 1=10000
(e )N =60000,N 1=1000(f )N =60000,N 1=10000
(d )N =30000,N 1=100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
战地恋歌
(上接第13页)

本文发布于:2024-09-23 11:27:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/147169.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:视频   编码   图像   重构   传统   感知   理论   压缩
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议