H263活动图像压缩编码标准

H.263活动图像压缩编码标准
H.263是ITU-T(国际电信联盟)继H.261之后,制订的活动图象压缩编码标准,它提供了甚低码率(低于64kbit/s)下视频图象压缩码的建议和视频码流的句法和语义规定等。
H.263.可用于可视电话极低比特率的编解码器。例如:由于可用信道较窄(公用电话交换网,Internet,窄带无线等),活动图像的数据量很大,通常要对源信号进行300倍以上的压缩。可视电话信号经过H.263压缩再经过V.34调制后,码流压缩到28.8Kb/s,其视频为20Kb/s左右,可沿公用电话交换网PSTN传送。被编码的信号格式可以是S-QCIF(128*96*29.97),彩取样4:2:0,也可是QCIF,CIF或更大的输入格式,帧频较低。该编码器提供与H.261同样的质量,但比特数减少一半。
先简单介绍一下图像编码的步骤和方法:
一般来说,图像编码分三个阶段:第一是信号处理阶段,它是把图像信号进行变换、处理,使数据处于容易压缩、量化的状态;第二是量化阶段,量化是用少量值表示多量值的过程,这里产生压缩,同时也产生失真;第三是无失真编码,即产生输出数据流。对图象采用不同的处理、量化和熵编码方法,就产生了不同的图象编码方法。
经典的编码方法是基于信息论的理论框架,对图像进行线性处理,产生信息保持或限失真的压缩图象。主要有三大类:预测法、变换法、和统计法。
1、预测法的基本思想是:根据数据的统计特性得到预测值,然后传输图像像素与其预测值的差值信号,使传输的数码率降低,达到压缩的目的。预测法简单经济,编码效率高,常用的方法有:PCM、DPCM、ADPCM等。预测法的主要问题是预测器的设计,一般都采用以最小均方误差(MMSE)为准则的最佳预测设计;
脑根2、变换法的基本思想是:首先把图像分块,例如8×8、1 6×1 6的像素块,然后再逐块进行正交变换,去掉样本间的相关性。再对变换系数进行量化、编码。变换法具有压缩比高、抗噪性能好等特点。常用的有:余弦变换(DCT)、W ALSH变换、Fourier变换等;
3、统计法是信息保持型压缩方法,它利用数据出现的概率分布特性消除其冗余度,如Huff-man编码、算术编码等,压缩后的图象不会产生失真,即是一种熵保持型编码方法。
H.263的图像格式:
由于全世界彩电视有PAL,NTSC,SECAM三种不同制式,为便于国际上不同制式的彩电视信号互连,ITU提出把不同制式彩电信号都转换成“公共中间格式”(CIF),这个CIF 格式为352*288*29.7,即每行352个像素、288行、帧频为每秒29.7帧。QCIF则为176*144*29.7。H.263建议可以采用5类图像格式:16CIF,4CIF,CIF,QCIF和sub-QCIF,覆盖范围比H.261更广。
首先将画面的红、绿、兰(R,G,B)三基信号经过模数转换变到亮度和度信号。一般是一个亮度分量Y和二个度分量Cb,Cr。亮度分量Y的素为每个度分量Cb,Cr素的4倍。
为方便图像处理,把每帧图像分成块,逐一处理。H.263亮度和度抽样比为4:1:1,编码按16×16大小的宏块进行。以CIF格式为例:
分块方式是:
脱墨纸
共6块8*8像素块,亮度Y占4块,度Cb,Cr各1块。亮度Y的图像区域与度Cb,Cr 的图像区域面积相等,并重合。Cb,Cr像素少,故清晰度较低,但人眼对度的敏感程度低,因此,不影响人的主观感觉。这6块8*8像素块构成一组,作为图像处理的基本操作单元。
H.263的编解码框图:
信源编码器是对图像信号进行压缩,当前采用DCT变幻,再将变换后的DCT系数量化,输入视频复接编码器。视频复接编码器是将每帧图像数据排列为4层的数据结构,以便在4层中插入必要的辅助数据,同时对交流DCT系数进行可变长度编码VLC,对直流DCT系数进行固定长度编码FLC。编码后的
位流送入缓冲区。编码控制是由于采用变长编码技术,经过压缩后数据为速率不均匀的码流,为能以恒定速率在通信网中传输,需缓冲存储器来进行数据的平滑。根据缓冲存储器当前以缓存的数据量,控制编码器中量化器的量化步长等参数,从而得到恒定速率。
H.263采用帧间预测(DCMP)与帧内变换(2D-DCT)相结合的方式编码。若前后帧很相似,则编码器进行帧间预测,通过运动估计出上一帧中与当前帧待编码宏块相匹配的宏块,用预测误差表示匹配块与当前块的差值,然后对所得的帧间预测误差进行二维离散余弦变换2D-DCT,因为传输时只传预测误差,而不需直接传输整帧数据,从而消除两帧图象的时间相关性.;若前后帧不很相似,则对该当前帧图象进行帧内DCT编码,即把该帧图象中每一个8*8块进行DCT,再对所得的DCT系数进行量化,然后把所得的量化值进行VLC
编码。DCT主要用来消除图象的冗余度,通过DCT后,零系数更集中,更利于压缩编码。
为减少预测误差,提高预测精度,可辅助以运动估计、运动补偿,达到提高压缩比、改进图像质量的目的。发端是运动估计,收端是运动补偿。帧间编码时,预测误差不是与上段对应像素的差值,而是采用块匹配法。运动估计原理图:将一幅图像分成若干块,每块由n*n象素组成。通常n=8或16。设A为当前帧中待处理的一个块,我们希望前一帧中以A 为中心,上下左右各移dm个象素的B区域中与A最相似的某块,这是C与A的匹配过程。C 块与A块的坐标偏移量即估计的运动矢量V.为此还要确定一个匹配函数,常用均方误差或绝对误差准则。匹配就是求误差最小值的过程。
运动补偿与估计提高了帧间预测精度,可显著提高压缩比,但运算量大,运动矢量水平和垂直分量表明当前预测宏块于上一帧中匹配的宏块之间的相对位置。解码器按每一宏块接收一个运动矢量,用于该宏块的四个亮度块和两个度块进行运动补偿,即对该宏块的水平和垂直位置按运动矢量平移。
VLC编码包括游程编码和熵编码两部分。
图像值经DCT及量化后每块有8*8个数据,呈正方形,左上角为直流系数,其他为交流系数,右下角为最高频率交流系数,对应图像信号的最高频率。由于视觉对低频敏感,高频系数0较多,编码时对8*8块中的系数采用z字形的扫描顺序进行数据处理,如图。
游程长度编码将量化后的系数变成若干对数据,H.263不同于H.261,变换系数的编码形式在H.263建议中采用三维可变长编码VLC(Last,Run,Level)代替了H.261建议中的二维VLC(Run,Level)。其中Run:游程,表示系数序列中连续为零系数的长度;Level:量化电平,表示连续零系数之后第一个非零系数的值;Last:表示此码字是否为本块中最后一个非零系数,“0”表示不是,“1”表示是。
熵编码(Huffman编码是其一种):对经常出现的值分配短码,对偶尔出现的值分配长
码,于是得平均码长最短的码。H.263提供了算术编码方法的选项来替换H.261中二维 Huffman 游程编码。
进一步降低码率和提高编码质量的目的,H.263在H.261标准的基础上,将运动矢量的搜索增加为半象素点搜索,同时又增加了无限制运动矢量,基于语法的算术编码、高级预测技术和PB 帧编码等四个高级选项。
H.261建议中运动补偿的精度和搜索范围分别为整像素精度和〔-15,+15〕个像素,H.263建议中运动补偿的精度和搜索范围为半像素精度和〔-16,+15.5〕个像素 ,并且去掉了H.261建议中采用的环路滤波器。半像素精度通过简单的线性内插过程产生。H.263中运动矢量的搜索精度达到半象素点,使图象质量得到明显提高。H.263的编码方法在相当于H.261的数码率一半时仍取得了较好的效果。
4个推荐的可选模式:
(1 )无限制运动向量模式(Unrestricted Motion V ector mode)
采用无限制运动向量模式允许运动矢量指向图像以外的区域 ,此时用边缘像素值代替不存在的像素 ,可以解决运动物体越过边界的问题 ,获得较好的增益。某些由于摄像机的抖动造成编码效果下降的图像序列引入无限制运动向量模式可以改善效果。
一般运动矢量的范围都限制在已经编码的参考帧之内,但是对当前帧图像边缘的宏块进行运动估计时,由于不少的参考宏块已经处于参考帧之外而无法进行。如图:a 。在263中取消了这种限制。当某
运动矢量所指的参考宏块位于编码图像之外时,就用其边缘的图像值来代替这个不存在的宏块。如b ,图像帧扩大到虚线所示区域,A 区中宏块用ab 线上的像素值表示。这种限制的取消对可视电话尤为重要,这时边缘宏块数为36,占一幅图像99个宏块的36%。无限制运动向量的引入,大大提高图像边缘的运动补偿效果,改进了边缘的图像质量。
推拉式电磁铁(2 )基于语法的算术编程模式(Syntax- based Arithmetic Cod-ing)
在 H.263建议附录 E 中推荐了一种基于语法算术编码以替代霍夫曼 (Huffman)编码,编码时不用如H.2
61中那样在可变长编码中每一个符号必须事先按一定概率统计,编成相应的整数个比特。这种编码可以在相同的峰值信噪比 PSNR 和主观质量下 ,节省了比较大的比特数。再生胶生产设备
(3 )高级预测模式(Advanced Prediction mode)
一般每个宏块16*16对应一个运动矢量,在高级预测模式下,每个宏块中4个8*8亮度块可以各对应一个运动矢量,搜索范围为〔-8,+7.5〕个像素,精确到半像素,两个彩块的运动矢量取这4个亮度块运动矢量的平均值。这8*8亮度块的运动矢量还可采用交迭块运动补偿得到,即其运动矢量为当前块与周围4个块5个运动矢量的加权平均得到。这样减小了块效应。在译码器端 ,根据预定义的加权表采用块重叠运动补偿技术 (Overlapped Block Motion Compensation)恢复译码像素亮度值。采用4个运动向量需要更多的比特 ,但能提高预测精度 ,改善了图像块效应 ,提高主观质量。这种方法的运用在整个编码过程中是有选择地采用的。具体的判断依据在这里就不详细介绍了。
柔毛水杨梅(4) PB帧模式(PB- frames mode)
PB帧
防潮密闭门
H.263支持3种图象帧类型:I帧(帧内图)、B帧(双向内插图)和P帧(预测图).其中B帧需与P帧一起混合编码,只能采用双向预测。在H.263建议中往往只有第一帧是I帧,其余都是P帧或PB帧。和MPEG不同,两个P帧中间只可能有一个B帧,并且, B帧主要是为了在不需增加太多的比特的情况下提高帧频。
一个PB帧包含作为一个单元进行编码的两帧图像:P3帧与B2帧。P3帧由已经解码的P1帧预测得到,而B2帧由P1,P3共同预测得到。先对P3相对P1进行帧间预测,得到运动矢量,逐一对每宏块进行重建。B2在P1, P3基础上预测得到。预测时假设B2,P1,P3相对运动矢量随时间作线性变化。PB帧的引入,由于采用双向预测,减少了预测误差,提高了压缩比,而且利用较少的额外码子,增加一个B帧,这就增加了帧速率。“过去”“未来”参考帧间的平均运算,可减少噪声的影响。例如,可以消除新背景的移出而带来的前向的错误预测。但是在帧率很小(小于7. 5帧/ s)时,双向预测效果不一定明显,从而增加了较大的比特率。
H.263的视频码流结构
为方便数据交换与兼容,H.263的视频码流采用分层结构,从上到下分成四层,即:图象层(Picture Layer),块组层(Group of Blocks Layer),宏块层(Macroblock Layer),块层(Block Layer)。
码流结构如下图所示:
图中EOS是图象编码结束的标志,码值为“0000 0000 0000 0000 1111 11”,PSTUF是填充字节流。
下面对上述四层结构详细说明:
1、图象层(PL)

本文发布于:2024-09-23 13:22:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/219075.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:运动   编码   图像   预测   进行   矢量   采用   压缩
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议