视频信息处理与传输的研究领域和研究热点

邮件发原理

视频信息处理与传输的研究领域和研究热点

摘要：当今社会是一个数字信息化社会,数字信息化的一个主要特征就是数字多媒体技术的广泛应用.多媒体的数字化和网络化,将数字媒体信息传播到世界的每个角落,改变了人类接受信息的传统方式和途径,打破了人与人之间的时空界限,进而改进了人们的学习、工作和生活方式.

关键词：视频信息处理视频信息传输视频检索视频压缩

玉娇丽

随着计算机性能的重大突破和互联网应用的普及，视频数据量剧增。为了充分有效地利用和发挥这些分布广泛、内涵信息丰富的视频内容的作用，视频信息处理技术应运而生。视频信息处理是智能信息处理的重要组成部分，它分为基于视频数据的低层处理（对感兴趣目标的检测、跟踪和识别）和在此基础上的高层（语义层）的行为判别、理解等研究内容。视频数据中包含视觉（图像）和听觉（音频）两种模态的信息，基于视频数据内容的处理涉及对感

兴趣目标的检测、识别、跟踪等关键技术。本文着重讲述视频信息处理与传输的研究领域和研究热点，并详细具体描述其中三个研究领域和研究热点。

1 研究领域和研究热点

1.1 视频检索

视频检索把图像检索、模式识别、图像数据库技术等技术成果结合了起来,有着广阔的发展前景,并将在许多领域中道得到应用。

视频检索就是要从大量的视频数据中到所需的视频片断。根据给出例子或是特征描述,系统就能够自动的到所需的视频片断点,即实现基于内容的视频检索。

根据提交视频内容的不同,视频检索一般分为镜头检索和片段检索。一般来说,片段的概念等价于场景的概念,也是由一连串语义相关的连续镜头构成,不同的是,片段可以是一段完整场景的部分或者全部。目前视频检索的多数研究还集中在镜头检索上。而片段检索方面的研究则刚刚开始。实际上,从用户的角度分析,他们对视频数据库的查询通常会是一个视频片段而很少会是单个的物理镜头。从信息量的角度分析,由几个镜头组成的视频片段有比单个

镜头更多的语义,它可以表示用户感兴趣的事件,因此,查询的结果也比较有意义。例如在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动、电视台检索某条广告是否播出等。

由于视频拍摄的多样性和后期编辑的复杂性,片段的相似性有多种可能。把片段检索分为这样两种类型:(1)精确检索:要检索的片段与例子片段完全一样,具有同样的镜头和帧序列;(2)相似性检索:有这样两种情况:一种是对原视频进行了各种编辑,如插入删除帧(慢镜头快镜头)、插入删除镜头、交换帧镜头顺序等;另一种是不同拍摄的同类节目,如不同的足球比赛等。实际的视频节目一般都是这两种类型的综合,其中,相似性检索更为普遍。因此,一个好的片段检索算法,应该能够在合理的时间内同时进行这两种类型片段的检索。

1.2 数字视频压缩

数字视频压缩一般要经过采样，预处理，帧间预测，变换，量化，嫡编码，打包等几个步骤。图2一1是MPEG一4标准的视频编码器方框图。其他视频编码器的结构也是类似的。

编码器能够处理的一般是几种特定格式的数字视频。数字视频的格式参数包括亮度度的

空间采样比例(有4:4:4，4:2:2，4:2:0等)，采样的帧速率(有10，24，25，30，50，60等)，扫描方式(逐行或隔行)，颜表示方法(有RGB，YUV，YCbCr等)，量化精度(一般是8位)等等。如果视频的格式不在编码器能够处理的格式范围之内，就需要将其转换为能够处理的格式。对于MPEG一4等基于对象的编码器，首先要对原始视频进行分割，将视频的每一帧分割成若干区域;然后在图像分割的基础上进行场景分析，把意义上相关的区域连接起来，形成若干视频对象;最后分析视频对象之间的关系，形成场景描述。这一段工作的难度是最大的，因为仅仅依靠图像的物理特征是不够的，还需要先验知识或者人工干预。在MPEG一4标准中，并没有对这一步采用的方法作出规定。对MPEG一2等基于宏块的编码器，则不需要进行图像分割，直接把符合格式要求的视频序列送给下一步的帧间预测器就可以了。

时代经贸对任意形状的视频对象，首先进行预测与编码模式的选择。编码模式有三种:

(l)帧内编码。即不进行帧间预测，称为I帧(IntraFrame)。

(2)向前预测。即利用前一帧进行预测，称为P帧(PredietedFrame)。

(3)双向预测。即利用前一帧和后一帧进行预测，称为B帧(Bidirectional

PredietedFra们ne)。

由于I帧没有去除时间冗余，压缩效率不高。但是为了满足随机访问的要求，每隔若干帧一定要有一个I帧。另外，当预测的效果很差时，比如发生场景转换时，也需要采用帧内模式编码。P帧利用它前面的一个I帧或者P帧进行预测，由于参考的帧数少，而且相隔较远(一般是前面的第三帧或者第四帧，中间隔着两个或三个B帧)，因此压缩效率也不是很高，在保持与I帧的质量差不多的情况下，压缩比一般能达到l帧的2.5倍至3倍。B帧利用它前面和后面的各一个I帧或P帧进行预测，由于参考帧多并且时间间隔短，因此压缩效率最高。在保持同等质量的情况下，一般能够达到P帧压缩比的2倍至3倍。

如果决定采用帧内编码，则接下来要进行纹理编码和形状编码。如果采用向前预测或者双向预测，则接下来需要进行运动矢量编码，纹理误差编码和帧间模式的形状编码。当然，基于宏块的方法总是不需要形状编码。

对运动矢量的编码比较简单，可以直接用嫡编码方法对每一个运动矢量编码。也可以把一帧当中的宏块的运动矢量看成一个取复数值的图像。

回看天际下中流

强盗的逻辑图2一1MPEG一4视频编码框图

MPEG一4等基于对象的视频编码方法所特有的。人们已经提出了很多

MPEG一4采用的是基于宏块的CAE方法。

在纹理、运动矢量和形状编码完成后，一般要把数据组织成流的形式。数据流有严密的语

法结构，一般要增加一些附加信息。

1.3 基于P2P视频传输

互联网快速发展至今，之所以越来越受欢迎，其根本原因在于其发展的每一步都使人与人之间的交流变得更加方便快捷，互联网作为一种信息交流方式已经深入人心。所以，现在能够引起互联网发展震动的，无非就是交流方式自身的深层次变革。伴随着各种 P2P 即时通讯软件在市面上的流行，P2P 技术对于大多数熟悉互联网的人来说已经不是陌生事物了。

因为即便人们没有专门深入研究 P2P 技术，但他每天在互联网上使用的各种信息交流工具几乎没有不使用 P2P 技术的。比方说，当你在使用某一个视频点播软件或下载软件时，就是无形中在享受 P2P 技术带来的方便与高效率。那 P2P 技术的概念究竟是什么，恐怕很少有人能

出口贸易结构很详细的解释清楚。一种解释是从字面意义来的，P2P 就是 peer-to-peer，即对等点与对等点之间的通信的意思。从这种解释的意义来说，由 P2P 对等点组成的互联网络可以称为

是对等网络，网络中每个节点之间的关系就像是日常生活中人与人之间的伙伴关系一样，大家在组织结构上是平等的。而另一种解释是，P2P 技术是人类希望平等的思想的承载体，这种思想希望网络中的每个个体之间都是平等相待。但如果我们单从互联网技术的角度出发，P2P本身并未提出具有重大创新性的技术概念，它更多的是向人们阐述了对于因特网的另一种理解与认识。也许正是出于这方面的思量，IBM 早就宣称 P2P 不是一个纯粹的技术概念，它更多的是一种社会与经济表象。但不管 P2P 是技术还是思想，P2P 能将人类联系的更加紧密，它使得网络上的信息交流变得更便利、更直接，而不需要任何中间环节的加入。这听起来仿佛是全新的概念，但其实我们每天是在这种环境下度过的。我们每天见面，或通过电话或直接面对面交流都是非常好的 P2P 例子。从这种情况我们可以感觉到，P2P 必将获得飞速的发展，因为它能够颠覆现有互联网以大型网站为中心的状态，并把权力交还给用户，让用户真正参与到互联网的将设中来，使人们的信息交流更加具体化。而这也最符合互联网络发明者的初衷，即网络个体彼此之间是平等的关系。

本文发布于:2024-09-22 19:40:29，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/126692.html

上一篇：P2P系统的激励机制

下一篇：MikroTik

标签：视频检索信息编码技术进行能够研究

留言与评论（共有 0 条评论）