首页 > 专利信息

基于CUDA的HAVC视频编码的设计与实现（精品）

第２８卷第１期２００９年３月

中南民族大学学报（自然科学版）

ＪｏｕｒｎａｌｏｆＳｏｕｔｈ—ＣｅｎｔｒａｌＵｎｉｖｅｒｓｉｔｙｆｏｒＮａｔｉｏｎａｌｉｔｉｅｓ（Ｎａｔ．Ｓｃｉ．Ｅｄｉｔｉｏｎ）

Ｖ０１．２８Ｎｏ．１

Ｍａｒ．２００９

基于ＣＵＤＡ的Ｈ．２６４／ＡＶＣ视频编码的设计与实现

高智勇，万双，舒振－ｙ－，刘海华

（中南民族大学电子信息工程学院，武汉４３００７４）

摘要为了提高编码速率，将视频编码中计算量较大的运动估计和离散余弦变换（ＤＣＴ）系数计算移植到图像处理器（ＧＰＵ）上处理．根据Ｈ．２６４／ＡＶＣ的编码要求和处理器的并行结构．提出了～种并行处理方法．并利用统一计算设备架构（ＣＵＤＡ）的计算平台，实现了Ｈ．２６４／ＡＶＣ中的

运动估计和ＤＣＴ变换系数的计算．实验表明：在ＧＰＵ上采用并行计算方法可较大程度地提高视频编码速度．

关键词统一计算设备架构；Ｈ．２６４／ＡＶＣ视频编码标准；运动估计；并行计算

兑换券制作中图分类号ＴＰ３９１文献标识码Ａ文章编号１６７２—４３２１（２００９）０１—００６７—０５

ＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＨ．２６４／ＡＶＣ

ＶｉｄｅｏＥｎｃｏｄｉｎｇＢａｓｅｄｏｎＣＵＤＡ

ＧａｏＺｈｉｙｏｎｇ，ＷａｎＳｈｕａｎｇ，ＳｈｕＺｈｅｎｙｕ，ＬｉｕＨａｉｈｕａ

（ＣｏｌｌｅｇｅｏｆＥｌｅｃｔｒｏｎｉｃＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ．Ｓｏｕｔｈ·ＣｅｎｔｒａｌＵｎｉｖｅｒｓｉｔｙｆｏｒＮａｔｉｏｎａｌｉｔｉｅｓ．Ｗｕｈａｎ４３００７４，Ｃｈｉｎａ）ＡｂｓｔｒａｃｔＴｏｅｎｈａｎｃｅｓｐｅｅｄｏｆｖｉｄｅｏｃｏｄｉｎｇ·ｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄＤＣＴｃｏｅｆｆｉｃｉｅｎｔｃｏｍｐｕｔｅｄｉｎｔｈｅｇｒａｐｈｉｃ

ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ（ＧＰＵ）．ＴｈｅｍｅｔｈｏｄｏｆｐａｒａｌｌｅｌｐｒｏｃｅｓｓｉｎｇｉｓｐｒｏｐｏｓｅｄａｃｃｏｒｄｉｎｇｔｏｓｔａｎｄａｒｄｏｆＨ．２６４／ＡＶＣｖｉｄｅｏｃｏｄｉｎｇａｎｄｔｈｅｐａｒａｌｌｅｌａｒｃｈｉｔｅｃｔｕｒｅｏｆｔｈｅＧＰＵ．ＴｈｅｍｅｔｈｏｄｉｓｉｍｐｌｅｍｅｎｔｅｄｉｎｔｈｅＧＰＵｗｉｔｈＣＵＤＡｃｏｍｐｕｔａｔｉｏｎａｌｐｌａｔｆｏｒｍ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｓｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｉｍｐｒｏｖｅｓｔｈｅｓｐｅｅｄｏｆｖｉｄｅｏｃｏｄｉｎｇ．

ＫｅｙｗｏｒｄｓＣＵＤＡ；Ｈ．２６４／ＡＶＣｖｉｄｅｏｃｏｄｉｎｇｓｔａｎｄａｒｄｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎ，ｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇ

图形处理器（ＧＰＵ）的处理速度在最近几年得到了快速的发展，其计算能力以每年２．８倍的速度增长，高于ＣＰＵ的发展速度．如目前ＧＴＸ２８０ＧＰＵ的峰值浮点运算能力已经超过１ＴＦｌｏｐｓ，而因特尔４核ＣＰＵＣｌｏｗｌｏｗｎ的单精度浮点最高运算能力为８４ＧＦ】ｏｐｓ．出现该现象的主要原因在于ＣＰＵ的微构架要兼顾数值运算指令和控制指令，而ＧＰＵ的微构架是面向图形类高度并行计算而设计的，因此，ＧＰＵ在并行数值处理能力上要远高于ＣＰＵ．为了合理地利用ＧＰＵ通用计算的资源，统一计算设备架构（ＣＵＤＡ）应运而生ｎ］．ＣＵＤＡ是一种由ＮＶＩＤＩＡ推出的通用并行计算架构，该架构使ＧＰＵ能够解决复杂的计算问题．它包含了ＣＵＤＡ指令集

架构（ＩＳＡ）以及ＧＰＵ内部的并行计算引擎．它将ＧＰＵ的可编程顶点渲染器和片元渲染器集成起来，组成统一的ＳＰＭＤ（ａＳｉｎｇｌｅＰｒｏｇｒａｍＭｕｌｉｐｌｅＤａｔａ）计算设备，并且提供内部共享内存以减少访问外部ＤＲＡＭ的次数，从而大大提高了可编程性．

在视频压缩领域，Ｈ．２６４／ＡＶＣ是目前编码效率较高和图像质量较好的编解码标准口］，但是其运算复杂度较高．为了提高Ｈ．２６４／ＡＶＣ的编码效率，目前人们开展了将Ｈ．２６４／ＡＶＣ中计算量较大的运动估计运算移植到ＣＵＤＡ处理中的研究Ｄ］．然而，图像编码中除运动估计外，其残差宏块的整数ＤＣＴ

收稿日期２００９—０１—２５

作者简介高智勇（１９７２一），男，博士，副教授．研究方向：图像处理和识别，Ｅ—ｍａｉｌ：ｚｈｉｙｏｎｇｇａｏ＠ｍａｉｌ．ｓｃｕｅｃ．ｅｄｕ．ｃｎ基金项目国家８６３计划资助项目（２００７ＡＡ０９１１０１）

６８中南民族大学学报（自然科学版）第２８卷

变换是Ｈ．２６４／ＡＶＣ中另一个比较耗时的运算，因

此，本文在此基础上提出了一种新的并行处理框架，

将运动估计和残差宏块的整数ＤＣＴ变换整合在一

起，充分利用ＧＰＵ中的共享内存，最大限度地发挥

ＧＰＵ的并行处理能力，从而提高了编码效率．

统一计算设备架构的特点

ＣＵＤＡ是将ＧＰＵ中的顶点渲染器和像素渲染

器统一到一个计算单元中，即称作为流处理器

（ＳＰ），其中每８个ＳＰ组成一个多处理器（ＳＭ），其

结构如图１所示．同时，每个ＳＭ含有多个片上内存：

本地寄存器、共享内存、只读常量缓冲、只读纹理缓

冲，且每个ＳＭ都是基于单指令多数据（ＳＩＭＤ）的

构架，用相同的指令执行不同的数据．每个ＳＭ都可

以读取和修改设备内存，所以ＳＭ可以通过设备内存来交换数据．虽然ＳＭ之间不能进行同步操作，但每个ＳＭ内的ＳＰ可以通过函数来进行同步操作，防止数据读取错误．

在进行ＣＵＤＡ编程时，可将ＧＰＵ视为能并行执行非常多个线程的计算设备，并作为ＣＰＵ的协处理器操作，因此，其编程程序将分为两个部分：Ｈｏｓｔ端和Ｄｅｖｉｃｅ端，其中Ｄｅｖｉｃｅ端程序为ＧＰＵ上执行的部分，该程序又称为”Ｋｅｒｎｅｌ”．通常Ｈｏｓｔ端程序会将数据准备好后，复制一份到显卡的内存中，由ＧＰＵ执行Ｋｅｒｎｅｌ程序，完成后再由Ｈｏｓｔ端程序将结果从显卡的内存中取回．

执行内核的最小单位是线程，数个线程组成一个线程块，一个线程块包含的线程数是有限的．一个线程块的所有线程都在一个ＳＭ上执行．因此，同一个线程块中的线程可以通过共享内存来有效地共享数据，并可以同步以防止访问冲突．更准确地说，用户可以在内核中指定同步点，线程块中的线程在全部到达此同步点时挂起．在一个ＳＭ中执行的线程块被成为活动块，每个活动块划分到被称为ｗａｒｐ的ＳＩＭＤ线程组中．其中，每个ｗａｒｐ包含相同数量的线程，并以ＳＩＭＤ方式由ＳＭ执行，多个活动ｗａｒｐ分时复用ＳＭ．每个线程都有唯一的线程ＩＤ来标识，供程序使用．同样，每

个线程块也有唯一的块ＩＤ来标识．数个线程块再组成一个网格，具有相同维度和大小的块可以分批组合到一个块网格中．这样，单个内核调用中启动的线程总数就可以变得很大．但这是以线程协作性的降低为代价的，因为同一网格中不同线程块中的线程不能互相通信和同步ｕ］．

图１ＣＵＤＡ硬件模型结构

Ｆｉｇ．１ＨａｒｄｗａｒｅｍｏｄｅｌｏｆＣＵＤＡ

２基于ＣＵＤＡ的Ｈ．２６４／ＡＶＣ视频编码

Ｈ．２６４／ＡＶＣ是将图像分割成很多个宏块，然后利用视频帧图像的帧内和帧间的相关性，采用帧内预测和帧间预测的编码模式，对各个宏块进行编码，从而实现视频图像的压缩编码．帧内预测模式是为了消除视频图像序列的空间冗余，主要将视频帧图像分为４ｘ４、１６×１６等子块的方式，利用周围已经编码的宏块预测当前宏块的系数，然后将当前宏块和预测值的差值进行变换编码，从而提高压缩效率．帧间预测是为了消除视频帧图像之间的时间冗余．Ｈ．２６４／ＡＶＣ标准中，帧间预测采用了可变块的运动估计技术，比如亮度宏块可以分为１６×１６、１６×８、８×１６、８×８的大小，而每一个８×８的块，又可分为８×４、４×８、４×４的宏块子分区，每个分区都要进行运动估计，所以共有７种分块模式的运动估计补偿［２］．此外，为了提高效率，Ｈ．２６４／ＡＶＣ在Ｐ帧的编码过程中，对运动矢量为０的１６×１６宏块编码时，采用了ＳＫＩＰ编码模式．

Ｈ．２６４／ＡＶＣ运用多种编码模式，使运动估计更为精确，但同时也增加了计算量，例如Ｈ．ｚ６４／ＡＶＣ编码的计算复杂度相当于Ｈ．２６３的３倍，用普通的ＣＰＵ将无法实现实时编码，因此，本文将把Ｈ．

２６４／ＡＶＣ中的运动估计通过ＣＵＤＡ平台移植ＧＰＵ

第１期高智勇，等；基于ＣＵＤＡ的Ｈ．２６４／ＡＶＣ视频编码的设计与实现６９

上运行．虽然目前已经有很多快速运动估计算法［Ｉ。６３，但这些快速算法都含有很多分支判断语句，并不适合ＣＵＤＡ上的并行处理环境，所以，本文采用全搜索法来出各宏块的最佳运动矢量．

２．１线程块的划分

由于目前的ＣＵＤＡ模型中每个线程块的最佳线程数是２５６，而Ｈ．２６４／ＡＶＣ中的基本宏块大小为１６×１６，由此可见将运动估计中每个宏块的绝对帧差和（ＳＡＤ）的计算放在ＣＵＤＡ的一个线程块中操作是较为有效的．然而，Ｈ．２６４／ＡＶＣ的视频编码中采用的是变块大小的模式，宏块的大小从６×１６到４×４，如果宏块太小，那么对该宏块ＳＡＤ计算所需要的线程太少，导致线程块中所含的线程数较少，不利于ＣＵＤＡ的操作．另外一方面，Ｈ．２６４／ＡＶＣ的编码中采用１６×１６、１６×８、８×１６、８ｘ８等４种模式进行编码概率较大，占全部编码模式的８０％以上，为了充分利用资源，提高效率，所以将这４种编码模式放在ＧＰＵ上执行，而将８×４、４×８、４×４这３种编码模式的选择放在ＣＰＵ上运行．

首先利用ＣＵＤＡ函数将当前帧和参考帧从ＨＯＳＴ端拷贝到ＤＥＶＩＣＥ端，并绑定到纹理内存中，然后根据视频图像的分辨率，进行线程块划分．假设图像的分辨率为Ｗ×Ｈ，且宏块分割以１６×１６为标准，则须要的线程块总数量为：

Ｂｏｌｏ伽一Ｎ“ｍ＝ＩＷＩｘ［Ｈ］，（·）在实际设计时，如果图像分辨率不为１６的倍数，则须要补０构成１６的倍数分辨率的图像．由于每个宏块对应一个ＧＰＵ的线程块，因此每个宏块内建立２５６个线程，即１个像素对应一个线程·使每个线程并行执行．

对于每个线程首先计算计算４个８×８宏块的ＳＡＤ，并将这４个ＳＡＤ存入共享内存，那么１６×１６、１６×８、８×１６宏块的ＳＡＤ通过８ｘ８子宏块的ＳＡＤ相加获得．采用这种运动估计宏块对应线程块的方法可以充分发挥了ＣＵＤＡ的并行计算能力；由于一个像素对应一个线程，计算和寻址更方便；因为共享内存是由１６个库组成，这样的线程块构造可以大大降低库冲突，改善了并行运行环境．

２．２最小ＳＡＤ搜索

由于１６×１６的宏块是由４个８×８子块Ｉ、Ｉ、Ｉ、Ⅳ组成，假设搜索域为１６×１６，如图２所示，那么每个８×８子块的ＳＡＤ搜索范围为１６×１６．如，Ｉ块的搜索范围是由（０，Ｏ）和（Ｘ３，Ｙ３）做对角线组成的正方方块，Ⅱ块的搜索范围是由（Ｘ１，ｏ）和（Ｘ４，Ｙ３）做对角线

组成的正方方块．由此可见，每个８×８子块都有２５６个ＳＡＤ值．根据每个像素对应一个线程，则每个线程计算获得４个不同８×８子块的参考帧位置．同时，运动矢量是线程对应的像素到该１６×１６子块中心的偏移．如图２中的Ｐ１、Ｐ２、Ｐ３和Ｐ４分别表示Ｉ、Ｉ、Ⅲ、Ⅳ４个８×８子块对应的参考帧中的子块，运动矢量计算由（２）式确定．

Ｖｚ＝（ｂｌｏｃｋｌｄｘ．ｚ×Ｐｉｘｅｌｚ＋

胁陀口ｄ似Ｌｚ）％１６—８

ｆ９１ｙｖ一（ｂｌｏｃｋｌｄｘ．ｙ×Ｐｉｘｅｌｖ＋’

…

ｔｈｒｅａｄｌｄｘ．ｙ）％１６—８

其中，％表示取余运算，Ｖ—ｚ和Ｖ—Ｙ分别表示ｚ、Ｙ方向的运动矢量，Ｐｉｘｅｌ—ｚ和Ｐｉｘｅｌ—Ｙ表示当前线程所对应像素的位置，ｂｌｏｃｋｌｄｘ．ｚ和ｂｌｏｃｋｌｄａ：．Ｙ表示线程块的索引，ｔｈｒｅａｄｌｄｘ．ｚ和ｔｈｒｅａｄｌｄｘ．Ｙ表示线程块内部的线程的索引．

．当前帧ｘｇ址日

灌。

‘ｍ一

图２各个８Ｘ８子块参考帧的位置

Ｆｉｇ．２Ｐｏｓｉｔｉｏｎｏｆ８Ｘ８ｓｕｂ—ｂｌｏｃｋｒｅ｛ｅｒｅｎｃｅｆｒａｍｅ

每个线程除了计算４个８×８子宏块的ＳＡＤ值，还需要计算２个１６×８和２个８×１６宏块的ＳＡＤ，以及１个１６×１６宏块的ＳＡＤ，共需要存储９个ＳＡＤ值．因为ＳＡＤ值还要经过搜索出最ｄ、ＳＡＤ值，需要频繁的读写操作，因此将ＳＡＤ存放在共享内存（ＳｈａｒｅｄＭｅｍｏｒｙ）中，如图３所示．

１●ｘ¨

图３ＳＡＤ在ＣＵＤＡ中的存储

Ｆｉｇ．３ＳｔｏｒａｇｅｏｆＳＡＤ．ｍＣＵＤＡ

每个线程块中都有２５６组ＳＡＤ值，每组ＳＡＤ都分别有４种宏块的ＳＡＤ，为了搜索最小ＳＡＤ，在

７０

中南民族大学学报（自然科学版）

第２８卷

ＣＵＤＡ中采用并行搜索算法进行处理，即将ＳＡＤ的比较运算分布在多个线程中，如图４所示．首先，将２５６组ＳＡＤ数据放入１２８个线程中进行比较，平均每２组ＳＡＤ数据经过一个线程的比较，把最小值存入线程对应的共享内存中；然后，将比较得到的１２８组ＳＡＤ数据存入６４个线程中进行比较；最后，经过８

Ｓｋ０（ｓｈａｒｅｄｍｅａｏｒｙ）ｌ＇ｍ－ｔａｄ

ＩＤ（比较）轮的比较，最小的一组ＳＡＤ存人到第一个线程对应的共享内存中，以此类推．其中一

个ＳＡＤ值和运动矢量共享一个整数型的共享内存，低１６位存运动矢量，高１６位存ＳＡＤ值，因此在最后得到最小的ＳＡＤ值时，同时也得到了该ＳＡＤ值对应的运动矢量．

Ｉ１

２３４５６

７

８

９１０Ｉｌ１２

１３１４

１５

１６Ｌ—Ｉ—ｋ广ｋ广ｋ—ｋ—Ｉ一、广

ｌ

Ｉ

２

３

‘５

６．Ｔ。８．ｅ．Ｉａ

１１．１２１３．１‘．１５

１６

上上

上

＇Ｌ上

＇Ｌ

Ｊ．

Ｊｒ

Ｉ１．２

非接触式扭矩传感器３４５

６．Ｔ．８．９．１０１ｌ

１２１３

１４１５１６

●●

‘●

●●

‘●

ｌｌ２３‘Ｓ

６７８９ｌＯ，Ｉｌ

１２１３ｌｌ

ｌＳｉ８上

上

Ｊｒ

ｌ

２３４５６７８ｇ

１０１１

１２１３ｌｔ高压直流稳压电源

１５１８

●‘

●●

Ｉｌ

２

３

ｌ

Ｓ

８

．ｒ

８

ｇｌＤｌｌ

１２

１３ｌ●１５１６

图４最小ＳＡＤ在ＣＵＤＡ中的并行搜索

Ｆｉｇ．４

ＰａｒａｌｌｅｌｓｅａｒｃｈｏｆｔｈｅｓｍａｌｌｅｓｔＳＡＤｉｎＣＵＤＡ

２．３

ＤＣＴ变换的计算利乐包

ＤＣＴ是目前多数图像视频编码的主要方法，但

由于ＤＣＴ变换核中含有实数，在处理时需要进行浮点运算，而浮点运算会有舍入误差，这就使得在具体实现时会导致编解码的失配．为了克服这些问题，Ｈ．２６４／ＡＶＣ采用基于４×４子块的整数ＤＣＴ变换［ｚＪ］，使变换操作用整数加减和移位操作就可以完成．根据残差数据的不同，Ｈ．２６４／ＡＶＣ采用３种变换．对于帧内预测模式的１６×１６宏块的亮度ＤＣ系数采用哈达玛变换，

家用玉米脱粒机度ＤＣ系数采用２×２的哈达玛变换，其他的４×４块残差数据采用整数ＤＣＴ变换．Ｈ．２６４／ＡＶＣ中整数ＤＣＴ变换公式［２３如下：

ｙ一（ＣＸＣＴ）ｏＥ，

（３）

其中：

Ｅ＝＝

口‘

ａｂ／２

口２

ａｂ／２１

—１

—１２

ａｂ／２６２／４ａｂ／２

６２／４

１—２１—１

口‘

ａｂ／２

口‘

ａｂ／２

６２／４

ａｂ／２ｂ２／４

口；吾护再．

为了计算ＤＣＴ变换习俗，首先是在每个线程中计算对应像素的残差，并将残差值存到共享内存中，

…圆…圃…圆

然后利用＿ｓｙｎｃｔｈｒｅａｄｓ（）函数同步，在每个线程中计算对应像素位置的整数ＤＣＴ系数．

３实验结果与分析

在本文的设计中，经过精心的优化，运动估计和整数ＤＣＴ变换都是在ＤＥＶＩＣＥ端的一个Ｋｅｒｎｅｌ中运行，减少了读写设备内存的次数，提高了并行执行的效率．在实验中，主要对１

９２０×１０８８和１

２８０×

７２０分辨率的图像序列做一个分析．其实验环境为

ＩｎｔｅｌＣｏｒｅ（ＴＭ）２Ｄｕｏ２．４ＧＨｚＣＰＵ（１０２４

ＭＢ内

存），ＮＶＩＤＩＡ

ＧｅＦｏｒｃｅ９８００ＧＴＸ＋显卡（５１２ＭＢ

显存），ＣＵＤＡ

Ｔｏｏｌｋｉｔ

ｖｅｒｓｉｏｎ

２．１

ｆｏｒ

Ｗｉｎｄｏｗｓ

ＸＰ．实验分为两部分，第一部分是只在ＣＰＵ和ＧＰＵ

上对测试序列进行运动估计计算，实验结果如表１．由表１的结果可以发现，ＧＰＵ上的计算速度要比ＣＰＵ上快１３倍左右．第二部分是在ＣＰＵ和ＧＰＵ上分别同时对测试序列进行运动估计和整数ＤＣＴ变

换计算，实验结果如表２．表２的数据表明ＧＰＵ上的计算速度比ＣＰＵ上快１５倍左右．其中运算计时的方式采用ＲＤＴＳＣ（ＲｅａＤ

ＴｉｍｅＳｔａｍｐＣｏｕｎｔｅｒ）汇编

指令，它以６４位无符号整型数的格式，记录了自ＣＰＵ上电以来所经过的时钟周期数，这种计时方式可以达到纳秒级的计时精度．在ＣＰＵ上进行的运动估计采用ＳＳＥ指令加速，序列长度均为１５０帧．

擎圆圆●●一一

１

‘１

ＩＩ

Ｃ

第１期高智勇．等：基于ＣＵＤＡ的Ｈ．２６４／ＡＶＣ视频编码的设计与实现７１

表１在ＣＰＵ和ＧＰＵ上只运行运动估计的实验结果比较

Ｔａｂ．１ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｃｏｍｐａｒｉｓｏｎｏｆｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｒｕｎｎｉｎｇＣＰＵａｎｄＧＰＵ

表２在ＣＰＵ和ＧＰＵ上同时运行运动估计和整数ＤＣＴ变换的实验结果比较Ｔａｂ．２ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｃｏｍｐａｒｉｓｏｎｏｆｉｎｔｅｇｅｒｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎａｎｄＤＣＴｔｒａｎｓｆｏｒｍｒｕｎｎｉｎｇｓｉｍｕｌｔａｎｅｏｕｓｌｙＣＰＵａｎｄＧＰＵ

根据表１、２的数据可以看出，利用ＣＵＤＡ平台对Ｈ．２６４／ＡＶＣ只进行运动估计运算比在ＣＰＵ上运算的速度提高１２～１３倍多，而将运动估计和整数ＤＣＴ变换同时放在ＧＰＵ上运行的速度是在ＣＰＵ上的１４～１５倍，后者的速度比前者的计算速度大约提高１５％．原因在于，ＧＰＵ非常适合密集型运算，在ＧＰＵ上做的运算越多，其处理效率越高．由此可以推出，将Ｈ．２６４／ＡＶＣ其他编码部分用ＣＵＤＡ移植到ＧＰＵ上运行，其效率将会进一步提高．

参考文献

［１］ＲｉｃｈａｒｄｓｏｎＩＥＧ．Ｈ．２６４／ＭＰＥＧ一４Ｐａｒｔｌ０ｗｈｉｔｅｐａｐｅｒ：ｏｖｅｒｖｉｅｗｏｆＨ．２６４［ＥＢ／ＯＬ＇］．２００３［２００９—０１－

１０３．ｈｔｔｐ：／ｗｗｗ．ｙｃｏｄｅｘ。ｃｏｒｎ。

［２３ＮＶＩＤＩＡＣｏｒｐｏｒａｔｉｏｎ．ＮＶＩＤＩＡＣＵＤＡｃｏｍｐｕｔｅｕｎｉ—ｆｌｅｄｄｅｖｉｃｅａｒｃｈｉｔｅｃｔｕｒｅ—ｐｒｏｇｒａｍｍｉｎｇｇｕｉｄｅ［ＥＢ／ＯＬ］．

Ｖｅｒｓｉｏｎ２．１．（２００８—０６—０７）［２００９—１—１８］．ｈｔｔｐ：／ｗｗｗ．

ｎｖｉｄｉａ．ｃｎ／ｄｏｃｓ／１０／５７３９９／ＮＶＩＤＩＡＣＵＤＡ

Ｐｒｏｇｒａｍｍｉｎｇ—Ｇｕｉｄｅ一２．ＯＦｉｎａｌ．ｐｄｆ．［３］

［４］

［５］

［６］

［７］

［８３

ＣｈｅｎＷｅｉ—Ｎｉｅｎ，ＨａｎｇＨｓｕｅｈ－Ｍｉｎｇ．Ｈ．２６４／ＡＶＣｍｏ—

ｔｉｏｎｅｓｔｉｍａｔｉｏｎｉｍｐｌｍｅｎｔａｔｉｏｎｃｏｍｐｕｔｅｕｎｉｆｉｅｄｄｅｖｉｃｅａｒｃｈｉｔｅｃｔｕｒｅ（ＣＵＤＡ）［Ｊ］．ＩＥＥＥＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐｏ．２００８．１７：６９７－７００．

ＣｈｅｎＺｈｉｂｏ，ＺｈｏｕＰｅｎｇ，ＨｅＹｕｎ．Ｆａｓｔｉｎｔｅｇｅｒａｎｄ

ｆｒａｃｔｉｏｎａｌｐｅｌｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎｆｏｒＪＶＴ［Ｃ］／／ＪＶＴ．

Ｐｒｏｃｏｆｔｈｅ６ｔｈＪＶＴ—Ｆ０１７Ｃｏｎｆｅｒｅｎｃｅ．Ｊａｐａｎ：Ａｗａｊｉ，

２００２．

ＬｉＲ．ＺｅｎｇＢ．ＬｉｏｕＭＬ．Ａｎｅｗｔｈｒｅｅ－ｓｔｅｐｓｅａｒｃｈ

ａｌｇｏｒｉｔｈｍｆｏｒｂｌｏｃｋｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎ［Ｊ］．ＩＥＥＥ

ＴｒａｎｓＣｉｒｃｕｉｔｓＳｙｓｔ：ＶｉｄｅｏＴｅｃｈｎｏｌ，１９９４。４：４３８—４４

３．

ＺｈｕＳ．ＭａＫＫ．Ａｎｅｗｄｉａｍｏｎｄｓｅａｒｃｈａｌｇｏｒｉｔｈｍｆｏｒｆａｓｔｂｌｏｃｋ—ｍａｔｃｈｉｎｇｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓＩｍａｇｅＰｒｏｃｅｓｓ，２０００，９（２）：２８７－２９０．

ＰａｎＦｅｎｇ，ＬｉｎＸｉａｏ，ＲａｈａｒｄｊａＳ，ｅｔａ１．Ｆａｓｔｍｏｄｅｄｅｃｉ—

ｓｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｉｎｔｒａｐｒｅｄｉｃｔｉｏｎｉｎＨ．２６４／ＡＶＣ

ｖｉｄｅｏｃｏｄｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ，２００５．１５（７）：８１３—８２２．

张淑芳，李华，侯玲，等．基于Ｈ．２６４的快速帧问

正交编码器模式选择算法［Ｊ］．计算机应用研究，２００８，２５（１）：２８３－

２８４．

本文发布于:2024-09-23 05:25:39，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/236903.html

上一篇：H.265编码视频在web网页实现无插件播放，应该通过软解码还是硬解码？

下一篇：生物多样性观测红外相机性能参数表、编码表、观测、照片(视频)记录表

标签：线程运动计算编码估计

留言与评论（共有 0 条评论）