基于二阶运动信息的超低码率视频会议压缩方法

1.本发明涉及视频压缩领域，特别涉及一种基于二阶运动信息的超低码率视频会议压缩方法。

背景技术：

2.视频会议在教育、商业和娱乐方面应用广泛，特别是在疫情期间表现尤为明显。目前商用系统主要采用h.264/avc、hevc(高效视频编码)、av1等知名标准为服务供应，但他们的体验质量在不可靠的网络连接(如拥塞、信道衰落等)下，往往会受到影响。在自然环境下这是因为传统的基于密集像素块的视频压缩方法无法在非常有限的比特率预算的情况下，紧凑地表征高保真重建的时间帧动态，从而导致体验质量的损失。
3.最近，深度图像动画任务通过压缩少量源图像以及来自运动帧的非常稀疏的运动特征用于接收端高质量、全分辨率视频生成，显示出了解决这一问题的潜力。在该类任务中，这些运动帧可以来自另一个视频序列，用于通用的运动传输任务。然而，为了简单起见，在会议应用程序中，这些驱动帧是帧间(或p)的时间动态表示；而相比之下，源图像通常是来自同一视频的内部(或i)帧。
4.目前流行的深度图像动画方法主要依靠一阶运动模型或其变体来构建生成模型。虽然它们可以产生质量良好的帧，但忽略二阶运动信息就会导致合成视频中严重的时间抖动。此外，所有现有的解决方案都没有考虑到网络包丢失，但这在现实的会议系统中经常发生。

技术实现要素：

5.本发明的目的是基于二阶运动信息时序一致性，提出一种超低码率视频会议压缩方法。
6.本发明采用的技术方案为：
7.基于二阶运动信息的超低码率视频会议压缩方法，包括以下步骤：
8.(1)从视频帧中选取少数几帧直接以本身图像形式传输作为源帧，其余帧作为运动帧；提取运动帧图像中的稀疏运动特征；
9.(2)对源帧进行编码压缩；对所述稀疏运动特征先进行量化再做帧间残差，经处理得到的一阶运动残差信息通过熵编码进行编码；将源帧和运动帧产生的两路码流封装成数据包传输；
10.(3)传输过程中，模拟真实场景下存在的丢包现象，并判断是否出现丢包，如果发生丢包则对其丢失信息进行预测；
11.(4)判断未发生丢包或完成丢包信息的预测后，将接收到的数据包分为源帧及一阶运动残差信息两部分，然后对源帧提取稀疏运动特征，对一阶运动残差信息进行帧间累加恢复当前运动帧的稀疏运动特征；
12.(5)根据步骤(4)得到的源帧及其稀疏运动特征、当前运动帧的稀疏运动特征，获
得关于当前运动帧的遮挡掩膜及从源帧到当前帧的一阶光流信息；
13.(6)重复步骤(1)至(5)两次，由于量化稀疏运动特征会对一阶光流信息造成误差，从第三帧开始将前两帧已获得的一阶光流信息通过二阶光流信息平滑当前帧的光流，再用当前帧的遮挡掩膜辅助重绘光流扭曲结果重建当前运动帧。
14.相比现有技术，本发明方法基于二阶运动信息的时序一致性，在重建帧使用的一阶光流基础上引入二阶光流信息并进行多帧加权，对于实际的丢包场景，通过在两帧时间窗口内的二阶运动残差有效地补充包损失，在重建结果上提供了更平滑的时间质量并更接近真实视频。
附图说明
15.图1是本发明方法的实现原理图。
16.图2是本发明二阶丢包预测模块的结构图。
17.图3是本发明二阶丢包预测模块中预测网络的结构图。
18.图4是本发明二阶光流加权和的示意图。
具体实施方式
19.下面将结合附图及具体实施例对本发明进行详细描述。
20.本发明方法的实现原理图如图1所示。具体步骤包括：
21.首先从视频帧中选取少数几帧传输整张图像作为源帧，其余帧作为运动帧仅提取图像中的运动信息。对源帧通过已有的视频压缩标准如h.264、h.265进行编码压缩；对运动帧提取稀疏运动特征(本实施例选取10个关键点和每个关键点的2x2仿射矩阵)，对稀疏运动特征先从float32量化到int8再做帧间残差，最后对处理得到的一阶运动残差信息通过熵编码(如算术编码)进行编码。将源帧及运动帧的帧间一阶运动残差信息这两路码流封装成数据包进行发送。将接收到的数据包分为源帧及一阶运动残差信息两部分，对源帧进行对应的解码器解码，对运动帧的帧间一阶运动残差信息用熵解码(如算术解码)进行解码并判断是否在传输过程中出现丢包现象。若没有出现丢包现象则直接进行帧间累加恢复出每一当前运动帧的稀疏运动特征；若出现丢包现象，这里认为每次仅丢一个包，即一帧时间窗口为大小的运动残差信息丢失，则通过丢包预测模块对丢包信息预测完成后再进行帧间累加恢复出每一当前运动帧的稀疏运动特征。
22.为了重建每一当前帧，对于前两帧，将当前帧的稀疏运动信息和源帧及源帧的稀疏运动信息送入密集运动网络中，该密集运动网络主要由hourglass网络构成，将hourglass网络的输出通过一个卷积层可得到生成当前帧的遮挡掩膜，将hourglass网络的输出通过一个卷积层及激活函数就可得到源帧到当前帧的一阶光流信息，只通过一阶光流信息扭曲源图像，再通过遮挡掩膜对扭曲图像中由于运动遮挡而导致光流无法很好扭曲的部分区域进行重绘，从而重建出当前帧。而从第三帧开始，则通过光流平滑的方法，运用多帧光流得到的二阶光流信息辅助得到经过加权和的平滑光流。用这个加权和的光流信息扭曲源图像，再通过遮挡掩膜对扭曲图像中由于运动遮挡而导致光流无法很好扭曲的部分区域进行重绘，从而重建出当前帧。
23.本发明的丢包预测模块的结构图如图2、图3所示。这里认为当t+1时刻的包出现丢
失，则将已接收到的t、t-1、t-2时刻的三个包内所含的一阶运动残差信息再分别两两之间作差得到t-1和t-2时刻的二阶运动残差信息一起送入预测网络预测得到t时刻的二阶运动残差信息并与t时刻的一阶运动残差信息相加即预测得到丢失的t+1时刻的一阶运动残差信息。
24.其中，预测网络结构上仍采用传统的transformer的编码器-解码器结构。数据输入先通过一层线性层提取隐式特征再送入编码器，编码器部分与传统transformer结构一致，这里由6层相同的编码层组成，每一层编码层由自注意力层和前馈神经网络组成。解码器部分用多层感知机代替，即由线性层、激活函数relu、线性层、激活函数relu、线性层依次连接组成。数据输入输出上，在检测到当前丢包时，将出现丢包前接收到的三帧运动残差信息进一步做帧间残差，得到两帧时间窗口大小的二阶运动残差信息，将其送入预测网络，预测得到下一时刻的二阶运动残差信息，将其与丢包前一时刻的运动残差信息相加最终预测得到当前时刻的丢包信息。
25.本发明的光流平滑方法的示意图如图4所示。通过密集运动网络直接得到从源帧到当前帧的一阶光流信息的基础上，引入二阶光流信息来更好地保证重建视频帧间的时空一致性。在通过密集运动网络已获得t、t-1、t-2时刻的运动帧到源帧的一阶光流的情况下(t》2)，将t-1、t-2时刻的一阶光流作差得到二阶光流信息，并将该二阶光流信息与t-1时刻的一阶光流相加得到预测的t时刻的一阶光流，再将该预测的t时刻的一阶光流与已有通过密集运动网络直接得到的t时刻的一阶光流分别赋以0.5的权重相加即得到平滑处理过后的t时刻的一阶光流。

技术特征：

1.基于二阶运动信息的超低码率视频会议压缩方法，其特征在于，该方法包括以下步骤：(1)从视频帧中选取少数几帧直接以本身图像形式传输作为源帧，其余帧作为运动帧；提取运动帧图像中的稀疏运动特征；(2)对源帧进行编码压缩；对所述稀疏运动特征先进行量化再做帧间残差，经处理得到的一阶运动残差信息通过熵编码进行编码；将源帧和运动帧产生的两路码流封装成数据包传输；(3)传输过程中，模拟真实场景下存在的丢包现象，并判断是否出现丢包，如果发生丢包则对其丢失信息进行预测；(4)判断未发生丢包或完成丢包信息的预测后，将接收到的数据包分为源帧及一阶运动残差信息两部分，然后对源帧提取稀疏运动特征，对一阶运动残差信息进行帧间累加恢复当前运动帧的稀疏运动特征；(5)根据步骤(4)得到的源帧及其稀疏运动特征、当前运动帧的稀疏运动特征，获得关于当前运动帧的遮挡掩膜及从源帧到当前帧的一阶光流信息；(6)重复步骤(1)至(5)两次，由于量化稀疏运动特征会对一阶光流信息造成误差，从第三帧开始将前两帧已获得的一阶光流信息通过二阶光流信息平滑当前帧的光流，再用当前帧的遮挡掩膜辅助重绘光流扭曲结果重建当前运动帧。2.根据权利要求1所述的基于二阶运动信息的超低码率视频会议压缩方法，其特征在于，所述步骤(3)中，判断如果发生丢包时，将出现丢包前接收到的三帧运动残差信息进一步做帧间残差，得到两帧时间窗口大小的二阶运动残差信息，然后将其送入预测网络去预测得到下一时刻的二阶运动残差信息；将预测得到信息和丢包前一时刻的一阶运动残差信息相加最终预测得到当前时刻的丢包信息。3.根据权利要求1所述的基于二阶运动信息的超低码率视频会议压缩方法，其特征在于，所述步骤(6)中，以两帧时间窗口为大小，取当前帧的前两帧分别通过密集运动网络得到源帧到各自帧的一阶光流信息，对两者进一步做差得到二阶光流信息；然后将所述二阶光流信息与已得到的当前帧前一帧的一阶光流信息相加，得到一个预测的当前帧一阶光流信息；再将预测得到的当前帧一阶光流信息和由所述密集运动网络直接得到的当前帧一阶光流信息分别赋予0.5的权重做加权和，得到最终平滑处理后的当前帧光流信息。4.根据权利要求1所述的基于二阶运动信息的超低码率视频会议压缩方法，其特征在于，所述步骤(1)中，每一运动帧提取的稀疏运动特征由10个关键点和每个关键点的2x2仿射矩阵构成。5.根据权利要求1所述的基于二阶运动信息的超低码率视频会议压缩方法，其特征在于，所述步骤(2)中，对每一运动帧的稀疏运动特征先从float32量化为int8，再做帧间残差。

技术总结

本发明公开了一种基于二阶运动信息的超低码率视频会议压缩方法。该方法包括以下步骤：(1)从视频帧选取源帧和运动帧，并提取运动帧的稀疏运动特征；(2)对源帧编码压缩，运动帧的稀疏运动特征量化后做帧间残差得到一阶运动残差信息，进行熵编码；两路码流封装为数据包传输；(3)传输模拟丢包，判断是否出现丢包，出现则进行预测；(4)未丢包或完成预测，将数据包分为两部分；(5)对数据处理得到源帧及其稀疏运动特征、当前帧的稀疏运动特征，获得当前帧的遮挡掩膜及一阶光流信息；(6)重复步骤(1)至(5)两次，从第三帧开始用前两帧的光流信息平滑当前帧光流，最后用遮挡掩膜重绘光流扭曲结果。结果。结果。