首页 > 专利学习

一种音视频匹配零水印生成方法及音视频防篡改检测方法[发明专利]

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 202010975238.1

(22)申请日 2020.09.16

(71)申请人山东科技大学

地址 266590 山东省青岛市黄岛区前湾港

路579号

(72)发明人范迪　刘晓欣　孙文雪　吕常智　

高尚　董爽　张潇　

(74)专利代理机构青岛锦佳专利代理事务所

(普通合伙) 37283

代理人朱玉建

(51)Int.Cl.

H04N 21/8358(2011.01)

H04N 21/845(2011.01)

H04N 21/439(2011.01)

H04N 21/44(2011.01)

G10L 19/018(2013.01)

(54)发明名称一种音视频匹配零水印生成方法及音视频防篡改检测方法(57)摘要本发明公开了一种音视频匹配零水印生成方法及音视频防篡改检测方法。其中，在生成零水印时，本发明方法以时间为单位对音视频进行分段匹配，生成的零水印不仅携带了视频特征还携带了对应音频的声音特征；视频特征为每个视频段关键帧图像处理后构造的特征矩阵；声音特征在生成时，充分考虑到了无声段的影响，有声段和无声段生成不同的声音水印；对视频特征与声音水印进行异或操作，得到音视频匹配零水印，将其送到第三方版权认证机构进行注册保存。本发明方法生成的零水印可用于音视频防篡改检测以及自身的版权验证，实现了视频以及其对应音频的匹配性证明。当待验证音视频的任意一方遭到篡改时，通过本发明方法生成的零水印

能有效证明其被篡改过。权利要求书3页说明书11页附图5页CN 112153482 A 2020.12.29

C N 112153482

1.一种音视频匹配零水印生成方法，其特征在于，包括如下步骤：

a.对音视频流进行解码，以时间t1为单位进行分段，得到音视频段合集；

其中，对于音视频段合集中每个视频段对应的音频段按照下述步骤b进行处理；同时，对于音视频段合

集中的每个视频段，按照下述步骤c进行处理；

b.生成加密后的声音水印，具体过程如下：

取音频段一个声道的音频，即单声道音频段，进行特征提取；

b.1.首先判断音频段的类型；

若判定为无声段，则转到步骤b.2，若判定为有声段，则转到步骤b.3；

b.2.采用固定的版权水印，作为声音水印，并转到步骤b.4；

b.3.利用音频段非静音部分低频小波系数的一阶矩和二阶矩为特征，进行编码得到声音二值特征矩阵，将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4；

b.4.对得到的声音水印进行加密，得到加密后的声音水印；

c.对视频段中的关键帧图像进行选取，然后基于关键帧图像构造视频特征矩阵；

d.将步骤b得到的加密后的声音水印与步骤c得到的视频特征矩阵进行异或操作，得到零水印；其中，该零水印中携带了相匹配的音频和视频的特征信息。

2.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，

所述步骤b.1中，当前音频段的类型判断过程为：

b.1.1.首先对音频段以时间t2为单位进行分帧操作得到音频帧集合；

b.1.2.计算音频帧集合中每个音频帧的短时平均过零率以及短时能量；

其中，每个音频帧的短时平均过零率，是指一帧语音时域信号穿过时间轴的次数；每个音频帧的短时能量，是指一帧语音信号的能量；

b.1.3.根据音频帧的短时平均过零率以及短时能量，判断此帧是否为静音帧；

b.1.4.根据音频帧集合中静音帧的数量占音频帧总数的比例是否大于设定音频段类型判断阈值，判断当前音频段的类型；

经过判断若大于设定音频段类型判断阈值，则判定为无声段，否则判定为有声段。

3.根据权利要求2所述的音视频匹配零水印生成方法，其特征在于，

所述步骤b.1.2中短时平均过零率以及短时能量的计算公式分别如下：

定义音频段x(j)分帧后得到音频帧y i(j)，l为帧长，i为帧号，f n为分帧后的总帧数；

则音频帧y i(j)的短时平均过零率ZCC(i)的计算公式为：

式中，sgn[·]是符号函数，即

则第i帧的短时能量E(i)的计算公式为：

4.根据权利要求2所述的音视频匹配零水印生成方法，其特征在于，

所述步骤b.1.3中静音帧的判断过程为：

设定短时平均过零率和短时能量的阈值分别为Th1、Th2；若音频帧的过零率小于阈值

Th1，且其短时能量大于阈值Th2，则判定此音频帧为非静音帧；否则，判定为静音帧。

5.根据权利要求2所述的音视频匹配零水印生成方法，其特征在于，

所述步骤b.3的具体过程为：

去除音频段在步骤b.1中被判定为静音帧的音频帧，保留音频段中的非静音部分，进行特征提取；对非静音部分进行二级小波变换得到低频小波系数；

以低频小波系数的一阶矩和二阶矩为特征进行K-means编码，得到声音二值特征矩阵；

将得到的声音二值特征矩阵作为声音水印，并转到步骤b.4。

6.根据权利要求5所述的音视频匹配零水印生成方法，其特征在于，

所述K-means编码的具体过程为：

设定K-means聚类将数据分为两类，即分类数K＝2；第一类标记为0，第二类标记为1；

输入数据为1024行2列的矩阵，代表两个特征的数据矩阵，其行代表低频小波系数对应的段序号，第一列、第二列分别为每段低频小波系数的一阶矩和二阶矩；

输入数据经过K-means编码后，输出长度为1024的一维二值矩阵，将得到的一维二值矩阵进行升维，得

到32*32的声音二值特征矩阵，将该声音二值特征矩阵作为声音水印。

7.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，

所述步骤b.4中，利用Logistics混沌加密方法对得到的声音水印进行加密。

8.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，

所述步骤c的具体过程为：

c.1.对视频段进行关键帧选取，得到关键帧图像；将得到的帧号作为秘钥K1进行保存；

c.2.计算关键帧图像的Zernike矩A，并进行保存；

c.3.将关键帧图像从RGB空间转到YCocg空间，分解出Y、Co、Cg三分量；

c.4.对Co分量进行两级非下采样轮廓波变换，得到低频子带L；对得到的低频子带L进行DCT变换，然后分成多个不重叠子块；

c.5.对各个不重叠子块进行SVD分解得到对角矩阵；

c.6.提取对角矩阵中对角线元素的最大值，利用该最大值构造过渡矩阵；

c.7.以过渡矩阵中元素的均值为阈值，对过渡矩阵进行二值化处理，形成视频特征矩阵。

9.根据权利要求1所述的音视频匹配零水印生成方法，其特征在于，

所述步骤d之后还包括步骤：

e.将经过步骤d得到的零水印注册保存在第三方版权认证机构数据库中。

10.一种音视频防篡改检测方法，其特征在于，包括如下步骤：

I.对待验证的音视频流进行解码，以时间t1为单位进行分段，得到待验证的音视频段合集；其中，待验证的音视频段合集中包含待验证视频段与其对应的待验证音频段；

II.根据保存的帧号提取待验证视频段的关键帧图像，基于关键帧图像得到待验证的视频特征矩阵；

III.利用保存在第三方版权认证机构的零水印与待验证的视频特征矩阵进行异或操作，得到提取的加密声音水印；对提取的加密声音水印进行解密，得到提取的声音水印；其中：

该步骤中零水印由权利要求1至9任一项所述的音视频匹配零水印生成方法得到；

IV.对待验证音频段进行处理，得到待验证音频的声音水印，即待验证的声音水印；

V.计算经过步骤III得到提取的声音水印和待验证的声音水印的归一化相关系数，根据归一化相关系数值的大小与设定篡改判断阈值的关系，判断待验证音视频是否遭到篡改；

若归一化相关系数的值大于设定篡改判断阈值，则表明待验证音视频未遭到篡改；若归一化相关系数的值不大于设定篡改判断阈值，则表明待验证音视频遭到篡改。

一种音视频匹配零水印生成方法及音视频防篡改检测方法

技术领域

[0001]本发明涉及一种音视频匹配零水印生成方法、以及一种音视频防篡改检测方法。背景技术

[0002]由于电子技术、互联网以及多媒体技术的发展，各种各样的多媒体文件被广泛传播(如音频、视频等)，每个人都能借助互联网分享以及下载其他人的音视频。

[0003]然而，随着各种音视频编辑软件的广泛应用，人们会出于某些目的，对音视频进行各种编辑，例如对视频对应的音频进行替换、剪切或者对视频画面进行替换、剪切等。

[0004]被编辑篡改过的音视频通过互联网传播，容易对观看视频的人起到一定的误导作用。

[0005]如果对于音视频的篡改只是为了娱乐，不会造成什么影响；如果音视频的篡改者怀揣不好的目的，比如引导公众舆论、恶意抹黑攻击他人等，那就会造成一系列恶劣的影响。

[0006]综上所述，对于音视频匹配以及防篡改的研究具有重要的意义。

[0007]目前，针对音视频匹配以及防篡改并没有非常有效的检测方法。如果仅仅是音视频中音频或者视频的一段被篡改，可以通过相关技术查看其合成痕迹，确定哪一部分是合成的。

[0008]但是，如果将整个音视频中的全部音频移除，添加与原始音频完全不相关的音频，并进行重新组合编码，那么上述检测方法(即通过查看其合成痕迹的方法)便会失效。

[0009]目前的水印生成方法大致有视频水印、视频零水印以及音视频交叉水印三种，其中：

[0010] 1.视频水印方案，是指将自己的版权图案作为水印，采用一定的算法以及算法组合将水印嵌入到视频中，用于验证视频的归属。常见的算法包括DWT、DCT、CT等。

[0011]然而，该方案在嵌入水印时采取的是真实嵌入的方式，因而具有如下缺陷：

[0012]①对视频内容即像素值造成了改变，如果算法选择不当，会造成视频质量下降，因此需要衡量鲁棒性和不可见性的关系；

[0013]②由于视频图像对水印不可见性的要求，对嵌入的数据量和强度也有限制。

[0014]该视频水印方案不涉及音频的特征，仅适用于无声视频或者仅关注视频版权的应用场合。

[0015] 2.视频零水印方案，同视频水印方案类似，区别在于零水印本身非嵌入的特性。该视频零水印方案也是单纯的视频水印，仅适用于无声视频或者仅关注视频版权的应用场合。

[0016] 3.音视频交叉水印有两种，一种是提取声音的特征作为水印，利用相关算法将水印嵌入到视频中；另一种是利用自己的图案作为水印，采用相关算法将水印分别嵌入到音频和视频。

[0017]虽然上述音视频交叉水印方案涉及到了音视频，然而该方案却没有考虑到音视频

说　明　书1/11页CN 112153482 A

本文发布于:2024-09-21 22:19:43，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/430883.html

上一篇：M2M管理平台与eSIM卡的数据传输方法、装置、平台及介质[发明专利]

下一篇：Dialog血透机主要参数检测和定标方法

标签：水印音视频视频

留言与评论（共有 0 条评论）