结合混合核特征映射的空域图像隐写分析

图像隐写术[1-2]是一种重要的隐蔽通信技术,它利用像素值或者DCT系数的微小变化隐藏图像中的秘密信息。作为隐写术的对抗技术,隐写分析通常认为是一个二分类问题,主要是通过对载体图像提取的相关特征进行分析来判断是否存在隐藏信息[3]。近年来,许多隐写分析特性都取得了良好的性能。隐写分析技术的研究进展有利于检测隐写术的安全性;同时有助于阻止机密信息泄露、遏制病毒和恶意代码等有害信息的传播、打击违法犯罪等活动,具有重要的理论意义和现实意义。
通用隐写分析[4-5]是隐写分析技术的研究热点,通常包括特征提取和监督学习两个阶段[6]。Pevny等人[7]将图像噪声成分建模为马尔可夫链,以样本概率转移矩阵
结合混合核特征映射的空域图像隐写分析
邓利芳1,党建武1,2,3,王阳萍1,2,3,王松1,2,3
1.兰州交通大学电子与信息工程学院,兰州730070
2.甘肃省人工智能与图形图像处理工程研究中心,兰州730070
3.兰州交通大学计算机科学与技术国家级实验教学示范中心,兰州730070
摘要:为了将高维富模型特征投影与分类器结合,降低隐写图像的检测误差,提出对高维富模型特征
分割再结合混合核的特征投影算法的隐写分析方法。将高维特征纵向分解为若干特征块,对每个特征块投影,投影后的特征块拼成新的特征。设计非线性混合核函数代替单核函数进行特征投影,以克服样本规模巨大、多维数据的不规则等现象。投影后的特征用FLD(Fisher Linear Discriminant)集成分类器分类。实验结果表明,该方法进一步降低了隐写图像的检测错误率,同时有效降低了运行内存需求。
关键词:隐写分析;非线性混合核函数;特征映射;Nyström近似
文献标志码:A中图分类号:TP309doi:10.3778/j.issn.1002-8331.2003-0295
Steganalysis of Spatial Image Based on Hybrid Kernel Feature Mapping
DENG Lifang1,DANG Jianwu1,2,3,WANG Yangping1,2,3,WANG Song1,2,3
1.School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou730070,China
2.Gansu Provincial Engineering Research Center for Artificial Intelligence and Graphic&Image Processing,Lanzhou
730070,China
3.National Experimental Teaching Demonstration Center of Computer Science and Technology,Lanzhou Jiaotong University, Lanzhou730070,China
Abstract:To reduce detection error of steganographic image by combining feature projection of high-dimensional rich model with classifier,this paper proposes a steganalysis method combining feature segmentation and feature projection algorithm based on hybrid kernel.The high-dimensional features are decomposed into several feature blocks,each feature block is projected,the projected feature blocks are spelled into new features.A new non-linear hybrid kernel function is proposed instead the single kernel function for feature projection,to overcome the phenomenon of large sample size and multidimensional data.The projected features are classified by the Fisher Linear Discriminant(FLD)ensemble classifier. Experimental results show that this method further reduces the detection error of steganographic images,and reduces the running memory requirements.
滑石粉母粒Key words:steganalysis;nonlinear hybrid kernel function;feature mapping;Nyström approximation
基金项目:国家自然科学基金(61562057);甘肃省科技计划项目(18JR3RA104);国家市场监督管理总局科技计划项目(2019MK150);
甘肃省教育厅科技项目(2017D-08)。
作者简介:邓利芳(1993—),女,硕士,研究领域为图像隐写分析;党建武(1963—),通信作者,男,博士,教授,研究领域为智能信息处理、智能交通与信息处理,E-mail:*****************;王阳萍(1973—),女,博士,教授,CCF会员,研究领域为图形图像处理、虚拟现实、智能信息处理;王松(1978—),男,博士,副教授,CCF会员,研究领域为机器学习、计算机视觉。收稿日期:2020-03-19修回日期:2020-07-28文章编号:1002-8331(2021)09-0118-08
作为隐写分析特征SPAM(Subtractive Pixel Adjacency Model),在不同载体上实现了稳定的性能。Fridrich等人[8]以SPAM模型为基础,提出了使用各种高通滤波器对图像滤波得到丰富的残差模型,提取共生矩阵作为空域富模型特征SRM(Spatial Rich Model),提升了检测性能。Holub等人[9]使用随机高通滤波器对残差图像再滤波,提出基于SRM随机投影的隐写分析方法PSRM (Projection Spatial Rich Model),在多种自适应隐写算法的检测上优于SRM方法,但计算复杂度太高。Denemark 等人[10]提出一种结合信道选择策略的隐写分析方法maxSRM,特征维度与SRM相同,性能比SRM有显著改善。Denemark等人[11]提出了将残差的期望值累积到富模型的选择信道感知版本中,与对应的spam子模型特征spamPSRM相比有明显改进。在分类器方面,早期的低维特征使用SVM(Support V
ector Machine)分类器[12]。随着特征维度的不断提高,Fridrich等人提出了专用于隐写分析的基于Fisher线性判别的FLD集成分类器[13-14],适合于高维特征空间的快速分类,成功克服了SVM在高维空间中的维数灾难问题。
Boroumand等人[15]使用机器学习对富模型特征进行Nyström近似映射,并与FLD集成分类器结合,提高了2%~3%的空间域内容自适应隐写检测精度。随着隐写分析特征维度增加,特征映射的复杂度增加,当特征维数达到几万维时,远远超过要映射的图像数量,文献[15]提出的映射算法不能直接应用于数万维富模型类型特征。此外,内核选择是提高Nyström近似映射后分类性能的关键,文献[15]提出的基于单核函数的Nyström近似映射算法,但是由于单个内核函数的格式和变化空间比较单一,使得鲁棒性和范化能力局限[16]。当样本特征含有未归一化的多维数据,或样本特征数据具有非平面分布的高维特征空间时,单个核函数的性能并不理想[17-18]。
因此,本文基于以上两点不足提出改进。第一,对高维富模型特征先分割,分割后的每组特征分别投影,然后将投影后的特征拼接,最后分类器分类,以解决数万维高维特征不能投影的问题。第二,提出了一种新的混合核函数构造核矩阵,改进特征Nyström近似映射算法,非线性混合核考虑基本核函数的几何形式,该混合核函数简单,计算量比较小,可以有效提高FLD集成分类器的性能。实验结果表明,该方法进一步提高了隐写图像的检测性能。
1隐写分析流程及特征提取
1.1提出的隐写分析框架及原理
图像通用隐写分析主要分为两个阶段,设计并提取
图像隐写分析特征,分类器训练和分类。图像隐写分析流程如图1所示。
1.2提取隐写分析特征
Fridrich和Kodovsky等人提出的SRM特征提取方法[8]中,设计了丰富的空域高通滤波器,通过使用45种不同类型的线性和非线性的高通滤波模板来提取噪声残差集。假设一张n1×n2的灰度自然图像和对应的隐写图像分别用X、Y表示,X=(X ij)∈{0,1,…,255}n1×n2,X ij表示自然图像的像素,残差R=(R ij)用式(1)计算:R ij=X ij(N ij)-cX ij(1)其中,c为残差阶数,Νij是局部邻域像素,X ij(⋅)是定义在Νij上cX ij的预测像素。
然后用式(2)对每个残差图像量化和截断,阈值T=2,量化因子q∈{1,1.5,2}。并计算残差图像的四维共现矩阵C(SRM),SRM由四个相邻的量化噪声残差样本构成的多个共现矩阵组成,例如水平方向的共现用式(3)计算:
R ij←trunc T(round(
R ij
q))(2)
c(SRM)
d0d1d2d3
=∑
i,j=1
n1,n2-3
[r i,j+k=d k,∀k=0,1,2,3](3)再经过对称合并规则,将所有元素重新排成特征向量,即为34671维的SRM特征。
maxSRM的构建方式与SRM相同,但对共现矩阵的形成过程进行了修改,以考虑图像中估计的嵌入变化概率βi,j。在maxSRM中,修改定义为式(4):
c(max SRM)
d0d1d2d3
=∑
i,j=1
n1,n2-3
max
k=0,1,2,3
βi,j+k×
[r i,j+k=d k,∀k=0,1,2,3](4)maxSRM将四个残差的嵌入变化概率的最大值相加,组成的像素组的更改概率很小,对共现值的影响较小。
SRM采用水平和垂直扫描,为了进一步提高检测,将所有共现扫描方向都替换为倾斜方向“d2”,称其为maxSRMd2[10],计算共现如式(5),本文采用maxSRMd2作为隐写分析特征。
图1
隐写分析过程
自然图像
隐写图像
提取
隐写
分析
特征
分类器
训练分类器
分类结果
提取隐写
分析特征
待测图像
制钢
c (max SRM
d 2)d 0d 1d 2d
3
=
i,j =1
n 1,n 2-3b
ˉij ×[r i,j =d 0,r i,j +1=d 1,r i +1,j +2=d 2,r i +1,j +3=d 3]+
i,j =1
n 1,n 2-3-b ij ×[r i -1,j =d 0,r i -1,j +1=d 1,
r i,j +2=d 2,r i,j +3=d 3]
(5)其中:
b
ˉij =max{βi,j ,βi,j +1,βi +1,j +2,βi +1,j +3}(6)-b ij =max{βi -1,j ,βi -1,j +1,βi,j +2,βi,j +3}
(7)
2结合混合核特征映射的隐写分析2.1
提出的隐写分析框架
本文提出了一种结合非线性混合核特征映射的图
像隐写分析框架,如图2所示,对提取隐写分析富模型特征先进行分割,分割后每组训练集特征G 1,G 2,…,G n 用结合非线性混合核的Nyström 投影算法映射,再用训练集训练好的模型对待检测图像进行学习变换,然后将投影后的特征F 1,F 2,…,F n ,进行拼接,最后FLD 集成分类器训练和分类。
2.2特征分割
用于隐写的图像具有内容丰富、纹理复杂等特性。
在特征映射算法中,要求用于训练的图像数量必须大于特征维数,而在采用BOSSbase1.01图像库进行隐写分析时,提取的高维富模型特征维数超过数万维,非线性特征映射不能直接用于整个富模型特征。因此,提出先特征分割再投影的方法。
为使分割后的映射特征块的数据大小均匀,首先对提取的富模型高维特征采用PGO (Pine Growth Optimi-zation )特征[19]选择算法去除不相关的特征,减少特征维度,稳定数值计算和特征向量问题中的病态矩阵,而且能加快投影速度。然后对剩余的特征分割,对分割后的
每组特征进行映射,再拼接映射后的特征,最后用分类器分类。具体步骤如下:
步骤1特征分解,去除不相关的特征得到新的隐写分析特征,自然图像特征和隐写图像特征分别表示为cover 和stego 。将该特征对纵向分解为若干块G 1,G 2,…,
G n ,即划分为各个子模型,对每个特征块进行映射。提
取的图像特征大小为10000×34671(即10000张图像,提取的特征维度为34671),去除不相关特征后新的特征大小为10000×32016维,将32016维的特征对纵向分解为8个特征块,即用于训练和测试的每个特征块大小为5000×4002。
步骤2对每个特征块分别进行映射,以解决特征维数高而导致不能直接进行非线性特征映射的问题,每个特征块分别投影还降低了计算复杂度,改善了特征映射时运行内存高的问题。
步骤3将映射后的每组特征F 1,F 2,…,F n 按照原来顺序进行拼接,合成图像高维富模型特征,合成后的特征不会损失特征数据的精度,且提升了计算速度,减少了时间开销和硬件成本。经过结合混合核的特征映射增强了数据的可区分性,提升了分类器的性能。
步骤4对映射后的图像高维富模型特征用FLD 集成分类器分类并评估结果。
3结合非线性混合核的特征映射3.1
核函数
核函数将输入数据隐式映射到高维特征空间,使得
数据线性可分或线性可分性增加[16]。在再生核希尔伯特空间RKHS (Reproducing Kernel Hilbert Sp
aces )中如式(8)所示,特征空间中的内积在输入空间中具有等价的核,k 是正定函数,满足Mercer ’s 定理[20]。对应的核矩阵K 写成式(9):
k (x ,y )=ϕ(x ),ϕ(y )
(8)复合酵素
图2结合非线性混合核特征映射的图像隐写分析流程
提取特征
K =éëêêêêê
êùûú
ú
úúú
ú
ϕ(x (1)),ϕ(y (1))
ϕ(x (1)),ϕ(y (2))⋯ϕ(x (1)),ϕ(y
(M )
)ϕ(x (2)),ϕ(y (1))ϕ(x (2)),ϕ(y (2))⋯ϕ(x (2)),ϕ(y (M ))⋮⋮⋮
ϕ(x (M )),ϕ(y (1))ϕ(x (M )),ϕ(y (2))⋯ϕ(x (M )),ϕ(y (M ))=éëêêêêêêêêù
û
ú
úúúú
úú
úk (x (1),y (1))k (x (1),y (2))⋯k (x (1),y (M ))k (x (2),y (1))k (x (2),y (2))⋯k (x (2),y (M ))⋮⋮⋮k (x (M ),y (1)
)k (x (M ),y (2))⋯k (x (M ),y (M ))(9)
其中,x ,y 为特征向量,分别表示自然图像和隐写图像特征向量;
ϕ为映射函数;M 为图像数量。核函数的选择严重影响了特征映射后的分类精度。最优核函数不仅能减小分类误差,而且能防止训练数据的过拟合。用于映射的以下核函数都是计算机视觉中的内核,具有可加性和齐次性[21]。
(1)线性核:k (x ,y )=x,y
(10)
线性核函数用于线性可分的数据,具备良好的性能。但不能对线性不可分数据进行分类。x 和y 用于L 2范化,源于Ali-Silvey 距离。
起子头(2)Hellinger 核k (x ,y )=∑i =1D
x i y i
(11)
Hellinger 核源于Bhattacharyya 距离,
x 和y 用L 1范化。(3)线性核和Hellinger 核的指数形式e
(k (x ,y )-1)
,α=1M 2∑i,j =1
M
k (x (i )
,x (j ))
(12)
(4)多项式核k (x ,y )=(x,y +1)
d
(13)
多项式核为全局函数,其映射的数据维数随着d 的增大而增大,可以获得远离待预测数据的全局信息,具有很强的外推能力。
3.2非线性混合核
在许多情况下单核函数的格式相对固定、变化空间
相对狭小,使鲁棒性和泛化能力具有局限性,单核函数并不是映射的理想内核
[16-17]
。与单内核函数相比,对于
含有异构信息、数据规模大、多维特征不规则及在高维空间分布不平坦等现象[22]的样本特征,混合核更具有优势。通过设计的混合核函数,可以有效改善泛化能力和提高鲁棒性,提高FLD 集成分类器的性能。使用现有的内核函数可以生成更高效的,并具有每个核函数属性的新混合核函数。
核函数k 1(x ,y )和k 2(x ,y )是两个合法核,
c 是常数,式(14)也是合法的核[18]
。还可以对不同子集使用不用
的核。混合核融合了来自不同信息源的信息,其中每个核都根据自己的领域度量相似性。
k (x ,y )=ìí
îck 1(x ,y )
k 1(x ,y )+k 2(x ,y )
(14)
线性混合核函数可以看作是基本核函数的算术平均,以往的研究多集中在线性混合核函数上。本文从非线性混合核的角度出发,考虑基本核函数的几何形式,
即用非线性混合核函数投影算法进行特征映射。构造的非线性混合核表达式如式(15)所示,并证明式(15)是合法的核函数。
k (x ,y )=k 1(x ,y )⋅k 2(x ,y )
(15)
命题1假设k 1和k 2是X ×X (X ⊆R n )的核函数,ϕ是X →R N 的映射,证明非线性混合核式(15)是合法的内核。
证明认为S 是一个有限集合{}x 1,x 2,…,x L ,并假设K 1和K 2为核函数k 1和k 2在这些点上对应的核矩阵。考虑对任意向量α∈R +,满足α′kα≥0,则K 是半正定的。因为α′k 1α≥0,α′k 2α≥0,所以α′(k 1⋅k 2)α≥0,因此K 1⋅K 2是半正定的,且满足Mercer ’s 定理,故k 1⋅k 2是核函数,即式(15)为核函数。
因此,当这两个单核函数都是正定的时,这种类型的混合内核函数是有意义的。平衡投影后的检测性能
和时间复杂度,选取Linear 核和Hellinger 核作为非线性混合核的基本核,构造的新非线性混合核函数的具体表达式如式(16)所示,命名为Multi-kernel 。
k (x ,y )=∑i =1
D
k 1(x i ,y i )∙k 2(x i ,y i )=∑i =1
D
(x i y i )∙x i y i (16)
构造的新非线性混合核空间不能简单地看作是每
个基本核空间的直积,该混合核函数具有更为复杂的核空间结构。
3.3
映射过程
3.3.1
从核到特征映射
对特征的每组分量x ,y ,核函数k (x ,y )的特征映射
ϕ(x )是将x 映射到一向量空间的内积<⋅,⋅>,k (x ,y )的
齐次特性如式(17)所示:
∀c ≥0:k (c x ,x y )=ck (x ,y )
(17)
对于任意齐次核k (x ,y )在R 上存在一个对称非负测量
密度函数κ(λ)d λ,λ∈R +,如式(18):
k (x ,y )=xy ∫-∞+∞e
-i λlg
y
x
κ(λ)d λ(18)
根据特征映射的解析形式[21],式(18)转换为:
k (x ,y )=
∫-∞+∞
[]ϕ(x )*
λ[]ϕ(y )λd λ
(19)定义实变量λ的复合函数,如式(20):
[]ϕ(x )λ=e -i λlg x
xκ(λ)
(20)
公式(20)无限维特征向量映射的显式形式。λ可以看作特征向量ϕ(x )的索引,所以特征映射[]ϕ(x )λ可以在内核的封闭形式计算。
3.3.2结合混合核的特征Nyström 近似映射
到一个变换任务使得变换后两个向量的点积与对它们核的求值重合,具体表述为:给定的训练映射的图像数量M 大于特征维数D ,用自然图像特征向量
x (1)
,x (2)
,…,x
(M )
∈R D
+
来训练映射ϕ,到向量ϕ(x ()
i )∈R M ,ϕ为映射函数,即对i ,j ∈{}1,2,…,M ,变换任务如
式(21)所示:
k (x (i )
,x (j )
)≈ϕ(x (i )
)
磁性相框⋅ϕ(x (j )
)
(21)
然后转化优化问题求解:
步骤1用ϕa (x )表示ϕ(x )∈R M 的第a 个分量,1≤a ≤M ,为使式(21)两者的差最小,转化为式(22):
∑i ,j =1M
(k (x (i ),x
(j )
)-ϕ(x (i ))⋅ϕ(x (j )
))2
(22)∑i =1
M
ϕa (x
()
i )ϕb (x ()
i )=0,0≤a ≠b ≤M
(23)
式(23)为约束条件,即使得M 维特征空间的描述符是非冗余的,本质要求转换后的特征向量是不相关的。
步骤2得到核矩阵K =(K i ,j )∈R +M ×M 的特征向量ϕa ≜(ϕa (x ()1),ϕa (x ()2),…,ϕa (x
()
M ))′∈R +M ×M ,
其中K i,j =k (x (i )
,x (j )
),用拉格朗日乘法建立等式(24):
K ϕa =λ2a ϕa ,1≤a ≤M
(24)
λ2a 是从大到小排列的特征值,
且λa =  ϕa 2。步骤3映射φ:R D
+→R E (E ≤M ),命名为结合非
线性混合核的Nyström 近似映射,N trn 为用于训练映射的图像数量。对任何特征向量z ∈R D +
,计算映射后的向量φa (z ),如式(25)所示:
φa (z )=1λa
2K (z ,∙)ϕa ,1≤a ≤M
(25)
其中:
K (z ,⋅)=(k (z ,x (1)
)
,k (z ,x (2)
),…,k (z ,x
(M )
))(26)
在构建映射φ的过程中,为得到性能最优的结果,规定特征映射前后保留特征维数不变。提出的混合核使用L 1范化,结合非线性混合核映射后的向量φ(z )如式(27)所示:
φ(z )=(z 1⋅z 1,z 2⋅z 2,…,z E ⋅z E )
(27)
由于特征转换只依赖于少量的自然图像特征,而不依赖于具体的隐写算法或嵌入的有效负荷大小,所以形成核矩阵、计算核矩阵的特征值和特征向量只需要在训练集中计算一次,这在很大程度上减少了映射时间。映射采用简单内核的封闭形式,与分类器训练相比,特征投影的时间复杂度要低得多。
4实验及分析4.1
实验基础
为了验证本文方法的有效性,实验使用BOSSbase1.01
图像库,其中包含10000幅大小为512×512,8位的灰度图像,包括人物、风景、建筑等,图库示例如图3所示。实验以10000张图像作为隐写的载体,分别采用三种主流隐写方案S_UNIWARD [23]、WOW
[24]
、MVG
[25]
地火龙
生成隐
写图像。然后分别提取载体图像和隐写图像的特征,映射特征并分类。算法运行硬件环境为Windows10,Intel ®Core ™i7-8700CPU @3.20GHz 3.19GHz ,运行内存16GB 。
将载体图像和对应的隐写图像对随机选取一半为训练样本,另一半为测试样本。提取的特征维度均为
34671维。去除不具有影响力的特征后,特征维数降为32016维。实验中将5000×32016维特征分解为8个特征块。每个特征块大小为5000×4002,满足训练特征的图像数量大于特征维数。然后对每个特征块进行投影,再将投影后的特征拼接成新的特征。为测试算法的检测性能,用FLD 集成分类器进行检测[13-14]实验采用FLD 分类器2.0版本。
在图像隐写分析领域常用最小总检测错误率衡量隐写分析的性能。最小总检测错误率通常包括两方面:虚警率和漏检率。计算公式如式(28):
P E =min P FA 12
(P FA +P MD (P FA ))(28)
其中,
P E 为最小总检测错误率,P FA 为虚警率,P MD 为漏检率。每组实验重复两次取平均值,以保证实验数据的可靠性。
图3BOSSbase1.01
图像库示例

本文发布于:2024-09-22 04:01:07,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/212320.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   图像   隐写
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议