基于混沌测量矩阵的生物哈希密文语音检索

第48卷第12期2020年12月
华中科技大学学报(自然科学版)
J. H u a z h o n g Univ. of Sci. &Tech. (Natural Science Edition)
Vol.48 No. 12
Dec. 2020
D O I:10.13245/j.hust.201206
基于混沌测量矩阵的生物哈希密文语音检索
黄羿博1王勇1张秋佘2陈腾飞1
(1.西北师范大学物理与电子工程学院,甘肃兰州730070:
2.兰州理工大学计算机与通信学院,甘肃兰州730050)
摘要为了解决现存语音检索系统中明文数据的泄露问题,提高语音检索性能、生物特征模板的安全性和
隐私性,提出了一种基于混沌测量矩阵的生物哈希密文语音检索算法.首先,用户端对语音进行分类,再分发与类为单一映 射的密钥,通过密钥生成358位的Rossler混沌测量矩阵,并使用该矩阵对语音特征进行特征变换,进一步二值化 生成语音的哈希索引:然后,通过改进的s h a256算法对语音文件进行加密;最后,将哈希索引和加密语音送至云 端.实验结果表明:提出的算法不仅能防止明文泄露,而且具有良好的鲁棒性、区分性和检索性能;与此同时,生物特征模板具备良好的多样性、可撤销性、安全性和隐私性.
关键词密文语音检索;生物特征模板:生物哈希:Rossler混沌测量矩阵;改进的s h a256算法
中图分类号TP391.3; T N912.3文献标志码A文章编号1671-4512(2020)12-0032-06
Biohashing encrypted speech retrieval based on chaotic measurement matrix HUANG Yibo'WANG Yong ZHANG Qiuyu CHEN Tengfei'
(1. College of Physics and Electronic Engineering, Northwest N o r m a l University, L a n z h o u 730070,C h i n a;
2. S c h o o l o f C o m p u t e r a n d C o m m u n i c a t i o n,L a n z h o u University of T e c h n o l o g y,L a n z h o u 730050,China)
Abstract In order to solve the problem of plaintext data leakage in the existing speech retrieval system* and improve the performance of speech retrieval, the security a nd privacy of biometric template, a biohashing encrypted speech retrieval algorithm w a s proposed based on Rossler chaotic m e a s u r e m e n t matrix. First, the speech w a s classified b y the client, and redistribute key with class as single mapping. A358 bit Rossler chaotic m e a s u r e m e n t matrix w a s generated b y the key, the matrix w a s used to transform the speech features, and the hash index of speech w a s generated by binarization. T h e n the speech file w a s encrypted using the i m p roved sha256 algorithm. Finally, hash index a nd encrypted speech w ere sent to the cloud. T h e experimental results s h o w that this algorithm not only can effectively prevent plaintext leakage,but also has g o o d robustness,discrimination and retrieval performance.A t the s a m e time, biometric template has g o o d diversity, revocability, security and privacy.
K e y w o r d s encrypted speech retrieval;biometric template;biohashing;Rossler chaotic m e a s u r e m e n t matrix;i m p r o v e d sha256 algorithm
由于互联网的快速发展,当今社会处于一个信 息大爆炸的时代,其中认证[1]、检索[2]、识别[3]作为 信息处理中的重要应用,更是引起广泛的关注.
哈希因其自身具有较好的鲁棒性与区分性,被 广泛应用于数字处理中,其中感知哈希[4]、量子哈 希t5]和生物哈希[6]应用较多.生物哈希相对于感知哈希具有更高的安全性、多样性和可撤销性,而相 对于量子哈希空间的复杂度小、效率更高.
生物特征模板方法[7]主要分为特征变换法、密 钥绑定法和密钥生成法,其中特征变换法又分为生 物哈希法和不可逆变换法(如感知哈希法).在现有 语音检索算法中,生物特征模板主要为感知哈希法,
收稿日期2020-04-20.
作者简介黄弈博(1982-),男,副教授,E-mail: h u a n g_y i b o@f o x m a i l.c o m.
基金项目国家自然科学基金资助项目(61862041);甘肃省青年科学技术基金资助项目(1606R J Y A274).
第12期黄羿博,等:基于混沌测量矩阵的生物哈希密文语音检索•33 •
该方案将特征向量通过与门限值比较进行二值化处 理,其特点是单向转换,具有较好的安全性,但是 多样性、可撤销性较差.文献[8]提出了一种基于加 密语音的感知哈希检索算法,该算法提高了系统的 鲁棒性.文献[9]提出了一种基于频带方差的语音感 知哈希检索算法,该算法验证了加密语音在解密时 数据的完整性,但是明文数据的安全性有待提高.文异或、移位等逻辑运算对原有的哈希序列进行打乱,
生成新的哈希值.由于语音的采样值不但具有负数,而且采用双精度储存,因此原有的运算方式己经无 法满足对语音的加密.
sha256算法的改进之处:对原始数据增加了置 乱加密;将原始逻辑运算方式改为了点乘.改进的 sha256算法的具体加密过程如下.
献[10]提出了一种新的加密语音检索算法,在产生 感知哈希的过程中,采用多重分形特征,并采用分 段聚合近似技术来压缩数据量,提高了鲁棒性.文 献[11]提出了 一种基于音节级感知哈希的检索算法,该算法提高了系统的区分性和鲁棒性.文献[12] 提出了一种基于快速傅里叶逆变换和测量矩阵的有 效加密语音检索算法,该算法提高了明文数据的安 全性,而且具有良好的检索性能和区分性,但是对 于MP3压缩攻击的鲁棒性须要进一步提升.文献 [13]提出了 Chirp-Z变换和感知哈希第二特征提取 的加密语音检索算法,该算法提高了整体检索性能, 但是鲁棒性须要进一步提升.
本研究基于上述问题提出一种基于混沌测量矩 阵的生物哈希密文语音检索算法,该算法不仅有效 防止语音数据的泄露,而且具有良好的鲁棒性、区分性和检索性能;同时,生物特征模板具备良好的 多样性、可撤销性、安全性和隐私性等优点.
a.将待加密语音;c(/I)和哈希序列分别通过私 钥\进行置乱加密,生成密文数据.
b.设置sha256算法长为32 b it的初始密钥
且S A.(w)取值区间为[0,255],
^=[^(1),S k(2),^(32)]. (1)
c.将密文数据1与密钥K/,w)进行每次32 b it的迭代加密,生成密文数据2(F"),
*^尺1,1S K\,2
_SKl,l S Kl,2
(l^m^32, l^/^ceil(/?/32));(2)
F"= SK F,,(3)
式中:n为x(«)的采样点数;^^为经过迭代后总的
密钥,其中下一组私钥是由上一组迭代产生的,
&(/+1)= sha256W)),(4)
式中sha256(*)为加密器.
1改进的sha256算法2算法流程
sha256算法作为一种安全散列算法,通常使用基于生物哈希的密文语音检索算法流程如图1
图1基于生物哈希的密文语音检索算法的流程图
所示.
2.1服务端
步骤1特征提取.首先对语音波信号攻《)进 行预处理得到总帧数为#的语音信号;,其中 '(»)为第/帧的第《个采样值;然后提取语音信号 &(«)的生物特征语谱图,再对语谱图进行离散小波 变换(DWT),并得到系数矩阵/(m,v);最后对 /(m,v)进行非负矩阵分解,得到一维特征向量V=V{{i)\i= \, 2,N).
步骤2生物哈希.
a.首先对特征向量进行差分哈希处理,然后对 每个特征向量元素求和,最后将值相同的归为一类.
b.根据不同的类,产生一个与其单一映射的密 钥,并通过密钥令三维Rossler混沌测量矩阵产生
1x#的随机数序列,然后通过施密特正交化转
化为相互正交的随机序列2(0,最后将2(0
与特征
• 34 •华中科技大学学报(自然科学版)第48卷向量P进行标量积得到D= D«〇|/ =l, 2,
式中为Rossler混沌测量矩阵的映射函数,
r'=-cF(〇+m);
W=^,= ^0') + ^(0;(5)
r=b+r(i)(r(〇-c),
式中:&&c为常数;厂(/),w(/),7X0的初始值
分别为1,〇,〇.
c.将/)(〇进行二值化处理,得到生物哈希序列
;!= //((〇|z_= l,2,…,7V),艮P哈希索弓|.
二值化处理过程:设哈希序列枞1)为0,若向
量Z)(〇的第/个数据大于第/-I个数据,则哈希序
列第/个数据为1,否则为0.
步骤3改进的sha256算法私钥加密.
a.通过Henon加密算法产生两组分别与原始
语音j c(«)和哈希序列^(/)等长的随机序列&和& .
b.将乂和&按照降序排列得到y和(,且
51,'与x(«)和5"2'与/z⑴之间是一对一的映射关系.
c. 通过两者之间映射关系把x(«)赋值到
/K0赋值到W ,接着把&'(/)和$(〇恢复到未排序
的状态后,即对原始语音和哈希序列形成了置乱加
密序列,分别为x'(〇和以〇,
<-S,' <->x(n);(6)
\h'(i)<r^ S2 <—S2'<-»h{i).
d.设置一个位长为32 b it的私钥并通过
式(3)完成对语音的迭代加密厂'/).
步骤4将密文和其—对应的哈希索引
送至云端储存.
2.2移动端
步骤1对移动端某一语音产生的哈希索引
<;与云端的哈希索引进行哈希匹配.
在检索过程中,对于哈希索引<;和哈希索引表
其中一条\'两者之间的归一化汉明距离/)“*),即
可视为比特误码率⑶BE),计算公式为
当D不大于认证阈值就是检索到相关的语音,反之
就是未检索到相关的语音.
步骤2把检索结果反馈给用户,其中只有当
匹配成功时,才将加密语音同时传送给移动端.
为了进一步衡量此算法,定义误识率(办A)公
式为
^F A=fr f i X\^
J—00cr)da
〇-\[2n
r~^x~m)2
f e1〇1d a y(8)
式中:r为生物认证阈值;//为比特误码率均值;
为比特误码率标准差.
3实验结果分析
语音库所用语音都来自TIMIT(德州仪器和麻
省理工学院)和TTS(文本语音转换)语音库中的语
音信号,其时长为4 s,共5 000条(其中英文男女、
中文男女各1250条).实验硬件平台为Intel(R)
Core(TM)i5-7500M CPU,3.40 GHz,内存4 GiB,
软件环境为Windows10操作系统下的Matlab
R2018b.
3.1明文数据的安全性与完整性
为了避免数据在云端下的明文泄露,并保证语
音恢复时的数据完整性,本研究采用改进的sha256
算法对语音数据进行加密.
为了验证该算法加密前后语音的相关性,首先
从语音库随机选取一条语音,然后随机选取了语音
相邻的3.2X104个样本点作为采样点,以x(/)为横
坐标,4〖+ 1)为纵坐标,其加密前后的散点图如图
2所示.最后通过斯皮尔曼相关系数来计算前后间
的相关性为
(Z,m2Z,(少刃2)1’2
〇.4r
-50 0 50 100
x〇)
(b)加密后
-0.2 0.0 0.2 0.4
-0.2
(a)加密前
(9)
图2加密前后相关性之间的对比
通过式(9)计算得到:此条语音在改进的S ha256
算法加密前的系数为0.984,加密后的系数为
-
0.003.通过图2和斯皮尔曼相关系数可以看出:语
音经过加密后,相关性极大地降低,说明该算法具
有良好的安全性,即可以防止明文数据的泄露.
第12期黄羿博,等:基于混沌测量矩阵的生物哈希密文语音检索
• 35 •
为了进一步验证改进的sha 256加密算法的安 全性,本研宄对该条语音整体进行加密和解密,如 图3所示.从图3可以看出:本算法对语音不但具 有良好的加密性能,而且能够保证数据完整性.
0.4
式中尸:
2(7
■^〇扣2+汀02
1
0.0
'
L l k l t J  | 〇|M y L |y |
0.4
j n n ] 〇.2
^ 0.0
-
0.2
2
4
6
采样点/ 104 (a )原始语音
2
4
6
将标准差的理论值与实验值代入公式,本文的 /?E 值为0.939 2,这进一步说明本文算法具有良好的
区分性.不同算法误识率的对比见表1,从表1可 以看出:相比较其他三种算法,本文算法具有较好 的抗碰撞能力.
1
不同算法误识率的对比
2
4
6
采样点/104 (c)错误解密语音
(b)加密语音
r 本文
文献[12]
文献[10]
文献[8]
0.4
0.02  3.8x 10 62  2.1x l 0-56  4.2x 10 26  1.8x10 290.04
3.1x10 57  6.0x 10 52
4.2x 10 24  4.2x 10 27*°。
t i
0.06  1.5x10 52  1.1x10-47  3.4x 10 227.5x 10 25-0.2
. _,0.08
4.9x 10 48  1.2x10 43  2.3x10-2。  1.0x10 220
2
4
6
采样点/104 (d )正确解密语音
图3语音加解密对比图
综上所述,在云端环境下改进的sha 256算法不
仅能防止明文数据泄露,而且保持了数据的完整性.
3.2
性能分析
3.2.1区分性
不同内容语音信号生物哈希值的比特误码率基 本服从正态分布,此次实验中语音库比特误码率数 据的正态分布如图4所示.
图4比特误码率的正态分布图
根据隶莫佛-拉普拉斯中心极限定理,哈希
序列的归一化汉明距离近似服从
a  ■的正态分布,其中:P 为生物哈希序
列中0或者1发生的概率(#=0.5); 7V 为总帧数,在 此AK 358(cr  = 0.026 5),经过计算的实际值分别为 //〇 =0.498 6 , (j 〇 = 0.028 8 .
从计算可以看出:本文算法经过实验得到的正 态分布参数与理论值十分接近,故本文算法具有较 好的随机性与抗碰撞性.
熵率(/?E)作为衡量随机事件不确定程度的一种 度量手段,对衡量不同长度哈希序列的区分性也是 一种较为合理的评判方法,
R e  = -P  log 2 P  - (1 - P ) l 〇g 2
(10)0.10
0.12
0.140.16
9.6x 10 44 l.lxlO'39
8.6x 10-36
3.9x 10 32
9.8x 10 40 4.8x 10 36 1.5 x l O 32 3.2 xlO'29
1.3x 10—18 5.9x l 〇17
2.2x 10 15 6.9x 10 14
1.1x10 - 1.0x10 1 7.2x 10 3.9x 10
3.2.2鲁棒性
为了测试本文算法的鲁棒性,首先对语音库进 行了如表2所示的13种内容保持操作,然后计算其 经过内容保持操作后的平均比特误码率.从表2可 以看出:本文算法经过常见的13种内容保持操作后 的比特误码率均值分布在区间(0.13, 0.208 0),因此 本文算法具有较好的鲁棒性,而且能够满足系统对 生物
哈希序列检索要求.
2
内容保持操作
操作手段操作方式平均/?BE
音量调节I  音量降低50% 0.135 8音量调节II 音量增加50% 0.138 0重采样I
采样率下降至8 k H z
0.139 5
再上升至16 k H z
重采样n  采样率上升至32 k H z
0.1300
再下降至16 k H z
添加回声 延时300 m s ,叠加衰减60%
0.208 0窄带噪声 30d B ,中心频率0~4k H z  0.1504窄带噪声 50d B ,中心频率0~4k H z
0.136 6低通滤波I
6
阶巴特沃斯滤波, 0.179 6
截止频率3.4 k H z
低通滤波I I  6阶F I R 滤波,截止频率3.4 k H z  0.180 0
M P 3 压缩I  32 kb/s 0.143 7M P 3 压缩II 48 kb/s 0.138 2M P 3 压缩III
128 kb/s
0.142 3
M P 3 压缩I V ________________192 kb/s _________________0.140 5
3.2.3检索性能
在信息索中,查准率(幻与查全率(户)是反映检
(10
)
• 36 •华中科技大学学报(自然科学版)第48卷
索性能的重要指标,
R=[S T/(ST+SN)]x l00%;(11)
尸= [ST/〇SV+\)]x l〇〇%,(12)
式中:为检索结果中正确语音且被检索到的数
量;&为错误语音且被检索到的数量;\为正确
语音且未被检索的数量.
从图4与表2可知:原始语音的比特误码率最
小值为0.38,经过内容保持操作后的比特误码率
均值中的最大值为0.208 0,故门限值应属于区间
(0.208 0, 0.38)内.本研宄为了保证算法在经受内容
保持操作时,仍然同时具有良好的查准率与查全
率,采用0.32作为门限值.
为了验证本文算法的检索性能,随机从语音库
中选取了一条原始语音并同时抽取与其对应内容保
持操作后鲁棒性较差的添加回声、巴特沃斯滤波和
F I R滤波作为检索样本,使其与系统所有哈希索引
进行匹配,检索结果如图5所示.从图5可知:当
原始语音和经过内容保持操作后语音分别与系统所
有哈希索引匹配时,都只有一条语音的归一化汉明
码距小于设定的门限值,其他4 999条语音的归一
化汉明码距均远大于门限值,即匹配成功.
M-
0    5 000
语音数量0.0 I_________________,
0    5 000
语音数量
*
*
(a)原始语音
0    5 000
语音数量
(b)添加回声〇.5 IMIlViMMNI 0.0I____________,
0    5 000
语音数量
(c)巴特沃斯滤波 (d) FIR滤波
从图6可以看出:与其他算法相比,本文算法 与坐标轴所围成的面积最大,即本文算法具有较好 的检索性能.
综上所述,本文算法不但具有良好的查准率与 查全率,而且查准率与查全率具有良好的折中关系,所以本文算法具有良好的检索性能.
3.3生物哈希分析
为了提高常用生物特征模板的安全性、多样性 和隐私性,本研究采用生物哈希法.当语音库通过 生物哈希模板时,每条差分哈希元素求和后的值分 布在[120, 224], —共有95类,故本研究建立了 95 个生物模板.每个生物模板都是由单一映射密钥<;生成,且每条语音生成了一个358 b it的二进制序列 h,h,e{0,l}358.
由于方案针对不同的类生成不同的生物模板,而且对于攻击后的生物模板能够很快形成新的模 板,因此方案具有良好的多样性和可撤销性.
由于此过程是单向的过程,因此无法从序列/;得到特征向量或者&(/e[l,95]),这也说明该过程 具有良好的安全性和隐私性.
4结语
本研宄构建的生物特征模板具备了模板的多样 性、密钥的可撤销性和模板安全性.实验结果表明:本文提出的基于混沌测量矩阵的生物哈希密文语音 检索算法,不但具有良好的区分性、鲁棒性和检索
性能,而且通过改进的sha256算法对语音的加密,有效防止了语音数据的泄露,保持了数据的完整性. 今后将通过时域、频域特征的融合,进一步提高算 法的鲁棒性.
图5匹配结果
查准率与查全率曲线图可以进一步验证语音的 整体性能,本文算法与其他算法的查准率与查全率 曲线图如图6所示.
图6查准率与查全率曲线图
参考文献
[1] S H E N Jian, C H A N G Shaohua, S H E N Jun, et al. A
lightweight multi-layer authentication protocol for wireless b o d y area networksfJ]. Future Generation C o m­puter Systems, 2018, 78(3):956-963.
[2] K A R S T S O R E N M,D U E H O L M M O R T E N S,
M C I L R O Y S I M O N J,et al.Retrieval of a million high-quality, full-length microbial 16S a nd 18S r R N A
gen e sequences without primer bias[J].Nature B io­technology»2018» 36(2):190-199.
[3] Y E N I G A L L A P,K U M A R A,T R I P A T H I S,etal.
S p e e c h emotion recognition using spectrogram &
p h o n e m e embedding[C]// Interspeech 2018. H y d e r a b a d

本文发布于:2024-09-20 10:49:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/89371.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语音   算法   检索   生物   加密   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议