基于K匿名隐私保护模型的卡口车牌识别数据 脱敏技术研究

交通科技与管理
75
技术与应用0 引言
  随着政府信息化的不断深入,公众的个人信息被信息化
系统(如视频卡口监测系统)广泛采集。在公安交通管理领
域,卡口车牌识别数据作为位置数据的典型组成,记录了车
辆车牌号、车牌颜、行驶方向等信息,并标记了图像采集
的卡口位置,车辆的历史轨迹通过一系列由卡口和经过时间
的时间-空间二元元组重构。近年来,车牌识别数据因其数
据采集率高、覆盖范围广和数据准确率高等优势而受到研究
者们的广泛关注。例如,GY Jiang 和AD Chang 等结合车牌
识别数据监测交通拥挤[1],H Chen 和C Yang 等学者利用车牌识别数据研究个体时空交通行为等[2]
。随着第三方研究机构对卡口车牌识别数据研究需求的不断增长,随之而来的隐
私问题则成为了人们关注的焦点。因此,研究卡口车牌识别
数据中的隐私披露风险,探究车牌识别数据的脱敏技术和隐
私保护方法具有重要意义。本文基于K 匿名隐私保护模型,
来探讨卡口车牌识别数据中的隐私泄露风险和相关脱敏手段
和方法。
1 K 匿名隐私保护模型  经过匿名化处理发布的数据集,一般为数据表形式:表中的每一条记录对应一个个体,包含多个属性值,属性值包含个体多方面的信息。这些属性可以分为三类:
  (1)标识符(Identifier):能唯一标识单一个体的属性,如姓名、身份证号码和车牌号等。在数据表中删除标识符或匿名化处理在一定程度上可以达到隐私保护的目的。
  (2)准标识符(Quasi-Identifier, QI):数据表中若干属性的组合,这些组合能够同外部信息结合链接,对个体重新标识,识别出主体身份。
  (3)敏感属性(Sensitive Attribute):包含隐私信息的属性,如疾病、薪资,家庭住址等。
  例如,在匿名化隐私数据表1中,通过删除姓名属性和社会保险代码两种标识符属性,数据被初步匿名化。但表中还包含种族、生日、性别和等一般属性和婚姻状况、患病情况等敏感属性,这些属性能够被链接到非匿名化的公开候选人情况(含姓名、地址、所在城市、婚姻状况、性别、
出生日期、等属性),从而泄露个体的婚姻状况、
患病情况等敏感信息。如在候选人列表中,在San Francisco
的一位离婚女性,出生日期为64/09/27,该记录在匿名化医
疗信息表中是唯一的,通过表1的链接,尽管在医疗信息表
旋转阀门中并未包含标识符属性,仍然容易推算该女性为Susan,同
时也获取到了她的敏感信息——患艾滋病。
电暖手套
1 匿名化医疗信息表
社会保险代码姓名种族出生日期性别婚姻状况
患病情况--asian 64/04/12女94142离婚高血压--asian 64/09/13女94141离婚肥胖症--asian 64/04/15女94139结婚胃溃疡--asian 63/03/13男94139结婚肥胖症
--asian 63/09/18男94139结婚支气管炎
  针对此问题,2002年Sweeney L 提出了K-anonymity 隐
锯末板
私保护模型[3]。在K 匿名性的约束下,数据集中的任意个体应该至少与其他K-1个个体是不可区分的。具体的,K-anonymity 的定义如下:
  K-anonymity:给定数据表,是与相关联的准标识符,当且仅当在
中出现的每个值序列至少要在
中出现K 次,则满足K-匿名。表示表的元祖在准标识符上的投影。  在匿名化医疗信息表1中,准标识符为{种族,出生日期,性别,,婚姻状况},该表满足K 匿名当
且仅当K=1。通过对表1的出生日期、属性进行匿名化处理,即将出生日期后3位匿名化(如64/09/27处
理为64/0*/**)、将后两位进行匿名化(如94139处理为941**)得到匿名化处理后发布的数据表,准标识符依然为{种族,出生日期,性别,,婚姻状况},K=2。在这种情况下,Susan 的隐私信息就不能通过与外部           
作者简介:罗东华(1979-),男,广东信宜人,博士,研究方向:智能交通。
基金项目:国家重点研发计划战略性国际科技创新合作重点专项(2016YFE0206800)资助。
基于K 匿名隐私保护模型的卡口车牌识别数据
脱敏技术研究
罗东华
(广东方纬科技有限公司,广州 510006)
摘 要:在公安交通管理领域,卡口车牌识别数据包含信息量齐全、准确,受到广泛地采用,但是该数据在使用过程中也容易造成个人隐私信息泄露。为研究研究卡口车牌识别数据中的隐私披露风险,减少卡口车牌数据在使用过车中造成的信息泄露,本文基于K 匿名隐私保护模型,对卡口车牌识别数据中的隐私泄露风险进行分析和研究,提出常用脱敏手段和方法。并以广州市卡口车牌识别数据作为实例进行分析计算,提出具体的数据脱敏措施,在分析计算中发现:时间分辨率与的隐私保护程度成正比,而与信息保存率成反比。在本文的结尾提出了该算法存在的不足,并指明未来进一步深入研究的方向。本文对相关领域人员进行数据脱敏研究具有一定的借鉴意义。
关键词:交通管理数据;卡口车牌;数据脱敏;匿名隐私保护;时间分辨率
76
交通科技与管理技术与应用
信息的链接而被唯一的标识,也就达到了隐私保护的效果。  相应的在车牌识别数据集中,对某辆车的出行轨迹,从中选取若干记录组成其准标识符,根据准标识符在其他车辆轨迹集合中的出现次数确定该车的个体匿名性界定其个体隐私披露的风险。
2 测试数据集介绍
  本案例基于广州市卡口车牌识别数据集。数据集记录了广州市主要视频监测卡口和各个时间段的车辆车牌识别数据。本案例从完整数据集中随机选取10万辆车约700万条数据记录。视频卡口主要集中分布在广州内环路附近及中心城区。卡口过车记录包含了有关车辆行驶信息和位置信息的若干属性,其中车牌信息已经经过MD5匿名化处理。表2列出了某原始记录的各个字段。
2 卡口过车记录字段示例
字段名称含义字段取值CARPLATE 车牌5ac0bd6239f8b9ac PLATECOLORTAIL 车牌颜0THROUGHTIME 通过时间2017-03-01 03:59:07
ADDRESSNAME 通过地点
内环路梅州大厦路段
(东往西)
ADDRESSID 卡口ID 17068DRIVEDIRECTION 行驶方向0
  从表中可以看出,原始的车牌识别数据记录中的时间信息精确到秒,这样的时间分辨率足以让数据集中的每一辆车都被唯一的标识,而且对于大多数交通领域的研究比如交通流量的统计等,如此精确的时间分辨率也带来冗余的信息。为此,本案例通过时间维度上的聚合将1天24小时转换为若干相同时间间隔t 的时间段。例如设置时间聚合度t 为2 h,则意味着通过聚合2017-03-01 00:00:00至2017-03-01 02:00:00的记录为一个统一的THROUGHTIMEID: 101,依次类推,THROUGHTIMEID: 1509就代表2017-03-15 16:00:00至2017-03-15 18:00:00时间段内数据记录的时间戳。本案例考虑了5个级别的时间聚合度t:0.5 h、1 h、3 h、6 h、12 h。
3 结果分析
  具体的,对于某车辆,从该车的出行轨迹中随机采样的方式得到其相应的准标识符,遍历所有车辆的出行轨迹集合,统计轨迹中包含的个体车辆集合为该个体的匿名性集合,个体匿名性集合中所包
含的车辆数则为
的匿名性,遍历发布车辆集合中的所有个体得到所有个体的匿名性列表K。具体实现如下。
  基于此算法,在时间聚合度t 为0.5 h,1 h,3 h,6 h 和12 h,5个级别的时间分辨率下,选取不同的记录数
,组成准标识符,标识统计数据集中个体的
匿名性。为了更好的体现不同时间分辨率及不同记录数标识下个体匿名性的差异,直观地分析时间分辨率对个体匿名性的影响,然而随着准标识符记录数的增加,个体匿名性呈现显著的下降趋势。为了更直观的揭示准标识符长度即标识记录数对个体匿名性的影响,本案例选定时间分辨率为12 h,选用不同数量记录来标识个体匿名性,绘制被唯一标识的个体的占比情况,误差线代表99%的置信区间。尽管时间分辨率已经被粗化到12 h,仍然有将近90%的车辆能够被5个时空轨迹点唯一的标识。这意味着,车牌号码经过脱敏处理的卡口车牌识别数据仍然隐含着巨大的隐私泄露风险,这也说明了对于卡口车牌识别数据集,通过简单的MD5等手段对车牌号码进行转换来实现数据脱敏是远远不够的。
4 总结
  本研究针对公安交通管理领域的交通数据,研究数据脱敏方法与技术,从数据脱敏的技术现状和政策要求来看,尽管国内对数据安全和隐私保护做出了一些规定,但在交通数据方面,这样的规范和行业标准却相对缺乏。本文揭露了卡口过车记录数据集中的个体由于被重标识而导致隐私泄露的风险。探究不同时间分辨率下的个体隐私泄露风险的程度,这为个体隐私保护提供了思路。更大的时间分辨率意味着更高程度的隐私保护程度,同时也意味着更多的信息损失。为此,未来的方向将会在隐私保护算法的设计,其能够针对不同的数据脱敏程度要求,对数据进行脱敏,以求达到个体隐私保护和数据效用的均衡。三爪卡盘结构
参考文献:水力分级机
档案管理方法
[1]Gui-Yan,Jiang,C.An-De,and N.Shi-Feng.“Traffic congestion identification method based on license plate recognition data.”Journal of Harbin Institute of Technology 43.4(2011):131-135.
[2]Chen,Huiyu,Chao Yang,and Xiangdong Xu.“Clustering Vehicle Temporal and Spatial Travel Behavior Using License Plate Recognition Data.” Journal of Advanced Transportation 2017(2017).
[3]Sweeney,Latanya.“k-ANONYMITY:.”International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems10.05(2008):557-570.

本文发布于:2024-09-22 23:23:57,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/254564.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   个体   车牌   识别   卡口
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议