139
1 引言
随着云计算市场规模持续增长和大数据等新技术、新应用的爆发,全球重大数据安全事故仍在不断上演,安全问题依然不容忽视。在这些安全问题中,大数据安全问题日益凸显,数据安全管控面临泄露方式多变、手段更加隐蔽、海量数据管理难、数据共享缺乏管理等新风险,导致类似“运营商30亿用户数据泄露”、“Facebook 数据泄露”等数据安全事件频发。大数据应用下的数据安全已经成为政府、企业、个人和社会各界广泛关注的热点问题。2 大数据平台面临的数据安全问题 大数据平台由多个部分构成,包括数据采集端、基础设施层、数据存储层、数据处理层、数据管理安全、能力开放层和大数据平台运营运维层,存储有海量用户敏感信息。电信运营商企业在大数据应用经过了多年的发展,已建设大数据平台的权限管控、日志审计等安全手段,但对大数据平台自身存在的安全漏洞和第三方通过安全组件进行敏感数据异常访问和违规操作还没有相应的应对措施。 (1)数据资产梳理难度大。大数据平台下的非结构化数据,较于传统结构化数据更难按照监管准则搜索、识别需要保护的敏感数据。各部门业务的独立性和多部门之间业务的重叠性,造成具体实施分类分
级的多数员工对现有数据该分入何类,很难做出明确判断[1]。已经存在的海量历史数据,通常很难根据部门业务特征和具体内容,使用人工鉴别方式将数据划分入适用的类别。
(2)大数据平台安全基线检测周期长,无法及时发现、验证平台自身的安全漏洞。大数据平台节点、组件数量众多,靠人工定期进行风险评估、安全检测,效率极低。
(3)敏感数据资产分布离散,无法建立有针对性的数据安全管控机制。
客户信息、经营数据等敏感数据成游离状态分布在各个业务系统中及存储载体中,其数据量大且分散、在类别与形态上也随着应用场景变化也有所不同[2],面对海量数据下,难以从数据安全的角度利用原有的技术手段对各业务系统中及大数据平台中客户信息识别、脱敏、溯源。面对客户信息操作行为审计更是难以下手,缺乏支撑点与着力点。
3 大数据平台数据安全技术能力体系建设思路
针对大数据平台面临的数据安全问题,主要从大数据平台组件的基线检测、数据资产发现、数据脱敏、数据溯源、数据安全审计等层面,建立大数据平台自身安全、系统内
部安全、系统外部安全三层立体式的防御体系,见图
1。
图1 大数据平台数据安全能力功能架构图
3.1 大数据平台基线检测能力
围绕大数据平台各类基础设施及应用组件,提出面向基础安全配置及技术管控手段的安全能力要求,降低由于组件配置不当或技术手段缺失所可能造成的安全风险。研究利用以下技术开展大数据平台基线检测。
(1)多组件信息主动探测技术:通过采集引擎收集组件信息,并将反馈信息提交至后台再通过指纹库比对,从而发现组件的脆弱性信息。
(2)超文本、XML 标记抽取技术:通过端口、Http 包头、Banner 信息、指纹信息等实现超文本标记抽取。充分利用XML 可扩展语言的特性,通过对端口返回的XML 进行特定的抽取,来获取大数据集的相关信息。
3.2 大数据平台数据资产识别
大数据平台数据资产识别主要包括:数据资产识别、敏感数据发现、敏感数据识别规则等内容。
数据资产识别方面,根据识别规则,通过对大数据平台中Hive、Hbase 数据进行全量扫描,依据扫描结果形成大数据平台的敏感数据资产的全景视图,为数据安全管理员制定数据采集、数据存储、数据分析使用流程、数据共享使用等管理策略提供必要的支撑。
敏感数据发现方面,可基于敏感数据扫描识别算法,采用多模式模糊匹配快速识别出敏感数据。
敏感数据识别规则方面,以敏感数据关键词、敏感数据数据类型、数据特征、数据长度等数据特征,采用敏感词变形的多模式模糊匹配算法,实现大量规则的快速模糊匹配。
基于大数据平台的数据安全技术能力体系建设研究
焦 罡,王 飞
(中国移动通信集团山西有限公司 山西 太原 030032)
【摘要】近年来,大数据应用下的数据安全各界广泛关注的热点问题。本文针对运营商大数据平台面临的数据安全问题进行了分析,提出了大数据平台组件的基线检测、数据溯源、数据脱敏、数据资产发现、数据安全审计等层面的建设思路和方法,为大数据平台下的数据安全技术能力建设奠定基础。【关键词】大数据;数据安全技术能力;安全管控
【中图分类号】TP309 【文献标识码】A 【文章编号】1009-5624(2020)07-0139-02