智慧城市中政务数据清洗融合系统设计

电子技术与软件工程Electronic Technology & Software Engineering 数据库技术
Database Technology
f  ETL
数据粍准
规笵
数裾壤码杇准
丨数据《•
标准
质量工单
率;对例如身份证号等敏感数据,借助B a s e 64和M D 5等加密算法, 在保证数据唯一性的同时,对敏感数据进行脱敏处理。2. 3数据源管理
由于政务业务部门众多,业务系统繁杂,导致各个业务系统数 据源的多样性,存在结构化、半结构化和非结构化等结构各异的数 据。清洗融合系统根据不同数据源的情况,选择不同的数据对接方 式,通过库-库对接或库-表对接等方式,有效对数据源进行管理, 完成数据归集,从而解决不同数据源的数据异构问题。2. 4安全标准规范
政务数据有极高的敏感性和保密性,且蕴含着巨大的价值,数 据安全问题也掣肘着电子政务的发展。在智慧城市数据融合项目的 实际建设中,安全标准规范主要包括以下几点:
(1)
按照国务院办公厅电子政务办公室发布的《国家政务服
务平台安全接入检测要求》,构建等保三级以上的数据安全防控体 系。
(2) 根据实际业务需求,针对不同系统用户,分配相应的操
作权限。
大数据时代的到来,全球数据规模呈现爆发式增长,据国际数 据资讯(I D C )公司监测,全球数据量大约每两年翻一番11]。随着 互联网技术的不断发展和社会治理要求的不断提升,世界各国政府 和组织对此有着高度的认识,纷纷将开发利用大数据作为夺取新一 轮竞争制高点的重要抓手,积极推动实施大数据技术的研发和应用 落实w 。因此,深入探宂政务数据清洗融合技术,构建政务大数据 环境下的数据标准体系,对解决政务数据清洗融合的难题,贯彻国 家政务大数据战略具有重要的实践意义[31。1政务数据融合需求分析
建立政务数据标准规范体系。基于智慧城市中各类专题库,对 现有的国家、地方、行业等标准,结合省、市等地方标准进行标准 编码。对于当前尚无标准的政务数据,根据具体项目的建设要求, 制定对应的数据标准规范,以确保数据标准的统一,保证数据在不 同政府部门间的共享、交换。
建立数据质量管控体系。对政务数据做到全生命周期的质量管 控,完善数据质量稽查规则,借助数据稽查、数据质量评分和质量 工单等功能,对问题数据进行“及时发现一快速反馈一高效修复” 的数据回路管理[4]。
完善技术支撑体系。针对政务数据结构多样、数据量庞大、质 量低下、敏感性强等特点,选取专业的大数据领域数据仓库代替传 统的数据库优化数据存储,在数据抽取(Extract )、转换(Transform )、 加载(Load)的过程中优化E T L 过程提升融合效率,运用加密算法 对敏感数据进行数据加密保证数据的安全性。2政务数据清洗融合系统设计
根据智慧城市政务数据融合需求,结合实际业务场景,从政务 数据创新应用的角度,提出了政务数据清洗融合系统的设计框架(图1所示)。
2.1政务数据全生命周期管理
政务数据的生命周期是数据融合的时间标尺,数据融合服务于 政务数据的全生命周期,有效进行政务数据的全生命周期管理,是 保障政务数据有序梳理、高效融合的基础。全生命周期管理分为技 术域管理和业务域管理两方面,技术域管理按照数据建模、数据清 洗、数据集成、数据调度等数据融合的流程建立时序里程管理;业 务域管理按照政务业务流程建立业务里程管理。
2. 2技术支撑
相对于某一特定领域的数据,政务数据具有结构多样、数据量 庞大、质量低下、敏感性强等特点。针对政务数据的特点,相较于 传统的数据融合技术,采用H b a s e 、H i v e 和Mppdb 等大数据领域 的数据仓库来代替传统的M y s q l 、Sql  Server 等轻量级数据库,提 升海量结构化、非结构化和半结构化政务数据的存储和查询效率; 引入Kettle 等E T L 工具,针对不同的数据格式,运用分布式并行 流程代替传统的串行流程,提高数据抽取、转换、加载过程中的效
防滑脚垫宏®&济库
智慧城市中政务数据清洗融合系统设计单人飞行器
田淼1
田继亮2
(1.兰州理工大学甘肃省兰州市730050
2.深圳市华傲数据技术有限公司广东省深圳市 518110)
摘要:本文通过分析政务数据存在的价值,发现智慧城市建设中政务数据融合存在的问题,获取实际项目建设中的数据融合需求,
结合政务数据的生命周期、大数据技术支撑.数据安全管理.数据清洗流程等方面,设计基于数据标准体系的政务数据清洗融合系统,对 智慧城市中的数据融合有着参考的价值和意义。
关键词:智慧城市;政务数据;清洗融合系统;数据治理
懵査段修
S f  ETL  |问题数据反憒
t ETL  4问8数据反馈
图1:政务数据清洗融合系统框架
进术手
I 魏
报告
图2:政务数据融合流程
政务数裾安全标准《萡
161
数据库技术Database Technology美容喷雾器
电子技术与软件工程Electronic Technology & Software Engineering
(3)对系统用户的所有操作实时监控,并对删除等高危操作 进行告警,所有的操作均形成系统审计日志,完善数据溯源问责机
制。
(4)对系统进行高可用双机部署,定期对数据进行备份,谨 防突发情况下的数据丢失。
(5)提供数据脱敏、水印功能和数字签名功能,确保敏感数 据的隐私安全。
2. 5数据标准规范
政府业务部门众多,存在跨层级、跨地域、跨系统、跨部门、
跨业务的各种业务系统,数据间的异构现象严重,数据质量参差不
齐,因此构建统一的数据标准体系,是各级政府部门实现信息互通、
数据共享、协同办公的基础。在智慧城市的数据融合过程中,需做
到以下数据标准规范:
(1)元数据标准。采集全生命周期的元数据,针对全域元数据,按照建设需求和实际情况,进行长度、唯一性、重复性、非空性、
最大/小值、数据结构的标准核查,并生成数据表之间的元数据地图,
对元数据质量和走向进行集中管理。
(2) 数据编码标准。对现有的国家、地方、行业等标准,结合省、市等地方标准以及实际建设需求,进行标准编码,形成数据编码字
典,确保数据编码标准的统一。
(3)数据质量标准。针对不同数据,配置相应的S Q L规则、值域规则、正则规则等数据质量稽查规则,对数据的重复性、唯一
性、准确性、时效性等指标进行数据稽查,生成质量评分。对于可
用技术手段修复的数据,借助数据清洗规则和E T L工具等技术方
法进行数据修复;对于不可用技术手段修复的数据,通过数据工单
形式进行数据溯源的人工修复。
(4)数据流程标准。按照时序的先后,政务数据融合主要遵 循流程如图2所示。
2. 6历史层融合
历史层在最靠近数据源的位置,在不对历史数据进行任何处理、
保证政务数据全生命周期完整性的情况下,对源数据进行数据分析
与建模,要点如下:
(1)在对历史数据进行建模前,需参考业务属性,分析数据 对于智慧城市建设的重要程度。对于公安局、民政局、住房和城乡
建设局、市场监督管理局、经济发展局等包含大量人口、法人、房
屋、经济指标的数据,划分为核心数据;其余数据划分为辅助数据。
按照数据的重要程度,为每个业务数据分配属性权重,确保对于数
据质量的控制需求。
(2)在对历史数据进行建模时,针对不同数据,确定数据的 数据类型、长度、增量/全量抽取、数据更新频率,在合理分配存
储空间的前提下,保证数据的时效性。
2. 7清洗层融合
清洗层是数据清洗融合的核心部分,清洗融合的数据与政务业
务紧密相关,包括数据字典映射、数据格式转换、潜在数据提取、
业务数据核检、数据关联。要点如下:
2.7.1数据字典映射
根据数据编码规范,建立数据字典编码,形成数据与编码的键
值对(k e y-value)映射,通过数据字典关联出与代码数据项对应的数
据。例如,我们想要将表示性别“女”的数据都转化成国家标准编
码“02”,需建立一个数据字典映射,其中“键”的取值是所有性
别“女”不同表示方式的集合,“值”是最终需要统一的“02” :“女性”— “02”
“女”一► “02”“w o m a n’’—►‘‘02 ’’“f a m a l e”— “02”
2.7.2数据格式转换
将同一类型、不同格式的数据,配置清洗规则,通过E T L过程,
转换形成相同的数据格式,以时间类型数据为例:
“2000 年 1 月1 日”—“2000-01-01”
“20000101”-»•“2000-01-01”
“2000.1.1”-> “2000-01-01”
2.7.3潜在数据提取
顶喷针对源数据,通过技术手段提取数据中心存在的潜在数据,提
升数据的完整性。以身份证号为例,1-6位可提取区划代码,7-14
位可提取出生日期,第17位可提取性别。
2.7.4数据关联
根据专题库的模型,将清洗标准化后的来源数据基于核心数据
进行关联,根据数据的业务属性汇聚形成多个窄表,每一个表只存
储某个业务属性的数据。此时表与表之间的数据不冗余,源与源之
间的数据是冗余保存的,这样既保证了灵活性,又使得数据溯源变
得非常方便。
2. 8专题库
专题库在智慧城市的建设中起到了承上启下的作用。专题库根
据建设需求,构建人口、法人、房屋、网格、宏观经济等主体指标,
基于清洗之后的核心数据关联,结合U C矩阵的思想进行数据合并
和去重的处理,针对各个政务部门数据的权威性进行优先级的配置,
减少数据冲突,解决了数据的多义性,提升数据的准确性,是政务
数据清洗融合后按专题指标进行的集中展示,也力数据下一步使用
做好铺垫。
美容喷雾器
3结语
政务数据清洗融合系统的设计,运用大数据仓库、数据可视化、
保护膜印刷数据挖掘等前沿技术,对各个政务部门数据资源进行有效整合,针
对存在的问题,将大数据技术与政务业务相结合,提出了政务数据
清洗融合平台的设计框架,该框架紧密联系实际业务需求,优化了
数据的存储、抽取、加载过程,明确了数据流程走向,有助于建立
“用数据说话、用数据决策、用数据管理、用数据创新”的管理机
制[5],对智慧城市中的数据融合具有实践价值和参考意义。
参考文献
[1] 于施洋,王建冬,童楠楠•国内外政务大数据应用发展述评:
方向与问题⑴.电子政务,2016(01):2-10.
[2] 中国电子技术标准化研究院,全国信息技术标准化委负会.大
数据标准化白皮书[S].2018:1.
[3] 安小米,郭明军,魏玮,陈慧.大数据治理体系:核心概念、
动议及其实现路径分析U].情报资料工作,2018 (01): 6-11.
[4] 吴善鹏,李萍,张志飞.政务大数据环境下的数据治理框架设
计[J].电子政务,2019 (02): 45-51.
[5] 胡苏云,肖黎春.特大城市社会治理创新:城市功能疏解的视
角[J].城市发展研究,2016, 23 (12): 43-49.
作者简介
田淼( 1995-),男,吉林省长春市人。在读硕士研究生。研究方
向为高性能计算与大数据处理。
田继亮( 1993-),男,内蒙古自治区赤峰市人。大学本科学历。
研究方向为计算机科学与技术。
162

本文发布于:2024-09-23 09:28:32,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/105748.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   政务   融合   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议