基于地名地址的政务数据空间化方法

第42卷第4期2019年7月
现 代 测 绘
Modern Surveying 
and MappingVol.42,
Jul.,2019
 项目来源:
江苏省测绘地理信息科研项目(JSCHKY201621) 第一作者简介:
李先波,高级工程师,研究方向为工程测量、GIS技术与应用、不动产测绘、地图编制。基于地名地址政务数据空间化方法
李先波1,陆藩藩2
(1.山东省地质矿产勘查开发局第五地质大队,山东泰安271021;
2.江苏省测绘研究所,江苏南京210098
)摘 要 政府部门在业务工作流程中产生了内容丰富的政务数据,需要对政务数据进行高效的空间化来满足共享与可视化展示需求。结合政务数据共享与交换现状,
挖掘政务数据的特征,分析地名地址的结构化内容,提出了基于位置准确、覆盖面广的地名与地址空间化方法基本流程。流程包括对政务数据进行地址信息提取分析和拆分、规范性预处理、地址分词、地址匹配,最终使政务数据具有空间坐标,实现由文本格式到电子地图的展示。该方法已在“
数字常州”规上企业等政务数据空间化中得到了应用。关键词 地名地址;政务数据;空间化方法
中图分类号:P208.2    文献标识码:A    文章编号:1672-4097(2019)05-0040-04
0 引 言
公安、环保、文物、水利、气象、教育和医疗等政府部门在业务工作流程中产生了内容丰富的政务数据。随着各级政府业务开展的同时,业务数据积
累得越来越多,部门之间存在“信息孤岛”
[1]
。国务院在《促进大数据发展行动纲要》(国发[2015]50号)明确提出“推动政府数据开放共享”。随着信息公开的主动性需求增加,政府部门迫切需求共享、利用这些政务数据。
在数字城市中,许多部门需要将信息展示到电子地图上,如经信委需要展示规上企业信息,国土部门需要将招拍挂过程信息跟地块关联展示,政府统计年鉴要以多种形式展示在电子地图上。通过一张地图汇聚展示城市政务信息,要求这些信息具备几何坐标。使非空间化信息具备几何坐标的过程即为空间化。从非空间化信息到空间化信息的转换,需要一个桥梁作为定位点。以前业务数据空间化的定位通常选用各级政府驻地点为基准,一方面过于笼统,并没有代表信息产生的真正位置,另一方面造成信息集中在几个点位,展示效果差。如何解决政务数据与空间信息的关联,实现政务数据
的空间化,成为当前研究的一个热点[
2]
。随着数字城市框架数据的建设,位置准确、覆盖面广的地名与地址数据可成为政务数据空间化的重要定位工具。本文提出的方法是对政务数据进行地址信息提取分析和拆分、规范性预处理、地址分词等一系列操作,利用结构化的地名、地址为基准进行匹配,使政务数据具有空间位置,实现由
文本格式到电子地图的展示。该方法不仅提高匹配效率,而且使空间化的位置结果更加精准。
1 政务数据特征
本文的政务数据指政府职能部门在业务工作过程中产生的数据。主要按部门划分和管理,如地方政府发布的统计年鉴报告;食品药品监管部门的安全与检测等信息;水利普查水源水质保护水源涵养区、生物多样性保护区、湿地生态系统、保护水文、水资源等。
政务数据不仅具备数据规模大、处理速度快、数据类型多等特点,还具备完整性、连续性、原始
性、真实性[
3]
。在集成展示时应考虑:(1)典型的非空间数据。数据以Excel图表或
文本的格式保存,内容丰富专业,数据量大,无坐标,但是包含关于位置的信息。可通过此位置信息,借助空间化手段获得精准的坐标值。
(2
)数据单独存放在各个部门。部门间信息未实现高度共享,对同一事物的描述可能存在差异。对位置信息的描述无法统一,出现诸如“路东”“路北20m”之类的描述,增加了空间化的复杂度。(3
)不同的部门,密级程度不同。针对数据密级程度及应用方式的不同,有些数据可以直接通过互联网向公众发布,有些则只能在政务专网内发布。需要对数据进行不同程度的加密。
2 地名地址分析
地名地址是数字城市框架数据的五类数据之一,包含自然村上的行政地名以及丰富的地址,其
空间坐标信息经过内外业核查,具有准确性特点,能够成为政务数据空间化的基准。
2.1 地名地址的结构
地名地址通常是结构化的对空间点位的描述,<结构化地名地址>=<行政区域名称>[基本区域限定物名称][局部点位置描述][4]。可将地名地址拆分成此标准结构(表1)。
2.2 地名地址属性内容
地名地址属性包括名称、行政区名称、街路巷名称、村组名称、功能区名称、楼栋门牌号、单元号等。所有地名地址结构化描述信息都被拆分至属性表中(表2),信息的完整度决定了匹配的效率。
表1 地名地址结构化示例
名称举例
地名地址
江苏省常州市武进区奔牛镇华山
中路98号玫瑰小区5号楼3单元
101室
EVA气味很重怎么办行政区域名称江苏省常州市武进区奔牛镇
基本区域限定物名称华山中路98号玫瑰小区
局部点位置描述5号楼3单元101室
表2 地名地址属性内容
英文名称中文含义举例1举例2举例3
NAME所在地址的结构化描述
信息
山东省泰安市泰山区泰
前街道御碑楼路67号国
华经典小区5幢楼3单
元609室
江苏省常州市武进区奔
牛镇华山广场
江苏省常州市武进区
前黄镇谭庄村十二组
80号
ADMIN行政区划代码370902003 320412122 320412113
PRONAME省级行政区名称山东省江苏省江苏省
CITNAME地区级行政区名称泰安市常州市常州市
COUNAME县级行政区名称泰山区武进区武进区
TOWNAME乡级行政区名称泰前街道奔牛镇前黄镇
阉母鸡RDNAME街路巷名称御碑楼路
DRPLATE街路巷门牌号67号
VILNAME村组名称谭庄村十二组DISTNAME功能区名称国华经典小区华山广场
DRPLATE2楼栋门牌号5幢楼80号CELID单元号3单元
ROOMID房间号609室
3 空间化方法基本流程
3.1 总体思路
地址编码是将自然语言描述的地址位置信息,根据既定地址模型和编码规则进行识别和解析与对应的空间坐标信息或地理编码相关联的过程[5]。由政务数据中的地址或者表示地址性质关键字属性来匹配空间化的地名或地址数据,获取该数据的空间性。其中,地址及关键字的规范化是提高匹配效率的关键(图1)。
3.2 地址提取分析
以公安部门的政务信息为例,人员信息包括住址与服务场所两个匹配属性;接处警信息、案事件信息数据中包含了地址描述;重点单位、经文保单位等包含了地址和单位名称;涉毒、涉恐、涉疆、涉藏人员匹配属性为所属派出所和所属分局。分析其位置信息,以哪个属性为主来进行地名地址匹配,需要结合数据情况和需求(表3)。
3.3 匹配属性预处理
日常生活中的地名、地址复杂多样,有些指向性不明,有的表述不一致。常见的地址错误有以下几类:描述残缺、信息笼统、同音字错误等。需要在匹配前对地名地址进行预处理时,对于一些简化的称呼保证其完整性与标准化,修正明显错误,全半角统一到半角状态,简化冗余的信息(表4)。
第4期李先波等:基于地名地址的政务数据空间化方法
图1 空间化方法基本流程
3.4 地址分词
通过分词将地址信息串分解为多个地址关键词组。例如,将“江苏省常州市武进区奔牛镇华山中路98号玫瑰小区5号楼3单元101室”分解为“江苏省”“常州市”“武进区”“奔牛镇”“华山中路”“98号”“玫瑰小区”“5号楼”“3单元”“101室”,以便于与地名地址进行匹配。
地址分词的成熟方法:基于字典的分词方法、
基于理解的分词方法、基于统计的分词方法[
6]
。结合这些方法的特点,本文中的地址分词主要采用程序处理为主、人工干预为辅的方式,即通过分词关键字,如“村”“镇”“路”“街”“广场”“小区”等,将这些关键字关联主体名称后逐层进行拆分,添加到对应的内容中(表5
)。此方式存在重复操作,但是将人工判读提前介
入到分词成果,可提高分词的正确性。
表3 可匹配属性分析
业务数据匹配属性1
匹配属性2说明
人员信息住址服务场所以住址为主要匹配属性,如果住址为空那么可定位到服务场所监控人员轨迹活动场所1
风机盘管电机活动场所2实际操作时,以时间顺序为匹配顺序,以活动场所来扩展人员记录,
一个人员对应多个点的关系
接处警信息地址所属分局以接处警的地址为主要匹配属性,以接警单位为辅助匹配属性案事件信息
地址
所属派出所
以案件发生地址为主要匹配属性,
以所属派出所为辅助匹配属性表4 常见的不规范的地址示例
类型
错误地址(不规范)
正确处理
描述残缺
邹区新街十字路口向北50m邹区镇新街邹区灯具城向西一公里邹区镇宏大灯具城
中源大厦A座2-12
延政中大道100号中源大厦A座2-12号周巷头141-1前黄镇周巷头141-1号朱明桥5奔牛镇朱明桥5号宗家塘50宗家塘50号郑村190
郑陆镇郑村190号信息笼统邹区灯城旁边
邹区镇宏大灯具城同音字错误周区镇工业大道116号邹区镇工业大道116号表述不一致遥观镇工业大道东2号遥观镇工业大道2号全半角不一致西门外常新路120号常新路120号信息冗余
震坂路虎渡桥北首
震坂路虎渡桥
表5 分词功能命令示例
功能命令
取出“镇”后字符Mid([ADDNAME],(InStr(1,[ADDNAME],“镇”,vbTextCompare))+1)取出“镇”前字符
left([ADDNAME],(InStr(1,[ADDNAME],“镇”,vbTextComp
are)))2
4现 代 测 绘     
第42卷
3.5 地址匹配
利用分词结果与结构化的地名地址进行地址匹配,在此也可进行必要的人工干预。对于无法进行匹配
的信息,可经由外业部门实地验证或业务部门专业验证。
4 方法应用
在“数字常州”中,利用本方法将规上企业的3 638条记录(xls格式)进行空间化,结果是:有3 
237条记录获得空间坐标值,成功率为88.9%(
表6)。表6 规上企业信息表(部分记录与内容)
企业名称详细地址
行业代码主要产品结果常林股份有限公司常林路10号五星街道新农社区居委会
3513装载机生产成功武进大宇纺织器材公司延政西路
3521炼油、化工生产专用设不成功常柴股份有限公司常州市钟楼区怀德中路123号
3412柴油发动机生产成功江苏润利锅炉有限公司
工业集中区
3461
制造业、烘炉
不成功
  空间化后的规上企业在电子地图上的效果如
图2,每个点代表一个企业的空间位置,位置精度与地名地址保持一致。无法空间化的记录为401条,这些企业在“详细地址”一项描述不具体,如工业集中区、开发区、延政西路等,这类数据应由主管部门或外业重新核查详细信息后,再次空间化
图2 规上企业的空间化效果
5 结 语
美甲片基于地名地址的政务数据空间化方法已经应用于多个数字城市政务数据空间化,政务数据的多源性使信息存在不规范,如果政务数据在产生初期制定相应规则,可减少预处理工作量,提高匹配效率。本方法可为政务数据之外的其他数据空间化方
面提供参考,
为数字城市基于一张图信息汇聚提供技术支撑。接下来考虑完善和细化地名地址的内容与颗粒,扩充道路名和其他约定的空间描述为地名地址的类型,进一步提升地址匹配效率。
参考文献
[1] 闫丰.
政务部门数据交换共享方式对比[J].电子技术与软件工程,2018(15):165.
[2] 张建英,
刘高.地理实体与政务专题数据关联融合方式研究[J].城市勘测,2018(04):25-28.
[3] 张克诚.政务大数据浅析[J].智富时代.2016(S2):176.[4] 国家测绘地理信息局.
地理信息公共服务平台地理实体与地名地址数据规范[S].北京:国家测绘地理信息局,2011.
[5] 蒋文明,
张雪英,李伯秋.基于条件随机场的中文地址要素识别方法[J].计算机工程与应用,2010,46(13):129-131.
[6] 唐籍涛,
李飞,郭昌松.网络舆情监控中新词识别问题的研究[J].计算机技术与发展,2012,22(1):119-121.
Spatialization Method of Government Data Based on Geograp
备长炭粉hic Name and AddressLI Xian-bo1,LU Fan-
fan2
(1.No.5Exploration Institute of Geology and Mineral Resource,Taian Shandong 
271021,China;2.Jiangsu Provincial Research Institute of Surveying and Mapping,Nanjing 
Jiangsu 210098,China)Abstract Government departments produce abundant government data in their business workflow,which need to be spatializedefficiently to meet the needs of sharing and visualization.Based on the current situation of sharing and exchanging 
governmentdata,this paper excavates the characteristics of government data,analyses the structural content of geographic name andaddress,and proposes a basic flow of spatialization method of geograp
hic name and address based on accurate location and widecoverage.The flow includes extracting,analyzing and splitting address information from government data,standardizedpreprocessing,address segmentation and address matching,it makes government data have spatial coordinates,and realize thedisplay from text format to electronic map.This method has been applied in the spatialization of government enterprises data in“Digital Chang
zhou”.Key 祛痘灵
words geographic name and address;government data;spatialization3
4第4期
李先波等:基于地名地址的政务数据空间化方法

本文发布于:2024-09-21 13:48:37,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/210534.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:地址   数据   信息   空间   政务   地名   匹配   名称
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议