(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910220419.0
(22)申请日 2019.03.21
(71)申请人 东南大学
号
(72)发明人 童蔚苹 张嘉旭 张悦 韦茵
(74)专利代理机构 南京众联专利代理有限公司
32206
代理人 许小莉
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 17/22(2006.01)
G06F 16/29(2019.01)
G06F 16/903(2019.01)
(54)发明名称基于Jieba分词及地址词库的地理编码方法和系统(57)摘要本发明公开了一种基于Jieba分词及地址词库的地理编码方法和系统。本发明的方法包括:步骤1:采集地址数据,建立地址数据库;步骤2:对用户输入的地址字符串进行分词;步骤3:进行两轮地址匹配与地址标准化;步骤4:将标准地址映射为地理坐标。本发明的系统包括:地址数据库,用于保存采集到的八级标准地址数据和其地理坐标;分词模块,用于将用户输入的地址字符串进行拆分;精确匹配模块,用于对拆分后的地址数组进行逐级精确匹配,并补全父级地址;模糊匹配模块,用于对未精确匹配的地址字符串进行模糊匹配,并完成地址的标准化;映射模块,用于将标准化的地址映射为地理坐标,并返回给用户。本发明算法简单易懂, 易于编程实现。权利要求书1页 说明书4页 附图3页CN 109933797 A 2019.06.25
C N 109933797
A
权 利 要 求 书1/1页CN 109933797 A
1.一种基于Jieba分词及地址词库的地理编码方法,其特征在于,该方法包括如下步骤:
步骤1:采集地址数据,建立地址数据库;
步骤2:对用户输入的地址字符串进行分词;
步骤3:进行两轮地址匹配与地址标准化;
步骤4:将标准地址映射为地理坐标。
2.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述的地址数据库分为为八级,分别为国家、省或直辖市、市、区县、乡镇或街道、道路片区、POI、详细说明,每一级的主码为其ID,外码为其父级的ID。
3.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述地址数据库中的记录按其词频和首字母排序。
4.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述对用户输入的地址字符串进行分词是利用Jieba分词的“精确模式”进行中文地址字符串分词,并利用Jieba分词的“自定义词典”,导入地址数据库中的词库,提高分词准确度。
5.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述两轮地址匹配包括:
第一轮精确匹配:遍历分词后地址数组,利用字符串判等规则与地址数据库中的地址记录逐级进行精确匹配,直到所能匹配的最低级为止,并以此逐级补全其所有父级地址。
第二轮模糊匹配:遍历第一轮未精确匹配的字符串,利用字符串编辑距离衡量相似程度进行模糊匹配,最后对匹配程度进行排序,选择相似度高的作为匹配结果。
6.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述两轮地址匹配过程中,利用父级匹配结果对下一级匹配产生约束。
7.一种基于Jieba分词及地址词库的地理编码系统,其特征在于,包括:
地址数据库,用于保存采集到的八级标准地址数据和其地理坐标;分词模块,用于将用户输入的地址字符串进行拆分;精确匹配模块,用于对拆分后的地址数组进行逐级精确匹配,并补全父级地址;模糊匹
配模块,用于对未精确匹配的地址字符串进行模糊匹配,并完成地址的标准化;映射模块,用于将标准化的地址映射为地理坐标,并返回给用户。
8.根据权利要求7所述的基于Jieba分词及地址词库的地理编码系统,所述映射模块将地址记录与其中心经纬度一一对应。
2