...Jieba分词及地址词库的地理编码方法和系统【专利】

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910220419.0
(22)申请日 2019.03.21
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼2
(72)发明人 童蔚苹 张嘉旭 张悦 韦茵 
(74)专利代理机构 南京众联专利代理有限公司
32206
代理人 许小莉
(51)Int.Cl.
G06F  17/27(2006.01)
G06F  17/22(2006.01)
G06F  16/29(2019.01)
G06F  16/903(2019.01)
(54)发明名称基于Jieba分词及地址词库的地理编码方法和系统(57)摘要本发明公开了一种基于Jieba分词及地址词库的地理编码方法和系统。本发明的方法包括:步骤1:采集地址数据,建立地址数据库;步骤2:对用户输入的地址字符串进行分词;步骤3:进行两轮地址匹配与地址标准化;步骤4:将标准地址映射为地理坐标。本发明的系统包括:地址数据库,用于保存采集到的八级标准地址数据和其地理坐标;分词模块,用于将用户输入的地址字符串进行拆分;精确匹配模块,用于对拆分后的地址数组进行逐级精确匹配,并补全父级地址;模糊匹配模块,用于对未精确匹配的地址字符串进行模糊匹配,并完成地址的标准化;映射模块,用于将标准化的地址映射为地理坐标,并返回给用户。本发明算法简单易懂,
易于编程实现。权利要求书1页  说明书4页  附图3页CN 109933797 A 2019.06.25
C N  109933797
A
权 利 要 求 书1/1页CN 109933797 A
1.一种基于Jieba分词及地址词库的地理编码方法,其特征在于,该方法包括如下步骤:
步骤1:采集地址数据,建立地址数据库;
步骤2:对用户输入的地址字符串进行分词;
步骤3:进行两轮地址匹配与地址标准化;
步骤4:将标准地址映射为地理坐标。
2.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述的地址数据库分为为八级,分别为国家、省或直辖市、市、区县、乡镇或街道、道路片区、POI、详细说明,每一级的主码为其ID,外码为其父级的ID。
3.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述地址数据库中的记录按其词频和首字母排序。
4.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述对用户输入的地址字符串进行分词是利用Jieba分词的“精确模式”进行中文地址字符串分词,并利用Jieba分词的“自定义词典”,导入地址数据库中的词库,提高分词准确度。
5.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述两轮地址匹配包括:
第一轮精确匹配:遍历分词后地址数组,利用字符串判等规则与地址数据库中的地址记录逐级进行精确匹配,直到所能匹配的最低级为止,并以此逐级补全其所有父级地址。
第二轮模糊匹配:遍历第一轮未精确匹配的字符串,利用字符串编辑距离衡量相似程度进行模糊匹配,最后对匹配程度进行排序,选择相似度高的作为匹配结果。
6.根据权利要求1所述的基于Jieba分词及地址词库的地理编码方法,其特征在于,所述两轮地址匹配过程中,利用父级匹配结果对下一级匹配产生约束。
7.一种基于Jieba分词及地址词库的地理编码系统,其特征在于,包括:
地址数据库,用于保存采集到的八级标准地址数据和其地理坐标;分词模块,用于将用户输入的地址字符串进行拆分;精确匹配模块,用于对拆分后的地址数组进行逐级精确匹配,并补全父级地址;模糊匹
配模块,用于对未精确匹配的地址字符串进行模糊匹配,并完成地址的标准化;映射模块,用于将标准化的地址映射为地理坐标,并返回给用户。
8.根据权利要求7所述的基于Jieba分词及地址词库的地理编码系统,所述映射模块将地址记录与其中心经纬度一一对应。
2

本文发布于:2024-09-20 22:46:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/420844.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:地址   匹配   进行   分词   字符串   词库   地理
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议