一种网页文本中地名地址的提取方法[发明专利]

专利名称:一种网页文本地名地址提取方法
专利类型:发明专利
发明人:李成名,沈建明,印洁,洪志远,武鹏达,杜中波,刘丽,孙隆祥
申请号:CN201710517421.5
申请日:20170629
公开号:CN107368471A
公开日:
20171121
专利内容由知识产权出版社提供
摘要:本发明公开了一种网页文本中地名地址的提取方法,包括以下步骤:由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因,并据此构建地名地址基因库;依据地名地址基因库对网页文本中的网页信息进行中文分词,获取网页信息中出现的事件;建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树,完成对网页文本中地名地址的完整识别与提取。本发明通过构建地名地址基因库并改进分词算法提高网页文本中地名地址识别的准确性与连贯性;通过考虑地名地址的事件属性,构建地名地址事件相关度、字符长度等因子组成的提取规则树,提高网页文本中地名地址识别的效率与实用性。
申请人:中国测绘科学研究院
地址:100830 北京市海淀区莲花池西路28号
国籍:CN
代理机构:北京华仲龙腾专利代理事务所(普通合伙)
代理人:李静

本文发布于:2024-09-23 15:31:01,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/459014.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:地名   地址   网页   文本   提取   专利   事件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议