专利类型:发明专利
发明人:李成名,沈建明,印洁,洪志远,武鹏达,杜中波,刘丽,孙隆祥
申请号:CN201710517421.5
申请日:20170629
公开号:CN107368471A
公开日:
20171121
专利内容由知识产权出版社提供
摘要:本发明公开了一种网页文本中地名地址的提取方法,包括以下步骤:由单个地名地址要素或若干个地名地址要素的组合形成地名地址基因,并据此构建地名地址基因库;依据地名地址基因库对网页文本中的网页信息进行中文分词,获取网页信息中出现的事件;建立事件相关度、地名地址的字符长度、地名地址在文中出现的次数的提取因子组成的提取规则树,完成对网页文本中地名地址的完整识别与提取。本发明通过构建地名地址基因库并改进分词算法提高网页文本中地名地址识别的准确性与连贯性;通过考虑地名地址的事件属性,构建地名地址事件相关度、字符长度等因子组成的提取规则树,提高网页文本中地名地址识别的效率与实用性。
申请人:中国测绘科学研究院
地址:100830 北京市海淀区莲花池西路28号
国籍:CN
代理机构:北京华仲龙腾专利代理事务所(普通合伙)
代理人:李静