利用网页结构抽取双语词条的方法及设备[发明专利]

专利名称:利用网页结构抽取双语词条的方法及设备专利类型:发明专利
发明人:刘秋阁,方高林
申请号:CN200910204804.2
申请日:20091014
公开号:CN102043808A
公开日:
20110504
专利内容由知识产权出版社提供
摘要:本发明公开了一种利用网页结构抽取双语词条的方法,包括:根据预设的种子词条在搜索引擎中搜索相关网页并保存;提取所述种子词条在所述网页中出现的格式,并在所述网页中提取与所述种子词条具有相同格式的其他双语词条。本发明中,通过利用预设的种子词条在搜索引擎中搜索相关网页并保存,然后提取种子词条在搜索到的网页中出现的格式,并在搜索到的网页中提取与种子词条具有相同格式的其他双语词条,从而提高网页中双语词条的抽取效率。
申请人:腾讯科技(深圳)有限公司
地址:518057 广东省深圳市福田区振兴路赛格科技园2栋东403室
国籍:CN
代理机构:北京鑫媛睿博知识产权代理有限公司
代理人:龚家骅

本文发布于:2024-09-20 15:27:15,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/434918.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:词条   网页   种子   知识产权   专利   搜索   广东省
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议