动态网页生成方法和装置、提取结构化数据的方法和装置[发明专利]

专利名称:动态网页生成方法和装置、提取结构化数据的方法和装置
专利类型:发明专利
发明人:俞益琴,肖文鹏,迟长燕,赵石顽
申请号:CN200810093493.2
申请日:20080429
公开号:CN101571860A
公开日:
20091104
专利内容由知识产权出版社提供
摘要:本发明公开了一种动态网页生成方法和装置、以及从动态网页中提取结构化数据的方法和装置。根据本发明的动态网页生成方法包括:分析源代码以生成句元流;根据语法规则对句元流进行匹配,以到匹配的源代码块;以及对匹配的源代码块添加相应类型的元信息。根据本发明的从动态网页中提取结构化数据的方法包括下列处理步骤中的至少一个:根据HTTP响应中的网页布局元信息将网页内容划分成多个片段并将噪声片段去除;根据HTTP响应中的结构流元信息检测网页内容中包含的有用信息的重复模式,以便提取所述有用信息;以及根据HTTP响应中的程序对象元信息对网页内容进行解析并提取最小语义单位的数据。
申请人:国际商业机器公司
地址:美国纽约
国籍:US
代理机构:北京集佳知识产权代理有限公司

本文发布于:2024-09-20 17:43:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/427774.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信息   方法   网页   提取   网页内容   动态   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议