知识图谱(2)半结构化数据的知识抽取

水面曲线知识图谱(2)半结构化数据的知识抽取
1. 半结构化数据定义
萨纳克类似于百科、商品列表等那种本⾝存在⼀定结构但需要进⼀步提取整理的数据。
对于⼀般的有规律的页⾯,我们可以使⽤正则表达式的⽅式写出XPath和CSS选择器表达式来提取⽹页中的元素。
包装器是⼀个能够将数据从HTML⽹页中抽取出来,并且将它们还原为结构化的数据的软件程序。
使⽤它提取信息流程为:
2.百科类知识抽取
3. Web⽹页数据抽取:包装器⽣成
现在我们的⽬标⽹站是部分结构化的,如:
包装器归纳
切铝锯片借助基于有监督学习的⽅法,⾃动的从标注好的训练样例集合中学习数据抽取规则,⽤于从其他相同标记或相同⽹页模板抽取⽬标数据。
美发镜台
乳腺疏通精油
⾃动抽取
对于监督学习我们知道标注数据是它的短板,因此我们想到⾃动抽取的⽅法。⽹站中的数据通常是⽤很少的⼀些模板来编码的,通过挖掘多个数据记录中的重复模式来寻这些模板是可能的。
单相计数器

本文发布于:2024-09-22 10:27:41,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/190733.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   抽取   学习   提取   结构化   知识
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议