1. 半结构化数据定义
萨纳克
类似于百科、商品列表等那种本⾝存在⼀定结构但需要进⼀步提取整理的数据。对于⼀般的有规律的页⾯,我们可以使⽤正则表达式的⽅式写出XPath和CSS选择器表达式来提取⽹页中的元素。
包装器是⼀个能够将数据从HTML⽹页中抽取出来,并且将它们还原为结构化的数据的软件程序。
使⽤它提取信息流程为:
2.百科类知识抽取
3. Web⽹页数据抽取:包装器⽣成
现在我们的⽬标⽹站是部分结构化的,如:
包装器归纳
切铝锯片
借助基于有监督学习的⽅法,⾃动的从标注好的训练样例集合中学习数据抽取规则,⽤于从其他相同标记或相同⽹页模板抽取⽬标数据。美发镜台
乳腺疏通精油
⾃动抽取
对于监督学习我们知道标注数据是它的短板,因此我们想到⾃动抽取的⽅法。⽹站中的数据通常是⽤很少的⼀些模板来编码的,通过挖掘多个数据记录中的重复模式来寻这些模板是可能的。
单相计数器