领域知识库构建及信息检索系统

领域知识库构建及信息检索系统
系统源码及原⽂免费下载地址请访问:
⼀、 系统简介
通过对⽹络爬⾍⼯具的设置并扩展,⾃动抓取⾏业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调⽤信息抽取模块和信息去噪模块,提取语料库中pdf、doc、ppt、html、excel、txt及专利等⽂件中的内容信息,并将抽取的信息进⾏去噪处理,去除标签、乱码、页眉和页脚等⽆⽤信息,同时确保有⽤信息被完整保留。在完成语料预处理后进⾏知识挖掘,⾸先基于领域词典,对去噪处理后的信息进⾏分词、词汇统计分析,最终出领域单词概念和组合概念,同时记录语料中包含领域概念的语句,并基于规则抽取核⼼语句中领域概念间的关系,通过本体的推理,形成此⽂档的概念知识关系⽹,并保存为xml语法格式,存⼊数据库。在此基础上通过对识别的领域概念和核⼼语句的精炼,提取出⽂档的关键词(1-3个)和摘要信息(3句左右)。基于关键词和摘要信息对⽂档进⾏⾃动分类,并在以后信息更新时,保持聚类结果的相对稳定。分析完相关的语料资料后,⽣成整个⽹站的概念知识⽹,并将挖掘出的知识建⽴语义索引库。
⽤户使⽤该系统时,⽀持⽬录导航、相关概念、扩展概念和语义查询。⽬录导航:显⽰系统⾃动聚类的特定领域的层次结构信息,每个节点后显⽰节点下的⽹页或⽂档资源的个数,并⽀持图形化显⽰。语义
如何当好一把手查询:⽀持⽤户对关键词、词组和简单语句的查询,通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,同时通过本体推理,出相关概念和扩展概念并能显⽰出来。
⼆、 系统架构图
图1、系统架构图
三、 系统数据处理流程图
图2、系统主要模块间关系图
图3、语义索引库构建流程图
图4、信息检索数据流程图
四、 系统模块设计
编号名称⼈员分配备注
G2*******F01系统页⾯开发设计并开发
G2*******F02⽹络爬⾍升级完善
H无穷控制LMIG2*******F03信息提取重点
G2*******F04信息去噪难点
G2*******F05智能分词升级完善
G2*******F06领域概念识别重点
G2*******F07概念间关系抽取重点、难点
G2*******F08⽂档关键词抽取重点、难点
G2*******F09⽂档⾃动摘要重点、难点
G2*******F10⽂档⾃动分类重点、难点
vip客户管理
G2*******F11语料管理模块⼯作量较⼤
G2*******F12知识提取库重点、难点
G2*******F13语义索引库重点、难点
编号名称⼈员分配备注
L20111025S1信息检索模块升级完善
L20111025S2检索结果优化升级完善
L20111025S3⽹状信息可视化显⽰重点
L20111025S4统计信息可视化显⽰重点
编号名称⼈员分配备注
L20111025Y1互联⽹资源较简单
L20111025Y2领域词典⼯作量较⼤
L20111025Y3领域本体重点
L20111025Y4⽬录导航体系难点、要点
五、 系统各模块具体分⼯情况
(1) 系统页⾯开发
G2*******F01
系统页⾯开发
leach算法描
系统操作的平台
功能合理布局,设置系统各项功能相应按钮、信息展⽰框。
整体布局拟采⽤左、中、右三栏结构,主要栏⽬包括:语义检索、资源分布图、本体知识图等。
格式
存储
输出
接⼝
难点
分⼯贾婷负责搜集、调研互联⽹同类⽹站(包括相关智能搜索引擎、专家系统和⾏业重要⽹站),栾勇设计⾸页整体布局和栏⽬设置,最终在doc中采⽤表格或其他形式描述出来。
(2) ⽹络爬⾍
G2*******F02
可再生能源电力配额管理办法
⽹络爬⾍
对Heritrix⽹络爬⾍⼯具的功能进⾏合理扩展利⽤。
功能扩展升级已有⽹络爬⾍⼯具,⽐如添加能够抓取特定前缀的URL、抓取含有特定关键字的⽹页等功能。
格式
存储
输⼊起始⽹址、摘要、前缀、关键词、抓取链接层数、抓取时间、抓取⽹页个数、抓取全部或只抓取更新等等
抓取的互联⽹⽹页信息
备注更新抓取时为识别信息是否为新信息,需要在知识提取库或索引库设置相应字段记录。
(3) 信息提取
G2*******F03
信息提取
描述提取⽹络爬⾍抓取的各类⽹页⽂件和doc、docx、pdf、ppt、txt等⽂本⽂件内容。注意调⽤pdf⽂件内容提取程序(已有)时,当pdf为扫描版或软件识别版,可能会出错,要出原因,同时注意当⽂档内容分栏或有插图、插表时的提取结果,设法提⾼准确性。
hipihi功能
(4) 信息去噪
G2*******F05
信息去噪
去除抽取信息中的⼲扰字符,同时尽量确保有⽤信息完整保留
功能实现信息去噪算法,归纳总结各种类型⽂件抽取内容的特点,以句⼦为单位,去除空格、页眉、页脚、页码、乱码和其他杂乱符号;归纳总结并识别出⽂件中各级标题的特点
⽂件内容抽取结果
以句⼦为单位输出
去噪算法
去噪算法应当多花时间,防⽌过多有⽤信息也被去除。

本文发布于:2024-09-24 14:27:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/36449.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信息   概念   领域   抓取
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议