信息采集系统解决方案

信息采集系统解决方案
一、WebCateCPS简介
WebCateCPS数字信息实时处理智能平台是用于自动获取大量实时数字信息,自动处理数字信息并提供采、编、发、全文检索,自动分类的智能平台。
WebCateCPS部分技术来源于国家高技术发展计划“863”项目和国家十五科技攻关计划,本系统采用先进的网页数字化定位技术、内容交互技术、智能分词、概念抽取、自动摘要和全文检索等多项技术,实现了数字信息数据的全方位,智能化的处理。
二、WebCateCPS的适用对象
合作伙伴:需要集成全文检索功能的OA系统、EIP系统、网站发布系统、内容管理、知识管理、企业(个人)文档管理系统等独立软件开发商。
最终用户:为有以下需求的企业或组织:
(1)内部资料分散,需提高知识利用率,提升自身竞争力的企事业单位、组织及政府机构;
(2)有站内检索功能需求的网站;特别是专业网站、中小型网站和企业网站;
(3)报社、电台、电视台、出版机构等媒体,图书馆、资料馆、档案馆等。
三、产品结构:
WebCateCPS数字信息实时智能处理平台由四个子系统组成:数据采集系统、信息编辑审核子系统,信息智能分类子系统与全文检索系统子系统。
a、数据采集系统:
WebCateCPS的数据采集子系统是整个智能处理平台的前端,核心功能包括对互联网实时信息,异构数据库、多种异质文件格式信息的获取和转换。数字采集子系统支持的文件及数据库格式如下:MS OFFICE、ADOBE PDF、ISO2709、Oracle、SqlServer、MySQl、Access 等。
b、信息编辑审核子系统:
WebCateCPS信息编辑审核子系统用于智能平台使用者进行信息录入、编辑审核、权限分配、手工分类、发布管理、批量删除、,定期备份等日常维护管理,该子系统具备小组协同工作机制和虚拟工作台的功能,可有效支持20人左右的编辑队伍。
c、信息智能分类子系统:
WebCateCPS智能分类子系统用于对格式化、非格式化文字信息的自动分类、自动标引,可高效率地协助编辑人员对海量文字资料的分类处理。智能分类子系统兼容多种文件格式,具备完备的词表管理、分词分类规则管理、分词分类算法管理、自动学习,效果评测等功能。
d、全文检索子系统:
WebCateCPS全文检索子系统为使用者提供海量信息快速查和信息发布的功能。该子系统支持对多种文档类型,支持自然语言检索,实现百万篇文档检索及显示速度在秒级,毫秒级。
四、数字信息采集子系统优势特点
(1)互联网信息采集模块
功能说明:
可实时定向采集各种互联网网站,包括采用JavaScript、用户名/密码验证、严格Session 控制技术的复杂网站,也包括大型论坛系统,图片、MP3网站等。该模块可完成网页页面的内容抽取,信息排重,格式还原,在线关键字过滤等功能。
优势特点:
采用“网页元素数字化定位技术”,对互联网网站采集精确,带宽占用小
独特的专业模版制作技术,可以采集超难超复杂的网站钢丝生产
里氏木霉国内唯一公开支持网站采集内容交互技术
支持网页操作智能代理技术
支持J2EE计算标准,系统运行稳定,可跨平台运行
支持世界上绝大多数语种网站采集
支持原文快照
支持通过代理服务器采集网站
具备相似度排重功能
支持多媒体文件(图片、MP3,ZIP)下载,且自动校验下载完整性,自动重试下载
(2)数据库记录采集的优势特点
功能说明:
该模块支持各种数据库记录的采集和索引创建,支持这些数据库的专有字段类型和操作,包括Oracle、SqlServer、MySql、DB2、Sybase、InfoMix、Access等数据库。该模块支持多个本地和远程数据库的并发操作,增量数据更新,可以在数据记录采集的同时标注或改变数据记录的分类属性.
优势特点:
支持主流数据库的所有特殊字段类型
支持超过1024个数据库的并发数据采集
(3)桌面文件内容萃取采集的优势特点
功能说明:
支持对文件系统中多种格式文件的信息加载。用户只需指定需提供被检索的文件目录,就可使用WebCateCPS的文件加载工具对大量格式文件进行批量加载。同时支持分类加载,可以定义一个或多个目录为同一个分类,在文件加载时完成分类映射。WebCateCPS支持的文件格式包括以下类型:MS Office系列、Text、Pdf、Html、Xml等。可以增加更多的格式支持(需要定制)
优势特点:
砂浆机
支持格式化电子文件的内容抽取
自动识别文件格式,支持混合电子文档批量装载,无须人工分离
(4)信息综合编辑平台的系统优势特点
功能说明:
蓝牙手咪
内容管理:提供对原始信息的编辑排版和新信息的录入,编辑功能强大,实现信息的图形界面可视化操作,系统融合强大的WebCateCPS的管理与检索功能,方便对各种格式的信息资源统一在线检索
文件管理:对加载文件实施文件搜索、删改、目录管理、可对文件名统一标注。
分类管理:使用者可以在自动分类的协助下完成“原始分类-自动标注分类-目标分类”的手工分类操作。
用户管理:用户的增、删、改,构建用户虚拟工作台实现系统“one to one”功能
权限管理:划分信息阅读、修改的权限分配及分类创建和修改的权限,也包括对角的定义和管理。
发布管理:设定信息发布模版,可以轻松统一定制网站的设计风格,保证页面美观,大大减轻系统维护的负担
优势特点:
系统操作与维护简单,有无专业知识均可轻松上手
具备文件编辑协同工作特性,避免信息的“脏读脏写”
具备信息发布实时上网特性,审核后的信息可立即发布
信息访问权限完备,信息访问的最小粒度可达到网页原始分类
信息编辑虚拟工作台可实现编辑状态的保存和调出,极大地方便编辑人员的工作
友好的图形编辑界面,类MS OFFICE的编辑风格
(5)信息智能分类子系统优势特点
功能说明
采用Markov(隐马尔科夫)模型+空间向量模型(SVM),实现信息概念抽取,提供精确的主题词统计,可完成格式与非格式化信息的自动分类
优势特点:
提供分类训练及评估工具,加强使用者管理类别及模板的能力
具备自我学习的功能,现有资料源可作为分类的参考模板
系统内置大量分词与分类词汇表,如:汉语次频统计表,专业中文语法库,地名表,中文姓氏表,停用词表等等。
具备完备的与自动分类库表管理界面:可以通过系统提供的分类库表管理界面维护各种词表库
光学增强器守卫在自动分类结果的界面上显示文章主题词与分类的匹配度
可自动分拣文章的主题词,并在文章中反红标注
用户可以通过管理界面自主选择分类算法方波信号发生器
支持树状结构的自动分类
(6)全文检索子系统优势特点
功能说明
WebCateCPS全文检索子系统可完成包括HTML,MS OFFICE,PDF,XML、数据库记录等异构异质信息的高速检索,实现丰富和强大的页面功能,如:全文索引的管理,多种检索条件的组合查询,检索结果的排序管理等。
优势特点
WebCateCPS采用了网景盛世专用于检索的中文智能分词技术,所有文本信息处理之前都经过分词;并采用Markov(隐马尔科夫)模型+空间向量模型(SVM),实现信息概念抽取,提供精确的关键词搜索。
WebCateCPS中文智能分词技术集成了优秀的歧义识别算法和未登录词(包括姓名、地名等)的识别算法,开放语料分词的准确率指标在国内处于领先地位,如搜索「成都」,会得到所有关于“成都”这个城市的相关结果,而不会搜索到「1千年前齐国在此建成都城」;检索「国花」,不会命中「美国花旗银行」
WebCateCPS采用网景盛世领先的中文自然语言处理技术,提供基于语义的检索。WebCateCPS全文
检索提供文本格式转换插件,目前可以支持word、excel、ppt、html、pdf 等常见格式的文档
支持主流的数据库,包括Oracle、SQL Server;支持主流的操作平台,包括Windows、Linux、Unix;
支持完备的码制,包括GB2312/GBK、BIG5、UTF8、GB18030、ISO8599-1,GB18030是续GB2312之后的关于汉字编码的国家标准,GB18030比Unicode优越之处在于与GB2312/GBK全面兼容。
WebCateCPS的Web搜索页面提供了丰富的搜索功能,包括关键字搜索、逻辑表达式搜索、自定义分类搜索、按相关度排序、自定义排序方式;搜索结果提供动态摘要、搜索关键字反显、在结果中搜索、搜索自动分页、原文快照、相关文档、描述性检索等功能。
支持跨平台的应用,支持各种主流的操作系统;
除了可对数据库进行联机备份外,还提供系统所有索引信息的联机备份
WebCateCPS提供组件化的功能模块,可以根据实际的业务流程,进行二次开发和个性化的定制。提供处理二次开发接口和应用实例,同时WebCateCPS为全文检索提供动态摘要接口;自动文摘接口;关键词提取接口;格式化文档原文提取接口;相关文档查询接口。
支持检索关键字命中高亮显示
支持检索信息权限划分

本文发布于:2024-09-21 11:13:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/214479.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分类   信息   支持   管理   自动
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议