...大数据技术的全球智库数据开发与组织方法【专利】

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910188355.0
(22)申请日 2019.03.13
(71)申请人 重庆尚唯信息技术有限公司
地址 401144 重庆市渝北区人和街道黄山
大道5号第16层
(72)发明人 姜开学 邓代海 魏姚 
(74)专利代理机构 重庆启恒腾元专利代理事务
所(普通合伙) 50232
代理人 赵晨宇
(51)Int.Cl.
G06F  16/90(2019.01)
G06F  16/906(2019.01)
G06F  16/903(2019.01)
(54)发明名称
一种基于大数据技术的全球智库数据开发
与组织方法
(57)摘要
本发明涉及数据开发与组织技术领域,尤其
涉及一种基于大数据技术的全球智库数据开发
与组织方法;方法包括如下步骤:通过Web信息采
集系统对智库的数据进行自动化采集,并形成字
段信息;通过对字段的定义和所描述对象的属
性,形成一批相同类型的数据,对该类数据进行
组织;创建数据体之间的关系;通过大数据处理
技术,对这些数据进行预处理,使其成为有用的
成品数据;通过关联挖掘技术和聚类挖掘技术寻
成品数据中数据项之间的关联关系,从大量的
数据中出隐藏的信息;通过可视化技术对数据
进行展示,把数据隐藏的信息规律直观的展示出
来;实现了技术的实质性提升,在先进性、新颖
性、智能性、
直观性等方面有着独特优势。权利要求书3页  说明书7页  附图3页CN 109933693 A 2019.06.25
C N  109933693
A
权 利 要 求 书1/3页CN 109933693 A
1.一种基于大数据技术的全球智库数据开发与组织方法,其特征在于,所述方法包括如下步骤:
根据智库机构、智库动态、研究专家、研究成果,通过Web信息采集系统对智库的数据进行自动化采集,并形成不同的字段信息;
通过对字段的定义和所描述对象的属性,并以关系型数据库建立的表结构为基础,形成一批相同类型的数据,对该类数据进行组织;进而创建数据体之间的关系;
根据数据体之间的关系,将数据主要分为结构化数据、半结构化数据和非结构化数据,通过大数据处理
技术,对这些数据进行预处理,所述预处理包括数据清洗、数据集成、数据变换以及数据归约,使其成为有用的成品数据;
通过关联挖掘技术和聚类挖掘技术寻成品数据中数据项之间的关联关系,让同类型的资源集中展示,深度挖掘出同类型资源的聚集效应,从大量的数据中出隐藏的信息;
通过可视化技术对数据进行展示,把数据隐藏的信息规律直观的展示出来,能够迅速和有效地简化与提炼数据流,使我们能够交互筛选大量的数据,完成数据分析。
2.根据权利要求1所述的方法,其特征在于,
所述智库机构的字段信息包括智库名称、智库排名、智库简介、所属成果、所属专家、;
所述智库动态的字段信息包括标题、日期、正文、图片、作者、来源、地址;
所述研究专家的字段信息包括姓名、照片、所属机构、职务、职称、个人简历、研究领域、研究成果;
所述研究成果的字段信息包括标题、日期、作者、所属机构、成果类型、关键词、摘要、全文。
3.根据权利要求1所述的方法,其特征在于,进而创建数据体之间的关系,包括:研究专家关联到智库机构,智库动态关联到智库机构,研究成果关联到对应专家,形成完整的关系网络。
4.根据权利要求1所述的方法,其特征在于,所述数据清洗的步骤包括:数据分析、定义清洗规则、执行清洗规则以及清洗结果验证;
所述数据分析通过相关知识,应用统计学,数据挖掘的方法,分析出数据源中数据的特点,为定义数据清洗规则奠定基础;
所述定义清洗规则包括空值的检查和处理,非法值的检测和处理,不一致数据的检测和处理,相似重复记录的检测和处理;
所述执行清洗规则通过检查拼写错误,去掉重复的记录,补上不完全的记录,解决不一致的记录;
所述清洗结果验证通过对定义的清洗转换规则的正确性和效率进行验证和评估,当不满足清洗要求时,对清洗规则或系统参数进行调整和改进。
5.根据权利要求1所述的方法,其特征在于,所述数据集成包括:
收集所述数据清洗后的数据,根据众多不同智库数据的来源,对智库机构、研究专家、成果类型建立统一的数据仓库,每个仓库存储对应数据,从而实现数据的集成;
通过在数据集成前进行调研,确认每个字段的实际意义,避免被不规范的命名误导,从而解决字段意义问题;
2

本文发布于:2024-09-21 05:35:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/787893.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   智库   清洗   包括   技术   信息   进行
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议