一种基于大数据的数据分析方法[发明专利]

(10)申请公布号
(43)申请公布日              (21)申请号 201510036086.8
(22)申请日 2015.01.23
G06F 17/30(2006.01)
(71)申请人四川中科腾信科技有限公司
地址610041 四川省成都市高新区天府大道
中段1号1栋209单元1层6号
(72)发明人谢叔阳
(74)专利代理机构北京天奇智新知识产权代理
有限公司 11340
代理人
杨春
(54)发明名称
一种基于大数据的数据分析方法
(57)摘要
本发明提供了一种基于大数据的数据分析方
法,该方法包括:接收用户定义的数据挖掘过程
组件信息,实现图形化的数据流程处理;生成
符合Hadoop 规范的代码,然后将用户定义的数据
挖掘过程模型转换成可在Hadoop 上运行的代码;
将数据挖掘组件连接起来构成数据挖掘过程;以
Hadoop 提供的框架作为数据挖掘过程执行平台,
向执行框架提交代码,运用云平台的并行计算能
力实现挖掘过程的并行化。本发明通过定义组件
模型,使用户快速定义和可视化定义数据挖掘过
程;实现了对多种数据存储系统的数据访问。(51)Int.Cl.
(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页  说明书4页  附图1页
(10)申请公布号CN 104573063 A (43)申请公布日2015.04.29
C N 104573063
A
1.一种基于大数据的数据分析方法,用于对大数据进行挖掘与分析,其特征在于,包括:
通过可视化的界面接收用户定义的数据挖掘过程,并配置相关的组件信息,实现图形化的数据流程处理;生成符合Hadoop规范的代码,用户通过参数配置界面配置需用户定义的参数;然后将用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码,该转换包括过程模型分析、依赖关系分析、代码模板解析;将数据挖掘组件连接起来构成数据挖掘过程,所述数据挖掘组件封装不同的数据操作逻辑,分成数据挖掘算法组件、连接器组件、用户自定义组件;以Hadoop提供的框架作为数据挖掘过程执行平台,向执行框架提交代码,运用云平台的并行计算能力实现挖掘过程的并行化。
2.根据权利要求1所述的方法,其特征在于,还包括:
用户通过数据挖掘过程模型组件来定义符合过程逻辑模型的数据挖掘过程,并实现逻辑模型到物理模型的转换,挖掘过程中的每一步数据操作被抽象成一个数据操作节点,称为逻辑节点,通过解析逻辑节点的输入输出信息、用户配置参数、节点对应的系统组件元信息来构建物理过程模型,逻辑模型经过系统的后台解析转换成物理模型后才能执行;
用户通过模型的图形化方式来实现逻辑模型的定义,数据挖掘过程包括数据收集、数据预处理、数据挖掘和结果展示,其中在数据收集中定义一个或多个数据来源,并在执行过程中完成数据提取工作,通过定义不同的连接器组件来实现对不同数据源的数据提取;在数据预处理中包括数据清理、数据集成和数
据选择,定义过滤、正则匹配组件来实现预处理;运用数据挖掘算法对经过预处理的数据执行挖掘算法,最后将执行结果以数据或图表的形式展示给用户。
3.根据权利要求2所述的方法,其特征在于,还包括:利用代码生成引擎完成从逻辑模型到可由执行框架执行的可执行代码的转换过程,该转换分成模型解析与代码生成;
所述模型解析包括解析逻辑模型,根据数据挖掘过程模型定义的节点信息来划分操作子流程,以数据挖掘操作节点为划分点,以子流程构造任务集,并根据流程的连接顺序来定义子流程之间的依赖关系;
所述代码生成,根据以上模型解析得到的子流程以及依赖关系生成代码,数据挖掘组件接收与其相连组件的输入输出类型信息,根据输入输出类型信息和组件代码模板,生成相应的代码,并将处理后的输出按照输出模式存储,其中组件模型包含组件ID、代码模板、用户定义参数类与组件元信息,组件ID用于标识组件的唯一性;代码模板包括了与执行平台相关的模板信息;用户自定义参数类是用户输入的参数;组件描述元信息包含组件描述、可视化图标、模板路径数据;
所述数据挖掘过程模型被转换成Java可执行代码,最后生成一个以用户定义的数据挖掘过程名称为类名的主类来控制整个数据挖掘过程,并通过配置模板提供的信息按照模型解析获得的任务依赖关系构建挖掘代码。
一种基于大数据的数据分析方法
技术领域
[0001] 本发明涉及数据处理,特别涉及一种大数据分析和挖掘方法。
背景技术
[0002] 面对增长迅速的数据量,如何从数据中发掘有用的信息成为当前大多数数据挖掘系统面临的问题。大数据集的数据分析与挖掘系统需要具备的特性包括(1)数据适应性:系统可接受多种类型的数据,避免系统对存储的数据的类型、结构和数据完整性的强要求,从而避免通常的数据仓库对数据的强要求带来的问题;(2)敏捷性:系统能够适应数据递增且更新频繁的应用场景;(3)分析深度:提供对数据分析多角度、多切面的分析,可便捷得加入复杂的概率统计和机器学习算法,适应多类型数据分析需求。
[0003] 关系型数据库通常提供进行数据分析与挖掘的数据分析工具,然而,以关系型数据库为基础的数据挖掘系统存在以下几个弊端:
[0004] (1)在庞大数据量背景下,数据迁移所带来的时间损失巨大,在此种情况下,把计算力移向数据是比数据迁移到计算系统更有效率的方法;
[0005] (2)只能通过抽样的方式使得数据量缩小到内存可接受的范围内,数据的抽样通常会导致数据信息量丢失;
[0006] (3)不断增加的数据很容易造成数据库索引的不断增加,索引增加的滞后性容易导致数据库的处理速度降低。
[0007] 因此数据库系统在数据处理效率和可处理的数据量无法满足当前大数据量的爆炸式增长。针对相关技术中所存在的上述问题,目前尚未提出有效的解决方案。
发明内容
[0008] 为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的数据分析方法,包括:
[0009] 通过可视化的界面接收用户定义的数据挖掘过程,并配置相关的组件信息,实现图形化的数据流程处理;生成符合Hadoop规范的代码,用户通过参数配置界面配置需用户定义的参数;然后将用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码,该转换包括过程模型分析、依赖关系分析、代码模板解析;将数据挖掘组件连接起来构成数据挖掘过程,所述数据挖掘组件封装不同的数据操作逻辑,分成数据挖掘算法组件、连接器组件、用户自定义组件;以Hadoop提供的框架作为数据挖掘过程执行平台,向执行框架提交代码,运用云平台的并行计算能力实现挖掘过程的并行化。
[0010] 优选地,该方法还包括:
[0011] 用户通过数据挖掘过程模型组件来定义符合过程逻辑模型的数据挖掘过程,并实现逻辑模型到物
理模型的转换,挖掘过程中的每一步数据操作被抽象成一个数据操作节点,称为逻辑节点,通过解析逻辑节点的输入输出信息、用户配置参数、节点对应的系统组件元信息来构建物理过程模型,逻辑模型经过系统的后台解析转换成物理模型后才能执
行;
[0012] 用户通过模型的图形化方式来实现逻辑模型的定义,数据挖掘过程包括数据收集、数据预处理、数据挖掘和结果展示,其中在数据收集中定义一个或多个数据来源,并在执行过程中完成数据提取工作,通过定义不同的连接器组件来实现对不同数据源的数据提取;在数据预处理中包括数据清理、数据集成和数据选择,定义过滤、正则匹配组件来实现预处理;运用数据挖掘算法对经过预处理的数据执行挖掘算法,最后将执行结果以数据或图表的形式展示给用户。
[0013] 优选地,该方法还包括:利用代码生成引擎完成从逻辑模型到可由执行框架执行的可执行代码的转换过程,该转换分成模型解析与代码生成;
[0014] 所述模型解析包括解析逻辑模型,根据数据挖掘过程模型定义的节点信息来划分操作子流程,以数据挖掘操作节点为划分点,以子流程构造任务集,并根据流程的连接顺序来定义子流程之间的依赖关系;
[0015] 所述代码生成,根据以上模型解析得到的子流程以及依赖关系生成代码,数据挖掘组件接收与其相连组件的输入输出类型信息,根据输入输出类型信息和组件代码模板,生成相应的代码,并将处理后的输出按照输出模式存储,其中组件模型包含组件ID、代码模板、用户定义参数类与组件元信息,组件ID用于标识组件的唯一性;代码模板包括了与执行平台相关的模板信息;用户自定义参数类是用户输入的参数;组件描述元信息包含组件描述、可视化图标、模板路径数据;
[0016] 所述数据挖掘过程模型被转换成Java可执行代码,最后生成一个以用户定义的数据挖掘过程名称为类名的主类来控制整个数据挖掘过程,并通过配置模板提供的信息按照模型解析获得的任务依赖关系构建挖掘代码。
[0017] 本发明相比现有技术,具有以下优点:
[0018] 通过定义组件模型,用户可快速定义数据挖掘过程;实现对数据挖掘过程的可视化定义,以及挖掘过程到可执行代码的转换;实现了对多种数据存储系统的数据访问。
附图说明
[0019] 图1是根据本发明实施例的基于大数据的数据分析方法的流程图。
具体实施方式
[0020] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0021] 本发明提出一种可扩展数据分析和挖掘方法,通过定义可重用的数据挖掘组件,对多数据源实现组件复用,提高数据挖掘过程敏捷性。
[0022] 图1是根据本发明实施例的基于大数据的数据分析方法流程图。
[0023] 该方法实现于具有以下系统架构的数据分析系统,包括数据挖掘过程模型、代码生成引擎、数据挖掘组件模型、执行框架4个模块。用户通过可视化的界面来定义数据挖掘
过程,并配置相关的组件信息,实现图形化的数据流程处理模型。为了避免让用户重复编写通用代码,代码生成引擎生成符合Hadoop规范代码,用户通过系统提供的参数配置界面配置需用户定义的参数,这些参数最后将会反映到最终生成的代码中。从用户定义的数据挖掘过程模型转换成可在Hadoop上运行的代码有一个过程分析与代码生成过程,该过程由代码生成引擎完成,主要包括了过程模型分析、依赖关系分析、代码模板解析等工作。数据挖掘过程是通过将组件连接起来构成的,组件为了实现不同的功能,将封装不同的数据操作逻辑。数据挖掘组件主要分成数据挖掘算法组件、连接器组件、用户自定
义组件三大类。系统以Hadoop提供的框架作为数据挖掘过程执行平台,通过向执行框架提交代码的形式,运用云平台的并行计算能力实现挖掘过程的并行化。
[0024] 运用基于模型的开发方法,本发明将软件过程中使用的算法提取出来形成抽象模型,使用户无需关心特定算法实现细节,系统以面向组件的方式简化数据挖掘流程定义和算法组件定义。该方法提高了系统的抽象层次,以一种可扩展的方式实现了数据分析系统的低耦合、高内聚。
[0025] 用户通过数据挖掘过程模型组件来定义数据挖掘过程,数据挖掘过程是一个符合过程逻辑模型的挖掘过程。在逻辑模型中,挖掘过程中的每一步数据操作被抽象成一个数据操作节点,该节点可称为逻辑节点。系统通过解析逻辑节点的输入输出信息、用户配置参数、节点对应的系统组件元信息来构建物理过程模型。逻辑过程模型与具体实现技术无关。物理模型则是从计算机系统的角度来定义,该模型与系统的实现平台、编程模型和MapReduce任务调度策略相关。逻辑模型经过系统的后台解析转换成物理模型后才能在系统中执行。
[0026] 过程模型实现逻辑模型到物理模型的转换。同时,用户可通过模型的图形化方式来实现逻辑模型的定义。物理模型与具体实现相关,物理模型包含了数据挖掘组件模型、模板代码生成模型等相关内容。
[0027] 数据挖掘过程包括数据收集、数据预处理、数据挖掘和结果展示几个步骤。数据收集主要是指定
义一个或多个数据来源,并在执行过程中完成数据提取工作,用户可通过定义不同的连接器组件来实现对不同数据源的数据提取。数据预处理包括了数据清理(去噪和去除不一致数据)、数据集成(多数据源的组合)和数据选择(定义数据过滤规则)。用户通过定义过滤、正则匹配等组件来实现该步骤。数据挖掘运用数据挖掘算法对经过预处理的数据执行挖掘算法。最后,结果展示步骤将执行结果以数据或图表的形式展示给用户。[0028] 代码生成引擎主要完成从逻辑模型到可被执行框架执行的可执行代码的转换过程,大致可分成模型解析与代码生成两步。
[0029] 第一步是模型解析,主要工作是解析逻辑模型,根据数据挖掘过程模型定义的节点信息来划分操作子流程,以数据挖掘操作节点为划分点,以子流程构造任务集,并根据流程的连接顺序来定义子流程之间的依赖关系。
[0030] 第二步是代码生成,根据第一步模型解析得到的子流程以及依赖关系生成代码。数据挖掘组件接收与其相连组件的输入输出类型信息。根据输入输出类型信息和组件代码模板,生成相应的代码,并将处理后的输出按照输出模式存储。组件模型包含组件ID、代码模板、用户定义参数类与组件元信息。组件ID用于标识组件的唯一性;代码模板包括了与执行平台相关的模板信息;用户自定义参数类是用户输入的参数;组件描述元信息包含了

本文发布于:2024-09-22 07:21:56,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/465641.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   模型   组件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议