数据打标方法、处理方法以及装置[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910777419.0
(22)申请日 2019.08.22
(71)申请人 上海数禾信息科技有限公司
地址 200120 上海市浦东新区中国(上海)
自由贸易试验区金科路2889弄1号2层
201室
(72)发明人 杨涵冰 吴豪 刘倩 万鹏 
(74)专利代理机构 北京卓唐知识产权代理有限
公司 11541
代理人 唐海力
(51)Int.Cl.
G06F  16/27(2019.01)
G06F  16/28(2019.01)
G06F  16/2455(2019.01)
G06F  16/907(2019.01)
(54)发明名称
数据打标方法、处理方法以及装置
(57)摘要
本申请公开了一种数据打标方法、处理方法
以及装置。该数据打标方法包括将数据集中预
设数据源产生的预设标签消息数据按照分布式
流处理操作,生成实时标签;从数仓中获取已完
成打标作业的离线标签;将所述实时标签和所述
离线标签分别存储至HBase分布式数据库。本申
请解决了数据打标效果不佳的技术问题。通过本
申请能够提供实时标签,同时能够实时向下游反
馈标签内容的变化结果。此外,本申请适用于大
数据集架构。权利要求书2页  说明书8页  附图3页CN 110555076 A 2019.12.10
C N  110555076
A
1.一种数据打标方法,其特征在于,包括:
将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
从数仓中获取已完成打标作业的离线标签;
将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
2.根据权利要求1所述的数据打标方法,其特征在于,将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第一消息中间件,通过所述第一消息中间件直接输出至应用程序。
3.根据权利要求1所述的数据打标方法,其特征在于,将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第二消息中间件,通过所述第二消息中间件通过流处理后输出至所述HBase分布式数据库存储。
4.根据权利要求1所述的数据打标方法,其特征在于,将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签之前还包括:
将数据集中预设数据源配置为:
通过MySQL从数据库的变更记录中解析标签增量数据订阅,建立标签数据集作为预设数据源;
将预设消息队列的消息作为预设数据源;
将预设消息中间件的消息作为预设数据源。
5.根据权利要求1所述的数据打标方法,其特征在于,从数仓中获取已完成打标作业的离线标签包括:
判断每个离线标签的生成作业是否完成,并在完成后调起相应的离线标签作业,批量写入至HBase分布式数据库存储。
6.一种基于数据标签的数据处理方法,其特征在于,用于消费标签数据,所述方法包括:
将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
从数仓中获取已完成打标作业的离线标签;
将所述实时标签和所述离线标签分别存储至HBase分布式数据库;
通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;
在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
7.根据权利要求6所述的基于数据标签的数据消费方法,其特征在于,还包括:
通过预设缓存作业,所述HBase分布式数据库中最新更新的标签数据缓存至Hive表,并通过预设数据查询引擎进行标签运算并将结果输出至应用程序。
8.根据权利要求6所述的基于数据标签的数据消费方法,其特征在于,还包括:
对已有的标签数据根据用户的需求进行组合后得到组合标签。
9.一种数据打标装置,其特征在于,包括:
实时标签处理模块,用于将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;
分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
10.一种基于数据标签的数据处理装置,其特征在于,用于消费标签数据,包括:
实时标签处理模块,用于将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;
离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;
分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库;
第一消费模块,用于通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;
第二消费模块,用于在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
数据打标方法、处理方法以及装置
技术领域
[0001]本申请涉及大数据处理领域,具体而言,涉及一种数据打标方法、处理方法以及装置。
背景技术
[0002]标签系统,通过人工或机器学习的方式进行数据打标。
[0003]发明人发现,标签系统的缺点在于:大多采用的是离线数据实时性差。进一步,如果面向数据集其大规模数据存储能力不足,不能实时向下游反馈标签内容的变化结果。[0004]针对相关技术中数据打标效果不佳的问题,目前尚未提出有效的解决方案。
发明内容
[0005]本申请的主要目的在于提供一种数据打标方法、处理方法以及装置,以解决相关技术中数据打标效果不佳的问题。
[0006]为了实现上述目的,根据本申请的一个方面,提供了一种数据打标方法。[0007]根据本申请的数据打标方法包括:将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;从数仓中获取已完成打标作业的离线标签;将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
[0008]进一步地,将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
[0009]将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源
产生标签消息并输出至第一消息中间件,通过所述第一消息中间件直接输出至应用程序。
[0010]进一步地,将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签包括:
[0011]将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作消费所述预设数据源产生标签消息并输出至第二消息中间件,通过所述第二消息中间件通过流处理后输出至所述HBase分布式数据库存储。
[0012]进一步地,将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签之前还包括:
[0013]将数据集中预设数据源配置为:
[0014]通过MySQL从数据库的变更记录中解析标签增量数据订阅,建立标签数据集作为预设数据源;
[0015]将预设消息队列的消息作为预设数据源;
[0016]将预设消息中间件的消息作为预设数据源。
[0017]进一步地,从数仓中获取已完成打标作业的离线标签包括:
[0018]离线部分的数据源来自数仓。每日调度作业会自动判断每个离线标签的上游作业
是否完成,并在完成后调起相应的离线标签作业,批量写入至HBase。
[0019]为了实现上述目的,根据本申请的一个方面,提供了一种基于数据标签的数据处理方法,用于消费标签数据,所述方法包括:将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;从数仓中获取已完成打标作业的离线标签;将所述实时标签和所述离线标签分别存储至HBase分布式数据库;通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
[0020]进一步地,方法还包括:
[0021]通过预设缓存作业,所述HBase分布式数据库中最新更新的标签数据缓存至Hive 表,并通过预设数据查询引擎进行标签运算并将结果输出至应用程序。
[0022]进一步地,方法还包括:
[0023]对已有的标签数据根据用户的需求进行组合后得到组合标签。
[0024]为了实现上述目的,根据本申请的又一方面,提供了一种数据打标装置。[0025]根据本申请的数据打标装置包括:实时标签处理模块,用于将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库。
[0026]为了实现上述目的,根据本申请的再一方面,提供了一种基于数据标签的数据处理装置,用于消费标签数据。
[0027]根据本申请的基于数据标签的数据处理装置包括:实时标签处理模块,用于将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签;离线标签处理模块,用于从数仓中获取已完成打标作业的离线标签;分布式数据库模块,用于将所述实时标签和所述离线标签分别存储至HBase分布式数据库;第一消费模块,用于通过面向消息的中间件将所述HBase分布式数据库中的标签数据输出至应用程序中进行消费;第二消费模块,用于在HBase分布式数据库中的标签数据通过后端应用以接口的形式输出至应用程序。
[0028]在本申请实施例中数据打标方法、处理方法以及装置,采用将数据集中预设数据源产生的预设标签消息数据按照分布式流处理操作,生成实时标签的方式,通过从数仓中获取已完成打标作业的离线标签,达到了将所述实时标签和所述离线标签分别存储至HBase分布式数据库的目的,从而实现了灵活性强、实时性高的数据打标的技术效果,进而解决了数据打标效果不佳的技术问题。
附图说明
[0029]构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0030]图1是根据本申请第一实施例的数据打标方法流程示意图;
[0031]图2是根据本申请第二实施例的数据打标方法流程示意图;
[0032]图3是根据本申请第三实施例的数据打标方法流程示意图;

本文发布于:2024-09-21 17:53:13,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/406983.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:标签   数据   预设   打标   分布式   数据源
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议