历史数据如何处理_在数据治理中如何处理历史数据问题及跨系统或异构数据的集成问题?...

历史数据如何处理_在数据治理中如何处理历史数据问题及跨
系统或异构数据的集成问题?...
在建造数据仓库,或者从不同信息系统间迁移数据的过程中,需要从各种数据源导⼊⼤量数据。这些数据中存在数据录⼊错误,或者同⼀对象在不同数据源中以不同的形式表⽰等数据质量问题,这将影响信息服务的质量。如何通过数据清洗优化,将数据转为⼀致的格式,并保证数据的准确性,成为越来越多企业在进⾏数据迁移时的重⼤难题!
痛点概述:不同数据库之间可能存在数据不⼀致或重复的情况,⽽⼈⼯将每⼀条记录与数据 客户档案
服务客户:某企业服务公司 痛点概述:
客户档案 服务客户:某企业服务公司
表中其他记录逐⼀⽐较需耗费⼤量⼈⼯,效率低下;即使利⽤数据库SQL语句来合并相同信息,只能除去完全相同的情况,相似的数据⽆法清理。如何有效快速筛查数据问题,完成不同数据库间的数据精准匹配,成为该客户在应对⼤量数据处理时亟需解决的问题。
解决⽅案:
解决⽅案:数据质量诊断优化
预期效果:通过⾃动化的数据质量诊断优化解决⽅案,帮助该客户快速出数据问题,并进⾏补全及优化,从⽽促进数据库间的数据精准预期效果:
匹配。
在建造数据仓库,或者从不同信息系统间迁移数据的过程中,需要从各种数据源导⼊⼤量数据。这些数据中存在数据录⼊错误,或者同⼀对象在不同数据源中以不同的形式表⽰等数据质量问题,这将影响信息服务的质量。因此,⼀个重要的任务是通过数据清洗,将数据转换为⼀致的形式,保证数据的正确性。
数据清洗主要涉及到数据映射、数据匹配和合并。通过映射,将数据格式标准化;通过匹配,发现重复的记录;通过合并,保留或⽣成⼀个完整的记录。数据清洗活动的核⼼是近似重复数据的识别。所谓近似重复数据,是指表现形式不同但语义上相同的数据,从狭义的⾓度来看,如果两条记录在某些字段上的值相等或⾜够相似,则认为这两条记录互为近似重复,我们称为重复记录或重复数据。为了提⾼数据质量,必须要查重复数据和删除重复数据。这⼜叫做数据查重,或者数据去重。
444gggg
客户需求与数据背景
⽬前该客户正是⾯临不同数据库的数据清理问题:已有企业名录数据库B库, 希望通过检查出作为增量的同样是企业名录的数据库C库的是否在B 库中有相同企业的记录,两个数据库的数据结构不⼀定⼀致, 但都有对应的企业名称和企业地址字段, 其作为可能进⾏匹配的关键字段。
B库与C库匹配规则:
1. ⽤B库中的“企业名称”与C库中的“⼚商名称”作为2个库中匹配的关键字段;除此之外,可参考地址
2. 两个数据库中,均为不能精准匹配的企业,是否可通过⼀些其他⼿段达到匹配的效果
远程控制系统
常见的解决⽅案及其弊端
利⽤数据库SQL语句中的“distinct”或“Group by”,来合并相同信息。速度快,⽆需⼈⼯参与。但只能除去完全相同的情况,相似的数据⽆法清理。凸轮滚子
排序记录,并对相邻的记录检查是否重复。只能筛选出少量问题数据,遗漏较多。
⼈⼯将每⼀条记录与数据表中其他记录逐⼀⽐较。数据⽐对需耗费⼤量⼈⼯,效率低下。
逐条数据⽤⼈⼯来出关键字(企业的字号),然后在数据库中查询包含此关键字的数据。效率中等,遗漏少,准确度⾼。数据量⼤时仍耗费很多⼈⼯。
数据之间两两⽐对,系统⾃动对相似度打分,并按照数据的相似度排序,然后由⼈⼯做最后的判断。依赖少量⼈⼯。打分算法的性能和准确性是此解决⽅案能否成功的关键。
使⽤统计⽅法结合相似度打分的系统,全⾃动出最可能的相似数据。⽬前看到的产品,速度挺快,但需依赖较多数据栏位的完整信息,也有⼀定的遗漏率和错误率。
通过⼀种数据清理和数据匹配的软件平台,⽤户可以在咨询顾问的帮助下⾃由配置规则。匹配时为每条数据到第⼀个符合规则的记录,然后跳到下⼀条数据处理。这套系统速度很快,但很依赖于⽤户所创建的规则,因此匹配的准确率和遗漏率如果不满意,就是⽤户
的规则没有设好了。
华矩的解决⽅案与处理流程
本次⽅案重点分析了企业名录数据库B库及C库的表内企业名称、企业地址等数据,相关处理流程如下:
数据质量诊断:分别对B库表和C库表进⾏⾃动化的探查及数据剖析,发现数据质量问题,如不规范的企业名、缺失或不准确的地址1. 数据质量诊断:
无人机防御系统
信息、重复记录等,便于接下来的企业名称和地址标准化、地址补全和去重;
数据内容补全及优化:设计数据优化的处理规则,如对不规范的企业名称和地址信息进⾏标准化、去掉企业名称中包含的冗余字符、2. 数据内容补全及优化:
删除B库表和C库表的重复记录、补全C库表中的地址信息等;
分词及字段分解: 根据数据匹配关键值特点,将B库表和C库表的企业和地址信息进⾏分解元素化,发现键值,为精准匹配做准备;
3. 分词及字段分解:
数据匹配:利⽤确定好的键值以B库表为主表与C库表进⾏匹配。
4. 数据匹配:
- 数据在C库表中存在,在B库中不存在,则将C库表数据与B库表数据组成新的结果集
铜管对流散热器-
数据在C库表和B库表同时存在,诊断哪条数据最精准,⽤精准的那条数据作为最终结果集数据
- 如数据只在B库表存在,则保留B库表数据(清洗后的数据)
数据处理流程⽰意图
客户问题总结
基于数据剖析,我们在很短的时间内为该客户提供了数据诊断报告,并进⼀步分析了数据问题:
1. 企业名录数据库B表及C表都有表内重复记录,直接影响了后续表间记录匹配,当前查到准确表间⾼度相似的企业数据数15条,分别
车载卫生间占B表0.006%及C表0.06%
2. 关键匹配字段内容不规范,C表及C表地址字段尤其严重,两表对应的匹配字段内容也存在不⼀致的表述
3. ⼀些普遍存在的数据质量问题,包括缺失、乱码、冗余等问题
4. 要匹配的B、C表的表结构不⼀致
华矩数据诊断报告样本
样本数据现状
基于客户问题的建议
针对数据诊断结果,华矩科技顾问团队帮助他们系统化梳理了当前企业存在的⼏个数据处理相关核⼼问题并提出了相关建议。
1. 数据质量直接影响到数据匹配的精准度,数据质量进⼀步优化将能提升数据查重率, 反之则导致查重率下降。在该企业进⾏数据库的
合并及匹配前,建议先开展全局的企业级数据质量诊断,了解⾃⼰数据的质量基本状况,这也有助于后续的全局数据库匹配;
2. 如果只在有限范围内改善已有的数据质量,将决定了数据匹配度⽆法覆盖企业全局;应该系统化看待数据质量问题,使数据匹配尽可
能接近理想值;
3. 传统数据管理⼿段难以提升数据查重率,甚⾄导致查重率下降。通过⼯具及技术⼿段可以⼤⼤提升整体数据查重效率及数据质量,甚
⾄解决某些传统⽅法⽆法解决的问题;
4. 业务规则发现是优化数据质量的关键,可在数据剖析的基础上,快速发现及补全业务规则,从⽽促进对数据质量的优化提升。

本文发布于:2024-09-21 10:38:06,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/98225.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   企业   匹配   质量   问题   库表
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议