数据治理系列(四):数据质量管理

数据治理系列(四):数据质量管理
⼀、什么是数据质量管理?
数据质量管理是指对数据从产⽣、获取、存储、共享、维护、应⽤等各个阶段可能引发的各类数据质量问题,进⾏识别、度量、监控、预警等⼀系列管理活动,并通过改善和提⾼组织的管理⽔平使数据质量获得进⼀步提⾼。
“数据质量管理是对数据从计划、获取、存储、共享、维护、应⽤、消亡⽣命周期的每个阶段⾥可能引发的数据质量问题,进⾏识别、度量、监控、预警等⼀系列管理活动,并通过改善和提⾼组织的管理⽔平使得数据质量获得进⼀步提⾼。数据质量管理的终极⽬标是通过可靠的数据提升数据在使⽤中的价值,并最终为企业赢得经济效益。”——以上内容摘⾃百度百科。
笔者观点:“数据质量管理不单纯是⼀个概念,也不单纯是⼀项技术、也不单纯是⼀个系统,更不单纯是⼀套管理流程,数据质量管理是⼀个集⽅法论、技术、业务和管理为⼀体的解决⽅案。通过有效的数据质量控制⼿段,进⾏数据的管理和控制,消除数据质量问题进⽽提升企业数据变现的能⼒。在数据治理过程中,⼀切业务、技术和管理活动都围绕这个⽬标和开展”。
数据质量管理的⽬的?
解决企业内部数据使⽤过程中遇到的数据质量问题,提升数据的完整性、准确性和真实性,为企业的⽇常经营、精准营销、管理决策、风险管控等提供坚实、可靠的数据基础。
⼆、数据质量问题有哪些?数据质量问题场景
调速皮带轮在⽇常⼯作中,业务领导经常会通过报表看板等数据产品来了解各项业务的发展趋势以及KPI的达成情况。倘若某天,他打开某张核⼼报表,发现当⽇的数据⼀直是空⽩的,询问报表开发⼈员,开发经排查分析,发现是依赖的上游有延迟,上游数据预计要下午才能到达,导致业务领导在正常时点⽆法查看业务数据情况。
⼜或某天,业务⼈员点开报表发现当⽇AUM规模暴增,数据增长当然开⼼,但仔细推敲,发现这波动有点不合常理,于是通知数据负责⼈验证下数据是否存在异常。经过⼏个⼩时的排查分析,数据负责⼈报告说数据确实算的有些问题,业务业务以后对该报表数据的准确性将会打上问号。
⼆、数据质量问题有哪些?
数据真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计⼯作的灵魂,是⼀切管理⼯作的基础,是经营者进⾏正确经营决策必不可少的第⼀⼿资料。
数据准确性:准确性也叫可靠性,字段值 错误、缺失,空值。成绩单中分数出现负数或订单中出现错误的买家信息等。是⽤于分析和识别哪些是不准确的或⽆效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的⽅法和糟糕的决策。
数据唯⼀性:⽤于识别和度量重复数据、冗余数据。重复数据是导致业务⽆法协同、流程⽆法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
数据完整性:数据完整性问题包括:模型设计不完整,例如:唯⼀性约束不完整、参照不完整;数据条⽬不完整,例如:数据记录条数,丢失或不可⽤;数据属性不完整,例如:数据属性空值。不完整的数据所能借鉴的价值就会⼤⼤降低,也是数据质量问题最为基础和常见的⼀类问题。
数据⼀致性:多源数据的数据模型不⼀致,例如:命名不⼀致、数据结构不⼀致、约束规则不⼀致。⽤户ID必须保持同⼀种类型,且长度也要保持⼀致。数据实体不⼀致,例如:⾦额不平、(数据量条数)数据编码不⼀致、命名及含义不⼀致、分类层次不⼀致、⽣命周
期不⼀致。相同的数据有多个副本的情况下的数据不⼀致、数据内容冲突的问题。
数据关联性:数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进⽽影响管理决策。
数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
三、数据质量问题根因分析
说到数据质量问题的原因,做过BI或数仓项⽬的⼩伙伴肯定都知道,这是⼀个业务和技术经常扯来扯
去、互相推诿的问题。在很多情况下,企业都会把数据质量问题推给技术部门,让技术部门去查和处理。但是企业的数据质量问题真的都是技术引起的吗,技术部门⼈⼀定会说:“这个锅我不背!”
当我们把数据导⼊数据仓库时,ETL中的每个步骤中都可能会遇到数据质量错误。⽐如与源系统的连接错误,抽取数据可能会失败。由于记录类型冲突,数据转换可能会失败。即使的ETL任务成功,提取的记录中也会出现异常值,导致后续过程报错。
其实,影响数据质量的因素主要就技术、业务、管理三个⽅⾯,下⾯我们就来从这三⽅⾯分析下产⽣数据质量问题都有哪些原因。1、技术⽅⾯
数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录⼊⽆法校验或校验不当,引起数据重复、不完整、不准确。
数据源存在数据质量问题,例如:有些数据是从⽣产系统采集过来的,在⽣产系统中这些数据就存在重复、不完整、不准确等问题,⽽采集过程有没有对这些问题做清洗处理,这种情况也⽐较常见。
数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接⼝效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据传输过程的问题,例如:数据接⼝本⾝存在问题、数据接⼝参数配置错误、⽹络不可靠等都会造
成数据传输过程中的发⽣数据质量问题。
数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。
数据存储的质量问题,例如:数据存储设计不合理,数据的存储能⼒有限,⼈为后台调整数据,引起的数据丢失、数据⽆效、数据失真、记录重复。
业务系统各⾃为政,烟囱式建设,系统之间的数据不⼀致问题严重。
2、业务⽅⾯
业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术⽆法构建出合理、正确的数据模型。
业务需求的变更,这个问题其实是对数据质量影响⾮常⼤的,需求⼀变,数据模型设计、数据录⼊、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发⽣。
业务端数据输⼊不规范,常见的数据录⼊问题,如:⼤⼩写、全半⾓、特殊字符等⼀不⼩⼼就会录错。⼈⼯录⼊的数据质量与录数据的业务⼈员密切相关,录数据的⼈⼯作严谨、认真,数据质量就相对较好,反之就较差。
数据作假,对,你没看错,就是数据作假!操作⼈员为了提⾼或降低考核指标,对⼀些数据进⾏处理,使得数据真实性⽆法保证。
3、管理⽅⾯
认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统⽽轻数据,认为系统是万能的,数据质量差些也没关系。
没有明确数据归⼝管理部门或岗位,缺乏数据认责机制,出现数据质量问题不到负责⼈。
缺乏数据规划,没有明确的数据质量⽬标,没有制定数据质量相关的政策和制度。建筑证书管理
数据输⼊规范不统⼀,不同的业务部门、不同的时间、甚⾄在处理相同业务的时候,由于数据输⼊规范不同,造成数据冲突或⽭盾。
缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有⼀个统⼀的流程和制度⽀撑,数据质量问题⽆法闭环。
缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题⽆法考核。
⼩结:影响数据质量的因素,可以总结为两类,客观因素和主观因素。客观因素:在数据各环节流转中,由于系统异常和流程设置不当等因素,从⽽引起的数据质量问题。主观因素:在数据各环节处理中,由于⼈员素质低和管理缺陷等因素,从⽽操作不当⽽引起的数据质量问题。
四、数据质量管理的⽅法论(制定解决⽅案)
数据是数字化时代企业的重要资产,数据可以以产品或服务的形态为企业创造价值。既然数据可以是产品、可以是服务,那问题就简单了。虽然数据质量管理没有成熟⽅法论⽀撑,但是产品和服务的质量管理体系却已⾮常的成熟了,何不尝试⽤产品和服务的质量管理体系来管理数据质量?!那国际上最权威的质量管理体系IOS9001是否也适⽤于企业的数据质量管理呢?
下图是ISO9001基于PDCA的质量管理核⼼思想,其重点强调以客户为关注焦点、领导作⽤、全员参与、过程⽅法、持续改进、循证决策和关系管理。
依据ISO9001以及企业在数据治理⽅⾯的相关经验,笔者认为企业数据质量管理应从以下⼏个⽅⾯着⼿:
1、组织环境
我们在数据治理框架、主数据管理、数据标准管理等章节,都提到了组织机构的设置,这⾥再次强调长春密刺
⼀个强有⼒的数据管理组织的建设是数据治理项⽬成功的最根本的保证。其作业是两个层⾯:⼀是在制度层⾯,制定企业数据治理的相关制度和流程,并在企业内推⼴,融⼊企业⽂化。⼆是在执⾏层⾯,为各项业务应⽤提供⾼可靠的数据。
2、数据质量管理⽅针
为了改进和提⾼数据质量,必须从产⽣数据的源头开始抓起,从管理⼊⼿,对数据运⾏的全过程进⾏监控,强化全⾯数据质量管理的思想观念,把这⼀观念渗透到数据⽣命周期的全过程。数据质量问题是影响系统运⾏、业务效率、决策能⼒的重要因素,在数字化时代,数据质量问题影响的不仅仅是信息化建设的成败,更是影响企业降本增效、业务创新的核⼼要素,对于数据质量问题的管理,深度执⾏的总体策
略“垃圾进,垃圾出(garbage in,garbage out)”,采⽤事前预防控制、事中过程控制、事后监督控制的⽅式进⾏数据质量问题的管理和控制,持续提升企业数据质量⽔平。
3、数据质量问题分析
关于质量问题的分析,笔者推荐采⽤经典的六西格玛(缩写:6σ 或 6Sigma),六西格玛是⼀种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,以客户为导向,以业界最佳为⽬标,以数据
为基础,以事实为依据,以流程绩效和财务评价为结果,持续改进企业经营管理的思想⽅法、实践活动和⽂化理念。六西格玛重点强调质量的持续改进,对于数据质量问题的分析和管理,该⽅法依然适⽤。
根据六西格玛的DMAIC模型,我们可以将数据质量分析定义为六个阶段:
(1)定义阶段(D阶段)。界定数据质量治理的范围,并将数据质量改进的⽅向和内容界定在合理的范围内。通过使⽤主数据识别法、专家⼩组法、问卷调查法、漏⽃法等⽅法,定义出数据治理的对象和范围。企业数据质量治理对象⼀般主要包括两类数据:⼀类是操作型数据,例如:主数据、参照数据和交易数据。另⼀类是分析型数据,例如:主题数据、指标数据等。注:根据笔者经验以及80/20法则,企业的数据质问题80%是由于管理不当或业务操作不规范引起的,参考:《》。
(2)测量阶段(M阶段)。在定义出数据治理对象和内容后,需要选取以下若⼲个指标来作为数据质量评价指标,建⽴数据质量评估模型,对企业的数据进⾏评估和测量。常⽤的数据质量评价指标就是我们上述提到的:数据唯⼀性、数据完整性、数据准确性、数据⼀致性、数据关联性、数据及时性等。
(3)分析阶段(A阶段)。基于数据质量评估模型,执⾏数据质量分析任务,通过数据分析,到发⽣数据质量问题的重灾区,确定出影响数据质量的关键因素。数据治理和⼤数据分析是密不可分的,
数据治理的⽬标是提升数据质量从⽽提⾼数据分析的准确性,⽽⼤数据分析技术也可反向作⽤于数据治理,通过⼤数据分析算法和⼤数据可视化技术,能够更准确、更直观的定位到发⽣数据质量问题的症结所在。该阶段可以⽤的⼤数据技术包括:回归分析、因⼦分析、鱼⾻图分析、帕累托分析、矩阵数据分析等。
(4)改进阶段(I 阶段)。通过制定改进管理和业务流程、优化数据质量的⽅案,消除数据质量问题或将数据质量问题带来的影响降低到最⼩程度。我们⼀直在强调数据质量的优化和提升,绝不单单是技术问题,应从管理和业务⼊⼿,出数据质量问题发⽣的根因,再对症下药。同时,数据质量管理是⼀个持续优化的过程,需要企业全员参与,并逐步培养起全员的数据质量意识和数据思维。该过程主要⽤到⽅法:流程再造、绩效激励等。
(5)控制阶段(C阶段)。固化数据标准,优化数据管理流程,并通过数据管理和监控⼿段,确保流程改进成果,提升数据质量。 主要⽅法有:标准化、程序化、制度化等。
四、监控规则,数据质量检测和量化
有效性
字段长度有效
字段内容有效
字段数值范围有效
枚举值集合有效
唯⼀性
对主键是否存在重复数据的监控指标
完整性
字段是否为空或NULL
记录数是否丢失
记录数环⽐波动
录数波动范围
记录数⽅差检验
准确性
数值同⽐内外网文件交换
数值环⽐
数值⽅差检验
表逻辑检查
⼀致性
表级别⼀致性检查
时效性
表级别质量监控指标,数据是否按时产出
数据剖析
最⼤值检查
最⼩值检查
平均值检查
汇总值检查
⾃定义规则检查
⽤户写⾃定义SQL实现的监控规则
从有效性、唯⼀性、完整性、准确性、⼀致性、时效性、数据剖析和⾃定义规则检查等⼏个维度对数据质量进⾏测量,但对于现在超级⼤的数据量级监控所有的数据是不符合成本效率的。因此,知道哪些数据为最关键的,对这些关键数据进⾏全链路的数据质量,这样有助于防⽌错误或揭⽰改进的机会。
数据质量问题的量化
卡口系统
对于数据质量的检测结果进⾏分析和量化,查出现质量问题的数据链环节,定位数据问题,实⾏问责机制。
8.数据质量规则背板制作
异常数据是不满⾜数据标准、不符合业务实质的客观存在的数据,如某位员⼯的国籍信息错误、某位客户的客户名称信息错误等。数据在底层数据库多数是以⼆维表格的形式存储,每个数据格存储⼀个数据值。若想从众多数据中识别出异常数据,就需要通过数据质量规则给数据打上标签。
数据质量规则是判断数据是否符合数据质量要求的逻辑约束。在整个数据质量监控的过程中,数据质量规则的好坏直接影响监控的效果,因此如何设计数据质量规则很重要。依据数据在数据库落地时的质量特性及数据质量规则类型,设计如下四类数据质量分类框架。
1)单列数据质量规则。关注数据属性值的有⽆以及是否符合⾃⾝规范的逻辑判断。
2)跨列数据质量规则。关注数据属性间关联关系的逻辑判断。
3)跨⾏数据质量规则。关注数据记录之间关联关系的逻辑判断。
4)跨表数据质量规则。关注数据集关联关系的逻辑判断。
华为结合ISO8000数据质量标准、数据质量控制与评估原则(国标SY/T 7005—2014),共设计了15类规则,具体如图8-2所⽰。

本文发布于:2024-09-22 14:31:46,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/244435.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   质量   问题   管理   企业   业务
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议