品质数据管理中心 数据质量管理( 二 )


(3)数据源本身 。
生产系统中的一些数据不规则、不完整、不准确、不一致等 。,但是这些问题在收集过程中没有进行清理和处理,或者清理和处理程序代码不正确 。
(4)数据梳理过程 。
在数据采集之前,需要对组织机构、业务事项、信息系统、数据资源清单等信息进行梳理 。如果对业务的理解不到位,整理报告就会不完整或不正确 。
(5)数据采集过程 。
采集点、采集频率、采集内容和映射关系等采集参数和流程设置不正确,数据采集接口效率低,导致数据采集失败、数据丢失、数据映射和转换失败 。
(6)数据清理和处理 。
数据清理规则、数据转换规则、数据加载规则的配置存在问题,甚至相应的清理处理工作也没有按照数据标准进行,因此空的自由发挥过大 。此外,在数据聚合过程中,数据的相关性没有及时建立,后期难以补充完善 。
2.商业原因 。
(1)业务理解不到位 。
数据业务描述、业务规则、关联分析不到位,导致技术无法构建合理正确的数据模型 。
(2)业务流程的变化 。
随着业务流程的变化,数据模型设计、数据录入、数据采集、数据传输、数据清理、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题 。
(3)数据输入不规范 。
常见的数据输入问题,如大小写、全角、特殊字符等 。,如果他们不小心就会被记录错误,甚至数据会被输入错误的字段,从而导致“失业” 。人工输入数据的质量与记录数据的业务人员密切相关 。如果记录数据的人员工作严谨认真,数据质量会相对较好,反之亦然 。
(4)业务系统有很多烟囱 。
20年来,只要较大的企业和政府部门建设了一批解决业务问题的信息系统,也导致了信息集成的痛点和难点,把先发优势变成了数据困境 。
(5)虚假数据 。
运营商为了提高或降低考核指标,对一些数据进行处理,使得数据的真实性无法保证 。
3.管理原因 。
(1)人才缺乏 。
按照自身业务发展的主要原则组织团队,而数据建设依赖于外部服务公司,但没有建立相应的管理手段和监督机制资源网络,无法准确判断数据项的建设效果 。
(2)流程管理不完善 。
没有有效的数据质量保障机制和问题处理机制,没有发现、分配、处理和优化数据质量问题的统一流程和系统支持,数据质量问题无法闭环 。
(3)成员意识不开放 。
组织缺乏数据思维,没有意识到数据质量的重要性,重系统轻数据,认为系统无所不能,数据质量差没关系 。组织成员不从组织战略的角度看待数据资产,而是将数据视为创建数据的部门的资产,导致数据冗余、不一致、碎片化,从而难以发现数据的价值 。
(4)奖惩机制不明确 。
没有数据集中管理部门或岗位,没有数据问责机制 。出现数据质量问题,找不到权威来源或负责人 。缺乏数据规划,没有明确的数据质量目标,没有与数据质量相关的政策和制度 。
三、如何做好数据质量管理 。
1.从数据的整个生命周期进行管理 。
也就是说,在数据生命周期的任何阶段,都有严格的数据规划和约束来防止脏数据的产生 。一般来说,可以分为三个阶段:事前预防、事中监控、事后改进 。
(1)提前预防 。
①建立质量管理机制:基于数据管理的复杂性和激励的多样性,仅仅依靠一种技术工具来解决数据质量问题是不够的 。需要建立长效工作机制 。即根据组织的特点,制定符合自身环境的工作制度,制定各环节的工作流程,规定各参与方的职责,确定各数据的权威部门,制定数据质量指标,制定数据质量修复流程等 。
②制定数据质量标准:数据标准是否定义成功直接决定了大数据建设的成果和数据质量水平,需要在整合国家标准、行业标准和地方标准的基础上,整合组织自身的业务特点;
③建立质量监控模型:数据质量模型代表业务需求,从业务需求的角度进行描述;
④制定质量监控规则:数据监控规则代表具体的质量检查手段,从技术角度描述数据质量要求是如何满足的,包括标准化、完整性、准确性、及时性、可及性等 。
(2)过程监控 。
①监测原始数据质量:数据采集工作从数据源获取最原始的数据,在数据采集过程中将数据分为“好数据”和“坏数据” 。“好数据”入库,而“坏数据”反馈到源头修复,因为数据源部门最了解这些数据,可以在源头彻底修复数据问题 。


推荐阅读