科技引领
数据是21世纪的重要生产要素,是基础性和战略性资源,也是重要的生产力[1]。以“数据驱动型决策”模式运营的企业,通过形成体系完整、质量可控的数据链,推动生产制造各环节高效协同,其生产力可以普遍提高5%~10%。数据质量是影响数据开发利用效率和数据要素价值转化的关键因素之一[2],而多源数据质量参差不齐往往会给智能化矿山建设场景应用造成困难,同时也给矿山智能化建设“从数字化到智能化再到智慧化”的成效造成损失。数据质量对企业的直接影响主要包括经济损失和运营风险等。数据质量不仅决定信息化建设的成败,更是影响企业业务协同、管理创新、决策支持的核心要素。对于数据质量的管理,实行“事前预防、事中控制、事后补救”的数据质量管理策略,持续提升企业数据质量水平。随着大数据的发展,企业数据使用需求与日俱增,数据质量问题亟需解决。
随着煤矿智能化建设[3-5]的推进,制约数据融合、系统联动、业务协同等发展的数据治理问题受到广泛关注[6-7]。自智能化煤矿数据治理问题被提出以来,学者们在智能化煤矿数据治理的概念界定、技术架构及关键技术方面展开了理论研究和实践探索[8-9]。智能化煤矿数据治理的概念内涵和技术架构正逐步形成共识,关键技术的突破方兴未艾,但理论研究和实践探索亟需完善的方法论加以指导。
通过对发展历程和基础理论的研究[10-16],界定了数据质量以及数据质量量化管理的概念,丰富本研究领域的理论基础,在明确概念的基础上,总结归纳智能化矿山建设过程中可能面对的问题以及面向数据质量管理全过程的策略和技术。以实际智能化矿山数据质量管理为例,从数据质量管理的顶层设计、数据质量管理活动的开展、数据质量管理评估度量等环节,介绍完整的智能化矿山数据质量管理流程,为矿山企业智能化转型提供典型案例,具有一定的借鉴意义。
在DIKW金字塔模型中,数据源于底层,数据之上是数据经过加工之后形成的信息,如图1所示。结合具体场景应用的系统化的信息产生知识,应用已知有实用价值的知识对未来进行预测表现为智慧。数据质量差将会直接或者间接的导致信息质量差、决策质量降低、业务结果不理想等结果。数据质量的高低程度在一定意义上是可评估、可测量的。
图1 DIKW金字塔模型
过往很多学者对数据质量有定义。REDMAN T C[17]给出数据质量的定义为“如果数据符合其在操作、决策和规划中的预期用途,则其具有高质量;如果数据没有缺陷并且具有期望的特征,则适合使用。” OLSON J[18]也给出了一个关于数据质量的定义“如果数据满足其预期用途的要求,那么数据具有质量”。ISO8000数据质量系列国际标准[19]指出数据质量是数据治理的重要组成部分,它可以确保组织的数据适用于目的。它指的是数据集的整体效用,以及它为其他用途轻松处理和分析的能力。
总而言之,数据质量是指数据满足人们的隐性或显性期望的程度。且高质量数据需要满足以下3点:数据适合预期的使用目的;数据正确地表达所描述事物和现象的真实构造;数据符合某个标准或达到人们期望的水平。
数据质量维度是测量或评估数据质量的基础,是量化数据质量的标准。数据质量的提高可以通过改进数据质量维度来实现。不同的数据集,数据质量维度可能不同,但一般都包含数据的一致性、完整性、唯一性、准确性、有效性和及时性,如图2所示。为了确保数据质量,可以根据自身业务场景和需求制定相应的数据质量维度,对于特定的关键数据而言,并非所有的维度都适用,例如智能化设备出厂日期就只能评估有效性和完整性。
图2 数据质量维度
数据质量测量是指为了达到某一预期,按照一定的标准从数据质量维度进行衡量,以确定数据达到预期的程度。通过测量,可以比较不同对象之间的时间、空间差距,从而做出决策。有效的测量是决定是否能够达到预期程度的决定性因素,有效测量的特点包括:有目的、可重复、可解释。
数据质量管理就是指对数据从计划、获取、存储、共享、维护、应用到消亡等阶段可能引发的各种数据质量问题,进行识别、测量、监控、预警等一系列管理活动,其终极目标是通过可靠的数据提升数据在使用中的价值,提升数据的完整性、准确性和真实性,并最终为企业赢得经济效益提供坚实可靠的数据基础。
本研究中简单地将数据质量管理理解为一种业务原则,需要将合适的人员、流程和技术进行有机整合,改进数据质量各维度的数据问题,提高数据质量。但企业数据治理的实质在于如何提升各个关键领域和关键活动的数据质量,从而获得更大的业务成果或经济利益。
数据质量管理是数据治理的重要组成部分,通常用在数据模型设计、数据资产管理、主数据管理、数据仓库等解决方案中。数据质量管理可以是反应性的被动管理,也可以是预防性的主动管理。目前很多公司将数据质量管理的技术与企业管理的流程相结合,从而提升数据质量管理的主动能力。
数据质量管理从技术上、业务上和管理上解决数据质量问题。数据质量问题及表现形式见表1。
表1 数据质量问题及表现形式
序号数据质量问题表现形式1数据模型设计数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确2数据源存在数据质量问题采集的数据存在重复、不完整、不准确等问题,而采集过程没有对这些问题做清洗处理3数据采集过程质量问题采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败4数据传输过程的问题数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题5数据装载过程的问题数据清洗规则、数据转换规则、数据装载规则配置有问题6数据存储的质量问题数据存储设计不合理、数据的存储能力有限、人为后台调整数据等引起的数据丢失、数据无效、数据失真、记录重复7业务端数据输入不规范常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错;人工录入的数据质量存在不规范行为8缺乏数据规划没有明确的数据质量目标,没有制定数据质量相关的政策和制度9数据输入规范不统一不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾
续表1
序号数据质量问题表现形式10缺乏有效的数据质量问题处理机制数据质量问题从发现、指派、处理、优化没有统一的流程和制度支撑,数据质量问题无法闭环11缺乏有效的数据管控机制对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核
数据质量管理包含严格设置数据标准,采用正确的技术、投入合理的资源来管理数据质量。数据质量管理策略和技术的应用可以作用于数据质量管理的事前、事中、事后3个阶段,如图3所示。
图3 数据质量管理
数据质量管理应秉持预防为主的理念,加强数据质量管理过程中事前预防、事中控制、事后补救的各种策略和措施,以实现企业数据质量的持续提升。
事前预防即防患于未然是数据质量管理的上上之策。数据质量管理的事前预防从组织机制建设、标准规范、制度流程3个方面入手。
2.1.1 加强组织建设
企业需要建立组织机制,提升数据质量在员工认知中的重要程度。组织在实施数据质量管理时,应考虑管理层面制度、技术层面评价体系、协同层面信息传递等多方面因素,在适应现有数据管理政策、现实约束的情况下开展工作,提前做好风险评估、制定应对措施。
2.1.2 落实数据标准
数据标准的有效执行和落地是数据质量管理的必要条件。数据标准包括数据模型标准、主数据和参考数据标准、指标数据标准等。
(1)数据模型标准对数据模型中的业务定义、业务规则、数据关系、数据质量规则等进行统一定义,通过元数据管理工具对这些标准和规则进行统一管理。在数据质量管理过程中,可以将这些标准映射到具体业务流程中,并将数据标准作为数据质量评估的依据,实现数据质量的稽查核验,使得数据的质量校验有据可依、有法可循。
(2)主数据和参考数据标准包含主数据和参考数据的分类标准、编码标准、模型标准,它们是主数据和参考数据在各部门、各业务系统之间进行共享的保障。
(3)指标数据是在业务数据的基础上按照一定业务规则加工汇总的数据。指标数据标准统一了分析指标的统计口径、统计维度、计算方法的基础,不仅是各业务部门共识的基础,也是数据仓库、BI项目的主要建设内容,为数据仓库的数据质量稽查提供依据。
2.1.3 制度流程保障
数据质量管理是一个闭环管理流程,包括业务需求定义、数据质量测量、根本原因分析、实施改进方案、控制数据质量。
在数据质量管理制度流程保障方面,需要加大对数据质量团队的赋权,并通过团队承诺、制度流程、问责机制等方式形成数据质量管理共识。项目立项前,应当明确项目质量控制考核指标KPI,包括数据质量控制要求和技术手段。明确目标期望、达成数据质量管理共识后,可依据通用型数据质量控制框架,结合智能矿山建设需要、项目管理和团队管理特点,设计相应数据质量管理框架和流程。在项目立项时制定数据质量管理计划,参考质量管理经典方法中“定义-测量-分析-改进-控制”流程改善工具、PDCA“计划-执行-检查-处理”数据质量改进问题解决模型等,明确各步骤中工作开展方式、目的及产出。项目设计中也应制定数据质量评价规则、库表设计规范、各环节数据质量检查问题清单。
数据质量管理制度的作用在于约束各方加强数据质量意识,督促各方在日常工作中重视数据质量,在发现问题时能够追根溯源、主动解决。
数据质量管理的事中控制是指在数据维护和使用过程中监控和管理数据质量。通过建立数据质量的流程化控制体系,对数据的创建、变更、采集、清洗、转换、装载、分析等各个环节的数据质量进行控制,如图4所示。
图4 数据流转环节
智能化煤矿项目建设中要充分考虑各数据流转环节和智能化煤矿建设场景共性需要后,针对数据采集,可通过数据采集系统替代人工收集及审核,并将审核经验规则化,配置在数据采集系统中。数据开发利用采用数据自动审核与人工巡查加工结果和经验判断的方式相结合,在数据中台配置数据质量自动化巡检任务,并根据发现的问题影响分级提示数据清洗人员,针对敏感数据,也可考虑采用隐私计算场景下的数据质量治理框架等评估并督促数据质量提升。
2.2.1 加强数据源头的控制
从数据的源头控制好数据质量,让数据“规范化输入、标准化输出”是解决企业数据质量问题的关键所在。企业可以考虑从数据自动化采集、维护好数据字典、自动化数据校验、人工干预审核等几个方面做好源头数据质量的管理。
2.2.2 加强流转过程的控制
数据质量问题不止发生在源头,如果以最终用户为终点,那么数据采集、存储、传输、处理、分析中的每一个环节都有可能出现数据质量问题。所以,要对数据全生命周期中的各个过程都做好数据质量的全面预防。
2.2.3 事中控制的相关策略
事中控制的相关策略主要包括:质量规则的持续更新、数据质量的持续监控、先进技术使用、数据质量预警机制和数据质量报告。
只要是人为干预的过程,总会存在数据质量问题,即使抛开人为因素,数据质量问题也无法避免。为了尽可能减少数据质量问题,减轻数据质量问题对业务的影响,需要及时发现问题并采取相应的补救措施。
2.3.1 定期质量监控
定期质量监控也叫定期数据测量,是对某些非关键性数据和不适合持续测量的数据定期重新评估,为数据所处状态符合预期提供一定程度的保证。定期监控数据的状况,为数据在某种程度上符合预期提供保障,发现数据质量问题及问题的变化,从而制定有效的改进措施。
2.3.2 数据问题补救
质量控制无法做到100%的数据问题防治,企业需要定期进行主动的数据清理和补救措施,以纠正现有的数据问题。数据问题的补救措施主要有清理重复数据、清理派生数据、缺失值处理和异常值处理。
2.3.3 持续改进优化
数据质量管理是个持续的良性循环,不断进行测量、分析、探查和改进可全面改善企业的信息质量。通过对数据质量管理策略的不断优化和改进,从对数据问题甚至紧急的数据故障只能被动做出反应,过渡到主动预防和控制数据缺陷的发生。
经过数据质量测量、数据问题根因分析以及数据质量问题修复,可评估数据模型设计是否合理,是否还有优化和提升的空间,数据的新增、变更、采集、存储、传输、处理、分析各个过程是否规范,预置的质量规则和阈值是否合理。如果模型和流程存在不合理的地方或可优化的空间,那么就实施数据质量管理优化。
3.1.1 数据质量框架
数据质量管理框架如图5所示,以ISO8000质量标准体系为依据,某矿山公司设计了PDCA(计划、执行、检查、处理)持续改进的数据质量管理框架,形成以领导力、持续改进、能力保障的数据质量管理框架。
图5 数据质量管理框架
数据质量管理应以数据清洁为目标,以业务需求为驱动,通过PDCA的持续改进循环,提升数据质量,达到数据质量结果满意。领导力模块应通过制定政策、规范来构建数据质量管理机制,对数据质量的工作起牵引作用。能力保障模块应构建完整的数据组织、流程和工具,以起到支撑作用。
数据质量政策应有不同的层次,数据质量的管控应兼顾宏观方面的指导原则以及微观层面的具体操作要求,引导正确的业务行为,提升企业成员的数据质量意识。数据质量管理应是动态、持续的循环过程以满足不断变化的业务需求。通过技术工具将数据质量自动融入日常业务,不断提升数据质量管理组织的管理水平、改善数据质量工具平台,使企业数据质量持续提高。
3.1.2 数据质量基本要求
智能矿山数据质量包含智能矿山数据完整性、数据及时性、数据准确性、数据一致性、数据唯一性、数据有效性6个方面的基本要求。
3.1.3 数据质量管理开展原则
智能矿山数据质量管理工作应遵循以下原则开展:智能化业务过程受控、数据标准管理、领导员工共同参与、逐步推进、过程持续改善。
数据质量管理活动是需求驱动活动,智能化矿山数据质量建设过程中数据质量管理团队通过业务调研、影响分析、模型敏感性分析等方式,对数据进行数据质量稽核控制、数据质量评估度量及数据质量持续改进3个方面进行数据全流程持续监控。
3.2.1 数据质量稽核控制
基于重要性和成本效应原则识别出需要进行质量控制的数据,分阶段有序地将数据质量控制规则落地。依据数据在数据库落地时的质量特性及数据质量规则类型,确定数据质量控制规则。
3.2.2 数据质量评估度量
数据质量评估度量旨在规范矿山各级单位的流程,确保度量结果可信。数据质量度量应从“设计质量”和“执行质量”两个方面开展,评估数据质量综合水平,揭示数据质量问题。执行质量度量宜考虑6个数据质量维度,从客户关注重要性、法律财务风险性、业务流程战略性三要素评估数据内容的清洁度,业务领域可根据阶段性的管理重点和诉求调整评估的要素。数据质量度量过程包括:制定数据质量目标、确定数据质量度量范围、设计数据质量度量指标、确定执行数据质量衡量标准、实施数据质量度量、发布数据质量度量报告。
3.2.3 数据质量改进
矿山企业数据质量改进专项工作包括信息系统改进和专项工作落实。矿山企业数据质量改进日常工作包括制定改进措施、跟踪改进情况、刷新目标基线。
智能矿山数据质量管理是矿山管理的关键领域之一,其目的是提高煤矿数据的准确性、一致性和完整性,为管理决策提供可靠的数据支持。通过智能化技术和方法的应用,可以有效管理和优化矿山生产数据,提高生产效率、优化资源利用、提升安全管理水平,并为决策者提供科学准确的数据支持。未来,智能矿山数据质量管理将继续发展和完善,呈现以下几个发展趋势。
(1)数据智能化管理。随着人工智能和大数据技术的不断发展,智能化矿山数据质量管理将更多地利用自动化和智能化的手段,实现煤矿数据的自动采集、处理和分析,提高数据质量管理的效率和准确性。
(2)多源数据融合。智能矿山数据质量管理将更多地关注多源数据的融合和管理,包括传感器数据、人工采集数据、市场数据等,通过整合不同来源的数据,形成更全面、准确的数据基础,增强决策支持能力。
(3)数据安全和隐私保护。随着数据的大规模采集和使用,数据安全和隐私保护将成为智能矿山数据质量管理的重要问题。未来的研究将注重数据安全和隐私保护的技术与方法,确保煤矿数据的安全性和合规性。
(4)跨平台、跨系统的数据管理。煤矿往往涉及多个系统和平台,未来的智能矿山数据质量管理将致力于实现数据的无缝集成和流动,通过数据标准化和互操作性的提升,实现数据在不同系统和平台间的共享和利用。
总体而言,智能矿山数据质量管理的发展将进一步推动煤矿行业向数字化、智能化转型,提高煤矿的生产效率、安全管理水平和决策支持能力,为煤矿行业的可持续发展提供有力支撑。
[1] 刘扬.数据质量管理研究与实践[J].石油知识,2023(3):44-45.
[2] 周林兴,徐承来,宋大成.智慧城市视域下政府数据质量优化反馈机制研究[J].情报,2021,40(7):146-156.
[3] 刘峰,曹文君,张建明,等.我国煤炭工业科技创新进展及“十四五”发展方向[J].煤炭学报,2021,46(1):1-15.
[4] 王国法,杜毅博,徐亚军,等.中国煤炭开采技术及装备50年发展与创新实践——纪念《煤炭科学技术》创刊50周年[J].煤炭科学技术,2023,51(1):1-18.
[5] 王国法.煤矿智能化最新技术进展与问题探讨[J].煤炭科学技术,2022,50(1):1-27.
[6] 谭章禄,吴琦.基于层级链参考模型的智慧矿山建设问题分析[J].矿业科学学报,2022,7(2):257-266.
[7] 谭章禄,王美君.智慧矿山数据治理概念内涵、发展目标与关键技术[J].工矿自动化,2022,48(5):6-14.
[8] 何敏.智能煤矿数据治理框架与发展路径[J].工矿自动化,2020,46(11):23-27.
[9] 谭章禄,王美君.智能化煤矿数据治理概念模型及技术架构研究[J].矿业科学学报,2023,8(2):242-255.
[10] 王鹏,胡而已,徐金陵,等.智能化矿山数据融合共享规范体系研究[J].中国煤炭,2022,48(6) :19-27.
[11] 计蓉,侯慧娟,盛戈皞,等.基于粒子群优化堆叠降噪自编码器的电力设备状态数据质量提升[J/OL].上海交通大学学报,1-12[2024-02-26].https://doi.org/10.16183/j.cnki.jsjtu.2023.388.
[12] 王鹏,杨林,张冬阳,等.矿山智能化数据战略研究[J].中国煤炭,2023,49(10) :1-10.
[13] 朱有产,梁玮轩,王英姿.基于时间序列的配电网数据清理和融合方法研究[J].电网技术,2021,45(7):2839-2846.
[14] 李欢,于韶飞,陈勇,等.一种基于数据治理的石化企业工业 大数据应用方法[J].信息技术与标准,2024(1):19-27.
[15] 王国法,庞义辉,刘峰,等.智能化煤矿分类、分 级评价指标体系[J].煤炭科学技术,2020,48 (3):1-13.
[16] 李志强,李根.煤矿智能化建设探索与实践[J].中国煤炭,2022,48 (1):46-52.
[17] REDMAN T C.Data quality:The field guide[M].New York:Digital Press,2001.
[18] OLSON J.Data quality:The accuracy dimension[M].New York:Morgan Kaufmann Publishers Inc,2003.
[19] 王军玲,李华,王强.ISO 8000数据质量系列标准探析[J].标准科学,2010(12):44-46.
移动扫码阅读
HAN Peiqiang,HU Eryi,YE Lan,et al.Research and practice of intelligent mine data quality management[J].China Coal,2024,50(2):70-76.DOI:10.19880/j.cnki.ccm.2024.02.009