数据质量

1. 概述(Overview)

数据质量(Data Quality)是数据治理体系中最核心的子系统之一,其目标是确保数据资产在全生命周期内保持可信、可用、可控、可观测。高质量的数据是所有数据应用(BI 分析、数据中台、数据仓库、AI/ML、业务系统)的基础。

数据治理负责 提出标准与规则,而数据质量体系负责 执行、监控、反馈、改善,两者构成组织数据可信体系的双轮驱动。


2. 本质(Essence)

从更高抽象层看,数据质量的本质是:

确保数据能够稳定、可预测地反映现实世界并满足业务使用要求。

其背后包含三大核心本质:

  1. **反映真实性**:数据是否如实描述业务事实。
  2. **服务可用性**:数据是否能被下游稳定消费。
  3. **长期可维护性**:数据质量体系是否能随着业务、架构与组织演变自动演进。

数据质量不是单点动作,而是一个 贯穿建模、采集、集成、加工、服务、消费 的持续系统工程。


3. 核心概念模型(Conceptual Model)

数据质量体系通常包含以下核心概念模块:

3.1 数据质量维度(What)

数据行业通用的质量六维模型:

维度描述
准确性 Accuracy数据值是否正确反映业务事实
完整性 Completeness数据是否缺失、字段是否齐全
一致性 Consistency跨系统、跨表口径是否一致
可靠性 Reliability数据是否随时间稳定可信
时效性 Timeliness数据更新是否及时不过期
有效性 Validity数据是否满足格式/约束/规则

3.2 数据质量与其他数据领域的关系(Who / Where)


4. 能力体系(Capability Framework)

数据质量体系能力可抽象为“三横三纵”:

横向能力:评估 — 控制 — 监控

4.1 数据质量评估能力(Understand)

4.2 数据质量控制能力(Control)

4.3 数据质量监控能力(Observe)


纵向能力:规则体系 — 流程体系 — 平台体系

4.4 质量规则体系(Rule System)

包含三类规则:

  1. **结构规则**:类型、格式、枚举、主键唯一性
  2. **内容规则**:准确性、合理性、业务约束
  3. **跨域规则**:跨表一致性、血缘规则、口径定义

4.5 质量流程体系(Process System)

贯穿数据生命周期:

  1. 数据进入前 → 准入质量控制
  2. 数据加工时 → 处理质量控制
  3. 数据产出时 → 输出质量控制
  4. 数据消费前 → 服务质量控制
  5. 质量问题闭环 → 通知 → 定位 → 反馈 → 修复

4.6 质量平台体系(Platform System)

平台化要解决:


5. 架构模型(Architecture Model)

数据质量体系可从“分层架构”与“数据产品架构”两类角度抽象。


5.1 数据分层架构中的质量控制

层级数据质量职责
源数据层(ODS)源头数据探查、入库校验、基本结构质量
集成层(DWD)标准化、去重、清洗、跨系统一致性
建模层(DWM / DWS)指标一致性、约束校验、语义正确性
服务层(ADS)实时性校验、接口质量保证、SLA

5.2 数据网格架构中的数据质量

数据质量在数据网格中体现为:

1. 数据质量即代码(DQ as Code)

2. 数据产品质量基准线

3. 平台提供统一规则引擎 & 监控框架


6. 类型体系(Classification System)

从多个维度对质量问题进行分类以指导治理体系设计。

6.1 按数据特性分类(技术属性)

6.2 按业务场景分类(使用属性)

6.3 按问题形态分类(策略属性)


7. 边界与生态(Boundary & Ecosystem)

数据质量体系与其他子领域有明确边界:

领域区别交集
数据治理定标准指导规则体系
数据安全管权限而非内容可能影响数据可用性
元数据管理描述数据提供规则来源、血缘、定位问题
数据建模定义结构与语义决定可校验性
数据处理 & 调度执行流程提供健康状况 / 任务影响

整个质量生态要求结构化协作:规则 → 校验 → 监控 → 问题闭环 → 报告 → 改进 → 治理反馈


8. 治理体系(Governance System)

8.1 质量规则治理

8.2 质量监控治理

8.3 质量改进治理


9. 演进趋势(Evolution)

未来数据质量主要呈现四大趋势:

  1. **智能化(AI/ML)质量检测**自动发现数据异常、预测问题、生成规则。

  2. **实时化监控(Streaming DQ)**由 T+1 → 分钟级 → 毫秒级实时质量验证。

  3. **自动修复(Auto-Fix)**自动补全、纠正、重试、回滚、重算。

  4. **策略即代码(DQ as Code)**质量规则成为数据产品的一部分:


10. 选型方法论(How to Choose)

选择数据质量方案要考虑以下关键因素:

维度评估内容
业务需求哪些质量维度最关键
数据架构实时 or 离线?湖仓一体 or DWH?
流程耦合性是否需要与现有 ETL/调度深度集成
扩展性是否支持规则即代码、丰富插件
成本效益管理成本、计算成本、运维成本
数据治理成熟度是否已有元数据/血缘系统

典型选型路径(通用):

  1. 轻度需求 → SQL 校验 + 简单告警
  2. 中度需求 → 规则引擎 + 质量大盘 + 血缘关联
  3. 重度需求 → CDC + 实时 DQ + AI 异常检测
  4. 数据网格场景 → DQ as Code 平台化

11. 总结(Summary)

数据质量体系是技术、流程、组织协作共同构成的复杂系统,其核心目标是:

数据质量体系的本质不是工具,而是:

标准(治理) + 规则(建模) + 执行(流程) + 平台(技术) + 改进(闭环)

高质量的数据不是自然产生的,而是被设计、构建、监控、修复、持续改进出来的。

关联内容(自动生成)