数据分层

1. 概述(Overview)

数据分层是企业数据治理体系的核心组成部分,与元数据管理共同构成数据资产化的底层结构。

比喻:元数据是图书馆的索引卡片,数据分层是图书的分类系统。无索引和分类,再多的数据也无法高效使用。

数据分层的目标是将数据从混乱状态转向有序体系,实现规范化管理、高复用性和一致性保障。


2. 本质(Essence)

数据分层的核心本质

按照加工程度和使用目的,将数据组织成不同层次,实现规范化管理、复用性提升和一致性保证。

核心价值

价值点 描述
降低资源冗余 避免重复计算与存储,提高系统效率
保证数据一致性 统一计算口径与定义,确保数据准确性
提升开发效率 可复用已有数据层,减少重复开发
降低维护成本 屏蔽底层变化对上层影响,实现变更隔离
构建有序数据体系 将企业数据从混沌走向有序,提高管理和决策能力

3. 模型(Model)

3.1 数据架构逻辑分层模型

graph TD
    A[数据源层] --> B[数据采集层]
    B --> C[接入与传输层] 
    C --> D[数据存储层]
    D --> E[数据计算层]
    E --> F[数据应用层]
    G[支撑系统层] -.-> D
    G -.-> E
    G -.-> F
层级 功能 说明
数据源层 数据输入 包括结构化、半结构化、非结构化数据
数据采集层 数据接入 日志代理、API抓取、消息队列等
接入与传输层 数据清洗与传输 初步清洗和转换,Kafka/Pulsar等
数据存储层 数据持久化 离线(HDFS/对象存储)、实时(KV/内存)
数据计算层 数据加工与聚合 批处理、流处理、流批一体
数据应用层 数据输出 报表、BI、OpenAPI、AI接口
支撑系统层 元数据、监控等 元数据、调度、监控、告警、安全审计

3.2 经典数据仓库分层模型

层级 全称 功能 特点
ODS Operational Data Store 原始数据存储 保持原貌,基础清洗
DWD Data Warehouse Detail 明细层 按模型清洗、规范化整合
DWS Data Warehouse Summary 汇总层 轻度汇总,生成常用指标
ADS Application Data Store 应用层 面向具体场景,直接使用
graph TD
    A[原始数据源] --> B[ODS层]
    B --> C[DWD层]
    C --> D[DWS层] 
    D --> E[ADS层]
    F[报表应用] --> E
    G[分析应用] --> E
    H[推荐系统] --> E

3.3 模型分层原则


4. 能力体系(Capability System)

4.1 核心能力

能力 描述
数据规范化管理 按预定义模型组织数据
数据复用 分层设计实现逻辑与数据复用
一致性保障 统一计算口径,避免不一致结果
依赖管理 管理层级间依赖关系
变更隔离 屏蔽底层变化对上层影响
质量控制 分层实施数据质量校验

4.2 协同能力(与元数据管理)


5. 架构模型(Architecture Model)

5.1 分层存储架构

graph LR
    A[高频访问数据] --> B[内存/列式存储]
    A --> C[低频访问数据] --> D[对象存储]
    B --> E[实时分析]
    D --> F[历史分析]

5.2 分层计算架构


6. 类型体系(Taxonomy)

分类维度 类型 描述
数据加工层次 原始层 原始数据基础清洗
明细层 结构化处理,保留详细信息
汇总层 聚合计算,生成指标
应用层 高度定制化,面向特定应用
数据存储方式 热数据 高频访问,高性能存储
温数据 中频访问
冷数据 低频访问,低成本
业务用途 共享层 跨业务公共数据
领域层 特定业务域数据
应用层 面向具体应用

7. 边界与生态(Boundary & Ecosystem)


8. 治理体系(Governance System)

8.1 分层治理原则

8.2 分层治理实践


9. 演进趋势(Evolution)

方向 描述
智能化 手工定义→智能推荐,静态→动态自适应,规则驱动→模型驱动
实时融合 批处理→流批一体,离线→实时,静态架构→动态架构
标准化 企业标准→行业标准,技术导向→业务导向,静态→可配置

10. 选型方法论(Selection Framework)


11. 总结(Conclusion)

  1. 数据分层是数据治理的基础,与元数据管理构成数据资产化底层结构。
  2. 分层设计需遵循高内聚低耦合、数据复用、逐层加工、变更隔离、统一口径等原则。
  3. 分层与元数据管理密切协同,实现自动化、血缘追踪与可观测治理。
  4. 分层架构需适应业务实时性需求,兼顾性能与复杂度。
  5. 通过规范化分层设计,企业可构建有序数据体系,实现高复用性、一致性与低维护成本。

附:核心架构全景图示意(Mermaid)

graph TD
    subgraph 数据源与采集
        A[数据源层] --> B[采集层]
        B --> C[接入与传输层]
    end
    subgraph 存储与计算
        C --> D[存储层]
        D --> E[计算层]
    end
    subgraph 应用与输出
        E --> F[应用层]
    end
    subgraph 支撑系统
        G[元数据/监控/调度/安全] -.-> D
        G -.-> E
        G -.-> F
    end

关联内容(自动生成)