数据仓库

一、第一性原理:数据仓库究竟解决什么问题

1. 问题本质

数据仓库的本质并不是“存更多数据”,而是系统性解决以下矛盾:

数据仓库的核心使命:将变化隔离在系统边缘,把稳定沉淀在核心结构中。


2. 核心设计哲学


二、能力模型:从“系统”而非“工具”理解数据仓库

1. 数据仓库能力全景

数据仓库能力体系
├─ 数据采集能力
├─ 数据建模能力
├─ 数据计算能力
├─ 数据存储能力
├─ 数据治理能力
│  ├─ 质量
│  ├─ 元数据
│  ├─ 血缘
│  └─ 指标口径
├─ 数据服务能力
└─ 架构演进能力

所有技术选型,本质上都是在为这些能力服务。


三、架构范式演进:为什么架构一定会这样发展

1. 架构演进路径

数据库 → 数据仓库 → 大数据平台 → 数据中台 → 实时数仓

2. 每次演进解决的问题

阶段 核心矛盾 解决方式
数据库 分析拖慢业务 引入独立仓储
数据仓库 数据规模扩大 分布式存储
大数据平台 数据难以复用 统一建模
数据中台 数据交付效率 服务化
实时数仓 决策延迟 流式计算

四、分层模型:分层不是规范,而是复杂性控制手段

1. 分层的根本原因

2. 经典分层结构

ODS → DWD → DWM → DWS → ADS
        ↑
       DIM

3. 各层存在的“不可替代性”

层级 核心职责 不能省略的原因
ODS 历史留存 数据不可再生
DWD 业务事实 稳定粒度基准
DWM 公共中间结果 成本控制
DWS 主题服务 消费友好
ADS 产品交付 面向用户

五、建模方法论:为什么维度建模最适合分析系统

1. 建模目标

2. 核心抽象

一切分析,本质上是:在某个维度下,对事实进行聚合。


3. 事实表设计哲学

事实类型:


4. 维度设计哲学

缓慢变化维解决方案:


六、指标体系:从“算数”到“共识”的演进

1. 为什么指标必须标准化

2. 指标分层模型


七、实时数仓:另一种架构哲学

1. 实时 vs 离线的根本差异

维度 离线数仓 实时数仓
优先级 准确性 时效性
模型稳定性 相对较低
容错方式 重算 状态恢复

2. 实时数仓的核心挑战


八、数据治理:决定数据仓库能活多久

1. 治理不是附加项

2. 核心治理能力


九、云数据仓库:架构范式的再一次跃迁

1. 核心变化

2. 本质变化

从“自建系统”到“消费能力”。


十、数据集市:组织协作视角下的必然产物


结语

关联内容(自动生成)