{"name":"数据仓库","id":"数据技术-数据仓库","content":"# 数据仓库\n\n## 一、第一性原理：数据仓库究竟解决什么问题\n\n### 1. 问题本质\n\n数据仓库的本质并不是“存更多数据”，而是系统性解决以下矛盾：\n\n* **分析负载与交易负载的结构性冲突**\n* **业务复杂性不断累积但分析需求要求稳定性**\n* **数据口径在多人、多系统、多时间下的一致性问题**\n\n> 数据仓库的核心使命：**将变化隔离在系统边缘，把稳定沉淀在核心结构中。**\n\n---\n\n### 2. 核心设计哲学\n\n* 解耦优先：OLTP 与 OLAP 物理与逻辑隔离\n* 稳定优先：先稳定模型，再优化性能\n* 历史优先：默认一切数据都会被回溯分析\n* 复用优先：计算一次，反复使用\n\n---\n\n## 二、能力模型：从“系统”而非“工具”理解数据仓库\n\n### 1. 数据仓库能力全景\n\n```\n数据仓库能力体系\n├─ 数据采集能力\n├─ 数据建模能力\n├─ 数据计算能力\n├─ 数据存储能力\n├─ 数据治理能力\n│  ├─ 质量\n│  ├─ 元数据\n│  ├─ 血缘\n│  └─ 指标口径\n├─ 数据服务能力\n└─ 架构演进能力\n```\n\n> 所有技术选型，本质上都是在为这些能力服务。\n\n---\n\n## 三、架构范式演进：为什么架构一定会这样发展\n\n### 1. 架构演进路径\n\n```\n数据库 → 数据仓库 → 大数据平台 → 数据中台 → 实时数仓\n```\n\n### 2. 每次演进解决的问题\n\n| 阶段    | 核心矛盾   | 解决方式   |\n| ----- | ------ | ------ |\n| 数据库   | 分析拖慢业务 | 引入独立仓储 |\n| 数据仓库  | 数据规模扩大 | 分布式存储  |\n| 大数据平台 | 数据难以复用 | 统一建模   |\n| 数据中台  | 数据交付效率 | 服务化    |\n| 实时数仓  | 决策延迟   | 流式计算   |\n\n---\n\n## 四、分层模型：分层不是规范，而是复杂性控制手段\n\n### 1. 分层的根本原因\n\n* 隔离变化\n* 降低心智负担\n* 支持不同粒度的复用\n\n### 2. 经典分层结构\n\n```\nODS → DWD → DWM → DWS → ADS\n        ↑\n       DIM\n```\n\n### 3. 各层存在的“不可替代性”\n\n| 层级  | 核心职责   | 不能省略的原因 |\n| --- | ------ | ------- |\n| ODS | 历史留存   | 数据不可再生  |\n| DWD | 业务事实   | 稳定粒度基准  |\n| DWM | 公共中间结果 | 成本控制    |\n| DWS | 主题服务   | 消费友好    |\n| ADS | 产品交付   | 面向用户    |\n\n---\n\n## 五、建模方法论：为什么维度建模最适合分析系统\n\n### 1. 建模目标\n\n* 面向分析而非事务\n* 面向变化而非当前状态\n\n### 2. 核心抽象\n\n* **事实（Fact）**：业务过程中可度量的事件\n* **维度（Dimension）**：观察事实的视角\n\n> 一切分析，本质上是：**在某个维度下，对事实进行聚合。**\n\n---\n\n### 3. 事实表设计哲学\n\n* 粒度优先于性能\n* 最细粒度优先于提前聚合\n\n事实类型：\n\n* 事务事实表\n* 周期快照事实表\n* 累积快照事实表\n\n---\n\n### 4. 维度设计哲学\n\n* 描述环境，而非过程\n* 允许冗余，拒绝复杂 Join\n* 必须支持历史回溯\n\n缓慢变化维解决方案：\n\n* 全量快照\n* 拉链表（SCD）\n\n---\n\n## 六、指标体系：从“算数”到“共识”的演进\n\n### 1. 为什么指标必须标准化\n\n* 指标即语言\n* 指标即决策依据\n\n### 2. 指标分层模型\n\n* 原子指标：定义“怎么算”\n* 派生指标：定义“看什么”\n* 衍生指标：定义“怎么比较”\n\n---\n\n## 七、实时数仓：另一种架构哲学\n\n### 1. 实时 vs 离线的根本差异\n\n| 维度    | 离线数仓 | 实时数仓 |\n| ----- | ---- | ---- |\n| 优先级   | 准确性  | 时效性  |\n| 模型稳定性 | 高    | 相对较低 |\n| 容错方式  | 重算   | 状态恢复 |\n\n---\n\n### 2. 实时数仓的核心挑战\n\n* 状态管理\n* 维度关联\n* 一致性与延迟权衡\n\n---\n\n## 八、数据治理：决定数据仓库能活多久\n\n### 1. 治理不是附加项\n\n* 无治理的数据仓库一定会崩\n\n### 2. 核心治理能力\n\n* 数据质量规则\n* 指标口径管理\n* 元数据与血缘\n* 权限与安全\n\n---\n\n## 九、云数据仓库：架构范式的再一次跃迁\n\n### 1. 核心变化\n\n* 存算分离\n* 弹性扩展\n* 托管化治理\n\n### 2. 本质变化\n\n> 从“自建系统”到“消费能力”。\n\n---\n\n## 十、数据集市：组织协作视角下的必然产物\n\n* 数据集市不是小数仓\n* 而是**组织边界的技术映射**\n\n---\n\n## 结语\n\n* 技术会过时\n* 架构会演进\n* **抽象能力与建模能力不会**\n\n## 关联内容（自动生成）\n\n- [/数据技术/数据架构.md](/数据技术/数据架构.md) 数据仓库是数据架构的重要组成部分，两者在企业数据体系建设中相互关联，共同构成完整的数据管理体系\n- [/数据技术/数据治理.md](/数据技术/数据治理.md) 数据治理为数据仓库提供质量保障、元数据管理和指标口径统一等关键能力，是数据仓库发挥价值的基础\n- [/数据技术/数据建模.md](/数据技术/数据建模.md) 数据建模是数据仓库设计的核心环节，维度建模等方法论直接影响数据仓库的结构和易用性\n- [/数据技术/大数据.md](/数据技术/大数据.md) 大数据技术为现代数据仓库提供了更强大的存储和计算能力，支撑海量数据的处理和分析需求\n- [/数据技术/数据分层.md](/数据技术/数据分层.md) 数据分层是数据仓库架构设计的关键理念，通过分层实现复杂性控制和变更隔离\n- [/数据技术/数据质量.md](/数据技术/数据质量.md) 数据质量是数据仓库的生命线，直接影响分析结果的准确性和业务决策的有效性\n- [/数据技术/元数据管理.md](/数据技术/元数据管理.md) 元数据管理为数据仓库提供数据血缘、影响分析等能力，提升数据仓库的可维护性和透明度\n- [/数据技术/数据中台.md](/数据技术/数据中台.md) 数据中台是在数据仓库基础上的进一步演进，强调数据的服务化和能力复用\n- [/数据技术/数据分析.md](/数据技术/数据分析.md) 数据分析是数据仓库的主要应用场景之一，数据仓库为分析提供稳定、一致的数据服务\n- [/数据技术/数据血缘.md](/数据技术/数据血缘.md) 数据血缘追踪数据仓库中数据的流转过程，对于理解数据来源和影响范围至关重要\n","metadata":"tags: ['数据技术']","hasMoreCommit":true,"totalCommits":11,"commitList":[{"date":"2026-02-12T14:07:03+08:00","author":"MY","message":"doc: 整理标签","hash":"290b3e8ad18f48832ac282290238d020fc030a88"},{"date":"2026-02-05T14:45:15+08:00","author":"MY","message":"docs(data-warehouse): 添加数据仓库核心概念和架构演进详解","hash":"b37901008e41a163932495b8b6142b3a11ad712c"},{"date":"2025-11-05T14:16:26+08:00","author":"MY","message":"docs(data-technology): 更新数据仓库文档结构与内容","hash":"00a949af36a01a8bf999cabbff21b9b43acaadcb"},{"date":"2024-06-07T16:52:43+08:00","author":"MY","message":"✏数据工程","hash":"73c5aa52aae75df6b029c35992649a51797cac80"},{"date":"2023-08-09T21:47:59+08:00","author":"MY","message":"✏️数据仓库","hash":"0d45bfae4e1149c0cf72c692761c40b3f1a11354"},{"date":"2023-08-08T22:49:17+08:00","author":"MY","message":"✏️数据仓库","hash":"8548471f0ef0d181fe016f5ef21d842d57ca3893"},{"date":"2023-08-07T23:30:20+08:00","author":"MY","message":"✏️数据仓库","hash":"ad82980cd116d83e85f4d7433a604c4b92b0312f"},{"date":"2023-08-06T21:13:10+08:00","author":"MY","message":"✏️数据仓库","hash":"241dd1c5f7082109c6a23b3a480189668e35d77b"},{"date":"2023-08-02T20:49:52+08:00","author":"MY","message":"✏️数据仓库","hash":"c86a1af19822f158b458d723ff1f2eee8554ae63"},{"date":"2023-08-01T17:38:21+08:00","author":"MY","message":"✏数据仓库","hash":"ec12b06092749c290408b1c38337ef8d95923c6e"}],"createTime":"2023-07-31T21:02:09+08:00"}