{"name":"机器学习","id":"数据技术-机器学习","content":"# 机器学习（Machine Learning）\n\n## 一、机器学习的第一性原理（Principles）\n\n![](/assets/2024118193311.webp)\n\n### 1.1 学习的本质定义\n\n**机器学习的本质**：\n\n> 在不完全信息条件下，利用有限样本，对未知决策函数进行近似，并在未来数据上保持稳定表现。\n\n这一过程可抽象为：\n\n```\n现实世界\n ↓（采样）\n数据分布\n ↓（假设空间）\n模型族\n ↓（优化）\n参数\n ↓（决策）\n预测 / 行为\n```\n\n三大永恒矛盾：\n\n* 拟合能力 vs 泛化能力\n* 表达能力 vs 稳定性\n* 不确定性数据 vs 确定性决策\n\n---\n\n### 1.2 频率学派与贝叶斯学派\n\n#### 频率视角\n\n* 参数是**固定但未知的常量**\n* 数据是随机变量\n* 学习目标：**经验风险最小化（ERM）**\n\n> 用训练数据的经验分布近似真实分布，通过优化损失函数估计参数\n\n#### 贝叶斯视角\n\n* 参数本身是**随机变量**\n* 数据是已观测事实\n* 学习结果是**参数的后验分布**\n\n> 本质区别：是否显式建模不确定性\n\n---\n\n### 1.3 什么问题适合机器学习\n\n机器学习适用问题需同时满足：\n\n1. 问题中存在可学习的模式（显性或隐性）\n2. 难以通过确定性规则精确建模\n3. 拥有足够规模与质量的数据\n\n---\n\n## 二、学习范式与方法体系（Methodologies）\n\n### 2.1 学习范式总览\n\n| 范式 | 核心目标 | 本质描述 |\n| ----- | ---- | ----------- |\n| 监督学习 | 预测 | 从样本到标签的函数逼近 |\n| 无监督学习 | 描述 | 发现数据内在结构 |\n| 强化学习 | 决策 | 延迟奖励下的最优控制 |\n| 迁移学习 | 复用 | 跨任务知识迁移 |\n\n---\n\n### 2.2 监督与无监督学习\n\n* **监督学习**：直接逼近 $f(x) \\to y$\n* **无监督学习**：学习 $p(x)$ 或其结构\n\n> 二者本质区别在于：是否存在明确的监督信号\n\n---\n\n### 2.3 集成学习：降低不确定性的系统方法\n\n> 集成学习的核心哲学：**通过多样性对抗不确定性**\n\n#### 能力结构\n\n```\n集成学习\n├── 多样性来源\n│ ├── 数据扰动（Bagging）\n│ ├── 样本权重（Boosting）\n│ └── 模型异构（Stacking）\n├── 偏差-方差权衡\n├── 鲁棒性提升\n└── 工程代价\n```\n\n#### 方法分类\n\n* **Bagging**：通过数据扰动降低方差\n* **Boosting**：通过序列依赖降低偏差\n* **Stacking**：通过元模型融合不同假设空间\n\n##### AdaBoost\n\n强分类器形式：\n\n$$\nf(x)=\\sum_{i=1}^n\\alpha_iG_i(x)\n$$\n\n> 本质：逐步聚焦“难样本”，重塑数据分布\n\n---\n\n## 三、模型、假设空间与复杂度（Models）\n\n### 3.1 参数模型 vs 非参数模型\n\n| 维度 | 参数模型 | 非参数模型 |\n| ---- | ---- | ----- |\n| 表达能力 | 有限 | 随数据增长 |\n| 可解释性 | 强 | 弱 |\n| 偏差 | 较高 | 较低 |\n| 方差 | 较低 | 较高 |\n\n> 本质区别：**假设空间容量是否随数据增长**\n\n---\n\n### 3.2 模型生命周期\n\n1. 模型拟合（训练集）\n2. 模型选择（验证集）\n3. 模型评估（测试集）\n\n> 三者必须**严格隔离**，否则评估失真\n\n---\n\n## 四、优化：从搜索到逼近（Optimization）\n\n### 4.1 优化的本质\n\n> 优化不是“找最优解”，而是在巨大搜索空间中**高效逼近可接受解**\n\n---\n\n### 4.2 梯度下降的几何直觉\n\n![](/assets/20231021212810.jpeg)\n\n* 利用局部线性近似\n* 沿负梯度方向迭代更新\n\n$$\nw := w - \\alpha \\nabla J(w)\n$$\n\n![](/assets/20231022135050.png)\n\n#### 工程稳定性技巧\n\n* 学习率控制\n* 特征缩放\n* 小批量梯度下降\n* 软更新\n\n---\n\n### 4.3 随机化优化方法谱系\n\n| 方法 | 核心思想 |\n| ---- | ------ |\n| 随机搜索 | 空间采样 |\n| 爬山法 | 局部改进 |\n| 模拟退火 | 接受劣解逃逸 |\n| 遗传算法 | 群体进化 |\n\n> 随机性用于对抗局部最优\n\n---\n\n## 五、泛化、过拟合与正则化（Generalization）\n\n### 5.1 偏差-方差分解\n\n![](/assets/20231025155745.png)\n\n* 偏差：模型假设过强\n* 方差：模型过于灵活\n\n---\n\n### 5.2 正则化的统一解释\n\n> 正则化的本质：**对函数空间施加约束**\n\n形式：\n\n$$\nJ = Loss + \\lambda \\cdot Complexity\n$$\n\n![](/assets/2023102516181.png)\n\n* L1：结构稀疏化\n* L2：参数平滑化\n\n---\n\n### 5.3 学习曲线与数据规模\n\n![](/assets/2023102517425.jpg)\n![](/assets/2023102517435.jpg)\n\n> 数据并非万能，错误的模型结构无法被数据拯救\n\n---\n\n## 六、实验设计与评估体系（Evaluation）\n\n### 6.1 实验的工程哲学\n\n> 实验的目的不是“证明模型好”，而是**理解模型行为**\n\n* 控制变量\n* 全因子实验\n* 连续实验\n\n---\n\n### 6.2 数据划分策略\n\n* Holdout\n* 交叉验证\n* 自助法\n* 时间切割\n* 离线 Replay\n\n---\n\n### 6.3 评估指标体系\n\n* Accuracy / Precision / Recall\n* F-Score\n* ROC / AUC\n* LogLoss\n* RMSE\n\n> 指标选择应服从业务风险偏好\n\n---\n\n## 七、强化学习：延迟奖励下的学习（RL）\n\n> 强化学习解决的是：**序列决策与长期回报最大化**\n\n![](/assets/20231028204303.png)\n\n### 7.1 核心抽象\n\n* 状态 $S$\n* 动作 $A$\n* 奖励 $R$\n* 策略 $\\pi$\n\n### 7.2 贝尔曼方程\n\n$$\nQ(s,a)=R(s)+\\gamma\\max_{a'}Q(s',a')\n$$\n\n> 本质：递归定义最优性\n\n---\n\n## 八、概率图模型：结构化不确定性\n\n### 8.1 建模哲学\n\n> 用图结构表达随机变量之间的条件独立性\n\n```mermaid\nstateDiagram-v2\na --> c\na --> b\nb --> d\nb --> c\nc --> e\n```\n\n$$\np(A,B,C,D,E)=p(A)p(B|A)p(C|A,B)p(D|B)p(E|C)\n$$\n\n---\n\n## 九、从算法到系统（ML as a System）\n\n### 9.1 机器学习系统生命周期\n\n```\n数据 → 特征 → 模型 → 决策 → 反馈 → 再训练\n```\n\n### 9.2 系统性挑战\n\n* 数据漂移\n* 概念漂移\n* 评估失效\n* 线上线下一致性\n\n---\n\n## 十、总结：机器学习的长期视角\n\n> 机器学习不是\"找到一个好算法\"，\n> 而是**构建一个能够持续学习、纠错和进化的系统**。\n\n真正稳定的能力来自：\n\n* 对不确定性的敬畏\n* 对复杂度的克制\n* 对系统行为的持续观测\n\n## 关联内容（自动生成）\n\n- [/数据技术/监督学习.md](/数据技术/监督学习.md) 监督学习是机器学习的重要范式之一，与文档中提到的监督学习概念密切相关\n- [/数据技术/非监督学习.md](/数据技术/非监督学习.md) 非监督学习是机器学习的另一个重要范式，与文档中提到的无监督学习概念相对应\n- [/数据技术/深度学习.md](/数据技术/深度学习.md) 深度学习是机器学习的一个重要分支，体现了文档中提到的模型复杂度与表达能力的关系\n- [/数据技术/特征工程.md](/数据技术/特征工程.md) 特征工程是机器学习实践中重要的环节，直接影响模型的学习效果和泛化能力\n- [/数据技术/推荐系统.md](/数据技术/推荐系统.md) 推荐系统是机器学习的重要应用领域，体现了文档中提到的从算法到系统的转化\n- [/数据技术/数据分析.md](/数据技术/数据分析.md) 数据分析与机器学习密切相关，机器学习往往作为数据分析的高级手段\n- [/数据技术/数据建模.md](/数据技术/数据建模.md) 数据建模是机器学习的基础，涉及文档中提到的假设空间和模型选择问题\n- [/数据技术/数据处理.md](/数据技术/数据处理.md) 数据处理是机器学习流程中的重要环节，影响数据质量从而影响学习效果\n","metadata":"tags: ['数据技术']","hasMoreCommit":true,"totalCommits":26,"commitList":[{"date":"2026-02-12T14:07:03+08:00","author":"MY","message":"doc: 整理标签","hash":"290b3e8ad18f48832ac282290238d020fc030a88"},{"date":"2025-12-26T18:16:54+08:00","author":"MY","message":"feat(数据技术): 重构机器学习文档，全面更新理论体系和实践方法","hash":"116e3864f570707f5d9e77ed16f6cdf57335b813"},{"date":"2024-01-22T18:46:02+08:00","author":"MY","message":"✏机器学习","hash":"94299c37debe9123be5db9a862adf191b1017c2b"},{"date":"2024-01-19T17:35:20+08:00","author":"MY","message":"✏机器学习","hash":"d141ae7de03ac07f1b95a456694cfbf444d4def3"},{"date":"2024-01-18T19:53:50+08:00","author":"MY","message":"✏机器学习","hash":"9a111f2472dc3a39f9de6e2d067540cd62d3482e"},{"date":"2024-01-17T20:03:46+08:00","author":"MY","message":"✏机器学习","hash":"a64bdf732c7a380407a3f494f728a61f8632c16d"},{"date":"2024-01-16T17:09:34+08:00","author":"MY","message":"✏机器学习","hash":"b714702cc196f2cd811d78d0c59eeb6e21685768"},{"date":"2024-01-16T13:39:44+08:00","author":"MY","message":"📦机器学习","hash":"cd5c15fdc0352c79322085de552b50fdc39a8c58"},{"date":"2024-01-15T19:59:37+08:00","author":"MY","message":"✏机器学习","hash":"2c1b5d157dc865776cc181a665e28a6363adb772"},{"date":"2024-01-11T16:55:40+08:00","author":"MY","message":"✏机器学习","hash":"66271e3ebb1c61ad9ffc0638ff64a6358fd9cdfe"}],"createTime":"2023-10-19T20:10:09+08:00"}