监督学习的本质问题是:
在给定输入—输出样本对 $(x, y)$ 的条件下, 在某个假设空间 $H$ 中,寻找一个函数 $f$, 使其在未知数据上的期望风险最小。
形式化表达:
$$ \min_{f \in H} ; \mathbb{E}_{(x,y) \sim D}[L(f(x), y)] $$
这一定义揭示了监督学习的三大不变量:
| 维度 | 含义 |
|---|---|
| 假设空间 $H$ | 模型对世界的简化方式 |
| 损失函数 $L$ | 对“错误”的价值判断 |
| 泛化能力 | 对未知世界的适应能力 |
所有监督学习算法,本质上只是对这三者的不同取舍组合。
这不是算法差异,而是输出空间结构的差异。
监督学习算法的根本差异,不在于公式细节,而在于:
它们假设世界“长什么样”
| 假设空间类型 | 核心思想 | 代表模型 |
|---|---|---|
| 线性假设 | 世界可被线性关系近似 | 线性回归、逻辑回归、GLM |
| 距离假设 | 相似样本有相似输出 | KNN |
| 树结构假设 | 世界可由规则切分 | 决策树、随机森林、GBDT |
| 最大间隔假设 | 最安全的边界最可靠 | SVM |
| 概率判别假设 | 输出是条件概率 | Softmax、Logistic |
| 时间依赖假设 | 当前依赖历史 | AR / ARMA / ARIMA |
所有模型都遵循以下原则:
核心假设:
输出是输入特征的线性加权组合
$$ f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b $$
学习目标:最小化平方误差
$$ J(w,b) = \frac{1}{2m}\sum_{i=1}^m (f(x^{(i)}) - y^{(i)})^2 $$

哲学含义:
本质不是“更复杂模型”,而是:
通过特征映射扩展假设空间
线性模型 + 非线性特征 = 表达能力提升
核心突破:
统一形式:
$$ y = g^{-1}(\mathbf{w}^T\mathbf{x} + b) $$
GLM 是 Logistic、Poisson 回归的理论母体。
思想升级:
保留可解释性,引入受控非线性
$$ y_i = \beta_0 + f_1(x_{i1}) + \cdots + f_p(x_{ip}) $$
是“线性理性”向“复杂现实”的一次温和妥协。
通过 Sigmoid 将线性输出映射为概率:
$$ f(\mathbf{x}) = \frac{1}{1+e^{-(\mathbf{w}^T\mathbf{x}+b)}} $$
决策边界由 $\mathbf{w}^T\mathbf{x}+b=0$ 定义。

损失函数来源:最大似然估计(交叉熵)
输出的是条件概率分布:
$$ P(y=k|\mathbf{x}) = \frac{e^{z_k}}{\sum_i e^{z_i}} $$
Softmax 揭示了:
分类不是“判断”,而是“概率分配”。
在所有可分边界中,选择最安全的那一条
即:最大化分类间隔。

$$ k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^T \phi(\mathbf{x}') $$
本质:
这是计算理性对表达能力的折中。
用一组 if-else 规则逼近真实函数

核心问题:
| 指标 | 本质 |
|---|---|
| 熵 | 不确定性 |
| 信息增益 | 不确定性减少 |
| 基尼系数 | 随机不一致概率 |
熵 → ID3
熵 / 属性熵 → C4.5
基尼 / 二叉划分 → CART
本质目标一致:
用更简单的树,换取更强的泛化能力
哲学本质:
多个“有偏但不相关”的模型胜过一个完美模型
进一步牺牲单棵树质量,换取整体多样性。
串行纠错:每一棵树都在修正过去的错误
这是函数空间上的梯度下降。
核心假设:
世界是连续的,相近即相似
权衡核心:
| 模型 | 核心思想 |
|---|---|
| AR | 历史值决定现在 |
| MA | 历史噪声影响现在 |
| ARMA | 二者结合 |
| ARIMA | 差分平稳化 |
线性模型
→ 决策树
→ 随机森林
→ GBDT
→ 深度学习(预留)