监督学习

一、监督学习的第一性原理

1. 本质定义

监督学习的本质问题是:

在给定输入—输出样本对 $(x, y)$ 的条件下, 在某个假设空间 $H$ 中,寻找一个函数 $f$, 使其在未知数据上的期望风险最小

形式化表达:

$$ \min_{f \in H} ; \mathbb{E}_{(x,y) \sim D}[L(f(x), y)] $$

这一定义揭示了监督学习的三大不变量:

维度 含义
假设空间 $H$ 模型对世界的简化方式
损失函数 $L$ 对“错误”的价值判断
泛化能力 对未知世界的适应能力

所有监督学习算法,本质上只是对这三者的不同取舍组合


2. 监督学习的基本问题类型

这不是算法差异,而是输出空间结构的差异


二、监督学习的核心认知框架

1. 假设空间视角(核心升维)

监督学习算法的根本差异,不在于公式细节,而在于:

它们假设世界“长什么样”

假设空间类型 核心思想 代表模型
线性假设 世界可被线性关系近似 线性回归、逻辑回归、GLM
距离假设 相似样本有相似输出 KNN
树结构假设 世界可由规则切分 决策树、随机森林、GBDT
最大间隔假设 最安全的边界最可靠 SVM
概率判别假设 输出是条件概率 Softmax、Logistic
时间依赖假设 当前依赖历史 AR / ARMA / ARIMA

2. 学习原则(跨模型不变量)

所有模型都遵循以下原则:


三、线性世界观:线性模型家族

1. 线性回归:可解释性的极致

核心假设

输出是输入特征的线性加权组合

$$ f(\mathbf{x}) = \mathbf{w}^T \mathbf{x} + b $$

学习目标:最小化平方误差

$$ J(w,b) = \frac{1}{2m}\sum_{i=1}^m (f(x^{(i)}) - y^{(i)})^2 $$

w b 不同取值对应的平面

哲学含义


2. 多项式回归:线性形式下的非线性表达

本质不是“更复杂模型”,而是:

通过特征映射扩展假设空间

线性模型 + 非线性特征 = 表达能力提升


3. 广义线性模型(GLM)

核心突破

统一形式:

$$ y = g^{-1}(\mathbf{w}^T\mathbf{x} + b) $$

GLM 是 Logistic、Poisson 回归的理论母体。


4. 广义可加模型(GAM)

思想升级

保留可解释性,引入受控非线性

$$ y_i = \beta_0 + f_1(x_{i1}) + \cdots + f_p(x_{ip}) $$

是“线性理性”向“复杂现实”的一次温和妥协。


四、概率判别世界观

1. 逻辑回归:概率化的线性分类

通过 Sigmoid 将线性输出映射为概率:

$$ f(\mathbf{x}) = \frac{1}{1+e^{-(\mathbf{w}^T\mathbf{x}+b)}} $$

决策边界由 $\mathbf{w}^T\mathbf{x}+b=0$ 定义。

线性决策边界 非线性决策边界

损失函数来源:最大似然估计(交叉熵)


2. Softmax 回归:多分类的自然推广

输出的是条件概率分布:

$$ P(y=k|\mathbf{x}) = \frac{e^{z_k}}{\sum_i e^{z_i}} $$

Softmax 揭示了:

分类不是“判断”,而是“概率分配”。


五、最大间隔世界观:支持向量机

1. SVM 的核心思想

在所有可分边界中,选择最安全的那一条

即:最大化分类间隔。

SVM的几何意义


2. 核技巧:隐式特征映射

$$ k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^T \phi(\mathbf{x}') $$

本质

这是计算理性对表达能力的折中。


六、规则切分世界观:树模型家族

1. 决策树的本质

用一组 if-else 规则逼近真实函数

决策树结构示意

核心问题


2. 不纯度度量

指标 本质
不确定性
信息增益 不确定性减少
基尼系数 随机不一致概率

3. 决策树算法谱系

熵 → ID3
熵 / 属性熵 → C4.5
基尼 / 二叉划分 → CART

4. 剪枝:结构风险控制

本质目标一致:

用更简单的树,换取更强的泛化能力


七、集成思想:从单模型到系统理性

1. 随机森林:去相关化的并行集成

哲学本质

多个“有偏但不相关”的模型胜过一个完美模型


2. 极端随机森林

进一步牺牲单棵树质量,换取整体多样性。


3. 梯度提升树(GBDT)

串行纠错:每一棵树都在修正过去的错误

这是函数空间上的梯度下降


八、距离世界观:KNN

核心假设

世界是连续的,相近即相似

权衡核心:


九、时间依赖世界观

时间序列模型的特殊性

模型 核心思想
AR 历史值决定现在
MA 历史噪声影响现在
ARMA 二者结合
ARIMA 差分平稳化

十、监督学习的演进与选型方法论

1. 模型演进路径

线性模型
 → 决策树
 → 随机森林
 → GBDT
 → 深度学习(预留)

2. 模型选择的四个核心约束

关联内容(自动生成)