Appearance
3. 最大似然估计和贝叶斯参数估计
PCA(主成分分析)数学推导
1. 问题定义
PCA的目标是找到一个投影方向 ,使得数据在该方向上投影后的方差最大。
设有 个 维数据点:
2. 数据中心化
首先对数据进行中心化处理:
其中样本均值为:
3. 投影方差最大化
数据在单位向量 ()方向上的投影为:
投影后数据的方差为:
由于数据已中心化,,因此:
4. 目标函数
定义协方差矩阵:
因此目标函数为:
5. 拉格朗日乘子法求解
构建拉格朗日函数:
对 求偏导并令其为零:
得到特征值方程:
6. 解的性质
- 是协方差矩阵 的特征向量
- 是对应的特征值,等于投影方差:
- 为最大化方差,选择最大特征值对应的特征向量
- 前 个主成分对应前 个最大特征值的特征向量
LDA(线性判别分析)数学推导
1. 问题定义
LDA的目标是找到一个投影方向 ,使得投影后类间距离最大、类内距离最小。
设有 个类别,第 类有 个样本,总样本数
2. 类内散布矩阵
第 类的均值:
第 类的散布矩阵:
类内散布矩阵:
3. 类间散布矩阵
总体均值:
类间散布矩阵:
4. Fisher判别准则
在投影方向 上:
- 投影后第 类均值:
- 投影后类内散布:
- 投影后类间散布:
Fisher判别准则(以二分类为例):
5. 广义特征值问题
目标是最大化:
对 求导并令其为零:
简化得到广义特征值方程:
等价于:
6. 解的性质
- 最优投影方向 是 的特征向量
- 对应的特征值 等于Fisher判别准则的值
- 对于 类问题,最多有 个有意义的判别方向
- 选择最大的几个特征值对应的特征向量作为投影方向
多变量高斯分布的最大似然估计推导
多变量高斯分布在模式识别中应用广泛,其参数的最大似然估计是基础且重要的内容。我们分两种情况进行推导。
情况一:均值已知,协方差矩阵未知
设 是来自 维多变量高斯分布 的独立同分布样本,其中均值 已知,需要估计协方差矩阵 。
1. 似然函数
多变量高斯分布的概率密度函数为:
似然函数为:
2. 对数似然函数
3. 求导与最大化
利用矩阵求导公式:
- (因为 对称)
注意到:
设 ,则:
4. 最大似然估计解
从上式得到:
因此:
情况二:均值和协方差矩阵均未知
当均值 和协方差矩阵 都未知时,需要同时估计这两个参数。
1. 对数似然函数
2. 对均值求导
得到:
3. 对协方差矩阵求导
将估计的均值代入,设 ,类似于情况一的推导:
4. 最大似然估计解
问题:最大似然估计得到的结果是有偏的还是无偏的,二者差距多少,哪一个是更好的结果?
1. 均值估计的无偏性
结论:均值的最大似然估计是无偏的。
证明:
因此 是 的无偏估计。
2. 协方差矩阵估计的有偏性
结论:协方差矩阵的最大似然估计是有偏的。
分析:考虑情况二中的协方差矩阵估计:
有偏性证明
对于标量情况,我们知道:
推广到多变量情况:
证明思路:
- 当使用样本均值 而非真实均值 时,样本偏差的平方和会系统性地偏小
- 这是因为样本均值是使平方和最小的点,导致低估了真实的方差
偏差量化
- 偏差:
- 相对偏差:,随样本量增加而减小
3. 无偏估计
为得到协方差矩阵的无偏估计,使用贝塞尔修正:
验证无偏性:
4. 比较与选择
有偏估计 vs 无偏估计:
| 特性 | 最大似然估计(有偏) | 无偏估计 |
|---|---|---|
| 偏差 | ||
| 方差 | 较小 | 较大 |
| 均方误差 | 小样本时可能更小 | 大样本时更优 |
| 实际应用 | 机器学习中常用 | 统计推断中常用 |
哪个更好?
- 大样本情况( 很大):两者差别很小,,都是渐近无偏的
- 小样本情况:
- 如果关注无偏性(如统计推断),选择无偏估计
- 如果关注预测精度(如机器学习),最大似然估计的较小方差可能更有价值
- 实践建议:
- 统计分析:使用无偏估计(除以 )
- 机器学习:使用最大似然估计(除以 ),因为偏差在大数据下可忽略,且计算简单
5. 渐近性质
当 时:
- 两种估计都收敛到真实值:,
- 最大似然估计具有渐近正态性和渐近效率性
- 在大样本下,最大似然估计是"最优"的