Skip to content

3. 最大似然估计和贝叶斯参数估计

PCA(主成分分析)数学推导

1. 问题定义

PCA的目标是找到一个投影方向 ,使得数据在该方向上投影后的方差最大。

设有 维数据点:

2. 数据中心化

首先对数据进行中心化处理:

其中样本均值为:

3. 投影方差最大化

数据在单位向量 )方向上的投影为:

投影后数据的方差为:

由于数据已中心化,,因此:

4. 目标函数

定义协方差矩阵:

因此目标函数为:

5. 拉格朗日乘子法求解

构建拉格朗日函数:

求偏导并令其为零:

得到特征值方程:

6. 解的性质

  • 是协方差矩阵 的特征向量
  • 是对应的特征值,等于投影方差:
  • 为最大化方差,选择最大特征值对应的特征向量
  • 个主成分对应前 个最大特征值的特征向量

LDA(线性判别分析)数学推导

1. 问题定义

LDA的目标是找到一个投影方向 ,使得投影后类间距离最大、类内距离最小。

设有 个类别,第 类有 个样本,总样本数

2. 类内散布矩阵

类的均值:

类的散布矩阵:

类内散布矩阵:

3. 类间散布矩阵

总体均值:

类间散布矩阵:

4. Fisher判别准则

在投影方向 上:

  • 投影后第 类均值:
  • 投影后类内散布:
  • 投影后类间散布:

Fisher判别准则(以二分类为例):

5. 广义特征值问题

目标是最大化:

求导并令其为零:

简化得到广义特征值方程:

等价于:

6. 解的性质

  • 最优投影方向 的特征向量
  • 对应的特征值 等于Fisher判别准则的值
  • 对于 类问题,最多有 个有意义的判别方向
  • 选择最大的几个特征值对应的特征向量作为投影方向

多变量高斯分布的最大似然估计推导

多变量高斯分布在模式识别中应用广泛,其参数的最大似然估计是基础且重要的内容。我们分两种情况进行推导。

情况一:均值已知,协方差矩阵未知

是来自 维多变量高斯分布 的独立同分布样本,其中均值 已知,需要估计协方差矩阵

1. 似然函数

多变量高斯分布的概率密度函数为:

似然函数为:

2. 对数似然函数

3. 求导与最大化

利用矩阵求导公式:

  • (因为 对称)

注意到:

,则:

4. 最大似然估计解

从上式得到:

因此:

情况二:均值和协方差矩阵均未知

当均值 和协方差矩阵 都未知时,需要同时估计这两个参数。

1. 对数似然函数

2. 对均值求导

得到:

3. 对协方差矩阵求导

将估计的均值代入,设 ,类似于情况一的推导:

4. 最大似然估计解

问题:最大似然估计得到的结果是有偏的还是无偏的,二者差距多少,哪一个是更好的结果?

1. 均值估计的无偏性

结论:均值的最大似然估计是无偏的

证明

因此 的无偏估计。

2. 协方差矩阵估计的有偏性

结论:协方差矩阵的最大似然估计是有偏的

分析:考虑情况二中的协方差矩阵估计:

有偏性证明

对于标量情况,我们知道:

推广到多变量情况:

证明思路

  • 当使用样本均值 而非真实均值 时,样本偏差的平方和会系统性地偏小
  • 这是因为样本均值是使平方和最小的点,导致低估了真实的方差

偏差量化

  • 偏差
  • 相对偏差,随样本量增加而减小

3. 无偏估计

为得到协方差矩阵的无偏估计,使用贝塞尔修正

验证无偏性

4. 比较与选择

有偏估计 vs 无偏估计

特性最大似然估计(有偏)无偏估计
偏差
方差较小较大
均方误差小样本时可能更小大样本时更优
实际应用机器学习中常用统计推断中常用

哪个更好?

  • 大样本情况 很大):两者差别很小,,都是渐近无偏的
  • 小样本情况
    • 如果关注无偏性(如统计推断),选择无偏估计
    • 如果关注预测精度(如机器学习),最大似然估计的较小方差可能更有价值
  • 实践建议
    • 统计分析:使用无偏估计(除以
    • 机器学习:使用最大似然估计(除以 ),因为偏差在大数据下可忽略,且计算简单

5. 渐近性质

时:

  • 两种估计都收敛到真实值:
  • 最大似然估计具有渐近正态性和渐近效率性
  • 在大样本下,最大似然估计是"最优"的

模式识别课程学习笔记