失眠网 > 参数估计—最大似然估计与贝叶斯估计

参数估计—最大似然估计与贝叶斯估计

时间：2021-08-26 06:57:03

相关推荐

参数估计—最大似然估计与贝叶斯估计

文章目录

一参数估计二最大似然估计2.1 参数分量2.2 基本原理2.3 高斯情况2.3.1 协方差矩阵Σ\SigmaΣ已知，而均值μ\muμ未知2.3.2 协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知三贝叶斯估计3.1 基本原理3.2 高斯情况下的贝叶斯估计3.2.1 单变量情况第一步：p(μ∣D)p(\mu|D)p(μ∣D)3.2.2 单变量情况第二步：p(x∣D)p(\textbf{x}|D)p(x∣D)四最大似然估计与贝叶斯估计比较参考

一参数估计

在贝叶斯决策论中，我们已经学习了如何根据先验概率P(ωi)P(\omega_i)P(ωi)与类条件概率密度p(x∣ωi)p(\textbf{x}|\omega_i)p(x∣ωi)来设计最优分类器。但在实际应用中，通常得不到有关问题的概率结构的全部信息。通常的解决方案是利用这些训练样本来估计问题中所涉及的先验概率和类条件密度函数，并把这些估计的结果当做实际问题的先验概率和类条件概率密度，然后在设计分类器

在典型的监督学习问题中，有标注的样本估计先验概率不困难，最大的困难在于估计类条件概率密度：

已有的训练样本数太少，很难满足所有的特征都存在的情况当用于表示特征的向量x的维数较大时，就会产生严重的计算复杂度问题（算法的执行时间，系统的资源开销…）

但如果先验知识允许我们把条件概率密度进行参数化，例如：我们可以假设p(x∣ωi)p(\textbf{x}|\omega_i)p(x∣ωi)是一个多元高斯分布，其均值是μi\mu_iμi，协方差矩阵为Σi\Sigma_iΣi。这样我们就把问题从估计完全未知的类条件概率密度p(x∣ωi)p(\textbf{x}|\omega_i)p(x∣ωi)转化为了估计参数μi\mu_iμi与Σi\Sigma_iΣi。这样的方法被称为参数估计方法。与之对应的也有非参数估计方法。

参数估计问题是统计学中的经典问题，主要的解决方案有两种，分别对应统计学中的两大学派：

最大似然估计——频率学派（Frequentist）贝叶斯估计——贝叶斯学派（Bayesian）

当然，在参数估计完成后，我们仍然使用后验概率作为分类准则。

二最大似然估计

2.1 参数分量

根据每个样本所属的类别对样本集DDD进行分类：D1,D2...,DcD_1,D_2...,D_cD1,D2...,Dc，任意一个分类样本集DjD_jDj中的样本都是独立的根据类条件概率密度函数p(x∣ωj)p(\textbf{x}|\omega_j)p(x∣ωj)来抽取的。因此获得一个重要假设：每个样本集中的样本都是独立同分布的随机变量(independent and identically distributed：i.i.d)，我们还假设每一个类的类条件概率密度p(x∣ωj)p(\textbf{x}|\omega_j)p(x∣ωj)的形式都是已知的，未知的是具体的参数向量θj\theta_jθj的值。比如：假设p(x∣ωj)p(\textbf{x}|\omega_j)p(x∣ωj)服从多维正态分布，这样向量θj\theta_jθj就由分量μj,Σj\mu_j,\Sigma_jμj,Σj所组成。

为了强调类条件概率密度函数p(x∣ωj)p(\textbf{x}|\omega_j)p(x∣ωj)依赖于参数向量θj\theta_jθj的情况，通常写为形如p(x∣ωj,θj)p(\textbf{x}|\omega_j,\theta_j)p(x∣ωj,θj)的形式。因此**最大似然估计（MLE）**解决的就是正确的估计各个类别的具体的参数向量：θ1,θ2,...θc\theta_1,\theta_2,...\theta_cθ1,θ2,...θc。

2.2 基本原理

问题其实就变成了一个条件概率最大的求解，即在已有的训练集的条件下，求使得p(θ∣D)p(θ|D)p(θ∣D) 最大的参数θ\thetaθ，形式化表达为求解

θ^=argmaxθp(θ∣D)\hat{\theta}=\underset{\theta}{argmax}\;p(θ|D)\\ θ^=θargmaxp(θ∣D)

而根据条件概率公式有

p(θ∣D)=p(D∣θ)p(θ)p(D)p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)} p(θ∣D)=p(D)p(D∣θ)p(θ)

因为我们在极大似然估计中假设θ\thetaθ是确定的，所以p(θ)p(\theta)p(θ)就是一个常数。p(D)p(D)p(D)同样是根据已有的数据得到的，也是确定的，或者我们可以把其看作是对整个概率的一个归一化因子。这时候，求解公式 (1) 就变成了求解

θ^=argmaxθp(D∣θ)\hat{\theta}=\underset{\theta}{argmax}\;p(D|\theta)\\ θ^=θargmaxp(D∣θ)

一个有监督的总的样本集分为c类，我们要估计每个类的后验概率，有c个独立的问题，每个问题解决思路相同如下：已知样本集DDD中有n个样本x1,x2...,xnx_1,x_2...,x_nx1,x2...,xn。由于这些样本独立同分布，因此由（3）中的似然函数得：【2】

L(θ)=p(D∣θ)=∏k=1np(xk∣θ)L(\theta)=p(D|\theta)=\prod_{k=1}^np(\textbf{x}_k|\theta) L(θ)=p(D∣θ)=k=1∏np(xk∣θ)

因为样本集DDD已知，p(D∣θ)p(D|\theta)p(D∣θ)可以看作是参数向量θ\thetaθ的函数，参数向量θ\thetaθ的最大似然估计，就是使似然函数：p(D∣θ)p(D|\theta)p(D∣θ)达到最大值的参数向量，记为θ^\hat{\theta}θ^。为了方便分析取对数，定义对数似然函数：

l(θ∣D)=lnp(D∣θ)l(\theta|D)=lnp(D|\theta) l(θ∣D)=lnp(D∣θ)

如果实际的待求参数的个数为p，则参数向量θ\thetaθ可以写成如下的p维向量的形式：θ=(θ1,θ2∗∗,...,θp)t\theta=(\theta_1,\theta_2**,...,\theta_p)^tθ=(θ1,θ2∗∗,...,θp)t。**记∇θ\nabla_\theta∇θ为梯度算子（构建求偏导数的数学式）**这样用数学语言表示求θ^\hat{\theta}θ^的全过程：

∇θ=[∂∂θ1...∂∂θp]l(θ∣D)=ln∑k=1np(xk∣θ)计算：θ^=argmaxθl(θ∣D)等价于：∇θl=∑k=1n∇θlnp(xk∣θ)=0\nabla_\theta=\begin{bmatrix} \frac{\partial }{\partial \theta_1}\\ ...\\ \frac{\partial }{\partial \theta_p} \end{bmatrix}\\ l(\theta|D)=ln\sum_{k=1}^np(\textbf{x}_k|\theta)\\ 计算：\hat{\theta}=\underset{\theta}{argmax}\;l(\theta|D)\\ 等价于： \nabla_\theta l=\sum_{k=1}^n\nabla_\theta lnp(\textbf{x}_k|\theta)=0 ∇θ=⎣⎡∂θ1∂...∂θp∂⎦⎤l(θ∣D)=lnk=1∑np(xk∣θ)计算：θ^=θargmaxl(θ∣D)等价于：∇θl=k=1∑n∇θlnp(xk∣θ)=0

注意：求得的解θ^\hat{\theta}θ^可能是全局最大值点，也可能是局部极值点。

2.3 高斯情况

深入讨论当训练样本服从多元正态分布时的情况。

2.3.1 协方差矩阵Σ\SigmaΣ已知，而均值μ\muμ未知

我们得到以下结论，对于均值的最大似然估计就是对全体样本取平均。

2.3.2 协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知

高斯分布的更典型的情况是协方差矩阵Σ\SigmaΣ和均值μ\muμ都未知。这样参数向量θ\thetaθ由两个分量组成。

先考虑单变量的情况

当高斯函数是多元时，最大似然估计的结果是：

μ^=1n∑k=1nxkΣ^=1n(xk−μ^)(xk−μ^)t\hat{\mu}=\frac{1}{n}\sum_{k=1}^{n}\textbf{x}_k\\ \hat{\Sigma}=\frac{1}{n}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t μ^=n1k=1∑nxkΣ^=n1(xk−μ^)(xk−μ^)t

**均值的最大似然估计就是样本的均值，而协方差的最大似然估计是n个(xk−μ^)(xk−μ^)t(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^t(xk−μ^)(xk−μ^)t的算术平均。**实际上对方差的最大似然估计是有偏的估计，样本的协方差矩阵C=1n−1(xk−μ^)(xk−μ^)tC=\frac{1}{n-1}(\textbf{x}_k-\hat{\mu})(\textbf{x}_k-\hat{\mu})^tC=n−11(xk−μ^)(xk−μ^)t，而我们估计的方差是σ^=n−1nC\hat{\sigma}=\frac{n-1}{n}Cσ^=nn−1C

样本协方差矩阵的推导过程【2】：

三贝叶斯估计

3.1 基本原理

MLP通过最大化似然函数L(θ)L(\theta)L(θ)从而找出参数θ\thetaθ，思想在于找出能最大概率生成这批数据的参数。但是这种做法完全依赖于数据本身，当数据量大的时候，最大似然估计往往能很好的估计出参数 θ\thetaθ；但是当数据量小的时候，估计出来的结果并不会很好。就例如丢硬币问题，当我们投掷了5次，得出了正正正正正的结果，极大似然估计会得出投出正面的概率为100%！这显然是不符常理的。
贝叶斯派的人认为，后验概率中被估计的参数同样服从一种已知的分布，即参数也为一个随机变量。他们在估计参数前会先带来先验知识，例如参数在[0.5,0.6]的区域内出现的概率最大，在引入了先验知识后利用样本估计出参数分布的形式，在数据量小的情况下估计出来的结果往往会更合理。【2】

我们希望利用现有的全部信息来为测试样本x计算分类的依据：后验概率P(ωi∣x)P(\omega_i|\textbf{x})P(ωi∣x)（现有的全部信息一部分为我们的先验知识，比如未知概率密度函数的形式，未知参数取值范围；另一部分则来自训练集本身），假设已有训练集D=D1,D2,...,DcD={D_1,D_2,...,D_c}D=D1,D2,...,Dc，改写后验概率为：P(ωi∣x,D)P(\omega_i|\textbf{x},D)P(ωi∣x,D)表示训练集的重要性，则贝叶斯公式为：

P(ωi∣x,D)=p(x∣ωi,D)P(ωi∣D)∑j=1cp(x∣ωi,D)P(ωj∣D)P(\omega_i|\textbf{x},D)=\frac{p(\textbf{x}|\omega_i,D)P(\omega_i|D)}{\sum_{j=1}^{c}p(\textbf{x}|\omega_i,D)P(\omega_j|D)} P(ωi∣x,D)=∑j=1cp(x∣ωi,D)P(ωj∣D)p(x∣ωi,D)P(ωi∣D)

这一公式指出我们能够根据训练样本提供的信息来确定类条件概率密度和先验概率。

通常认为先验概率可以事先得到，或简单计算得到，P(ωi∣D)P(\omega_i|D)P(ωi∣D)可以简写为P(ωi)P(\omega_i)P(ωi)

有监督学习可以把每个样本都归到它所属的类中，如果i≠ji\not=ji=j，那么样本集DiD_iDi中的训练样本就对p(x∣ωj,D)p(\textbf{x}|\omega_j,D)p(x∣ωj,D)没有任何影响，这样就产生两个简化：

能够对每一个类分别处理：只是用DiD_iDi中的训练样本就能确定p(x∣ωj,D)p(\textbf{x}|\omega_j,D)p(x∣ωj,D)能够对每个类进行分别处理，公式中说明类别的符号都可以省略

本质上我们处理的是c个独立的问题，每个问题形式：已知一组训练样本D，根据这些样本估计p(x∣D)p(\textbf{x}|D)p(x∣D)（未简化为p(x∣ωi,D)p(\textbf{x}|\omega_i,D)p(x∣ωi,D)）

参数估计法的前提是每个类的类条件概率密度形式已知，参数向量θ\thetaθ未知。对于任意一个测试样本x，去除类符号ωi\omega_iωi简化为p(x∣θ)p(\textbf{x}|\theta)p(x∣θ)且形式已知。而贝叶斯估计与最大似然估计的区别体现在，我们不认为θ\thetaθ是一个固定但未知的值，而是服从一个概率分布p(θ)p(\theta)p(θ)。根据p(x∣θ)p(\textbf{x}|\theta)p(x∣θ)、p(θ)p(\theta)p(θ)、与DDD，我们可以得到未知参数θ\thetaθ的后验概率密度函数p(θ∣D)p(\theta|D)p(θ∣D)

p(θ∣D)=p(θ)p(D∣θ)∫p(θ)p(D∣θ)dθ其中:p(D∣θ)=∏i=1np(xk∣θ)【这里xk是训练样本集的某一个样本】p(\theta|D)=\frac{p(\theta)p(D|\theta)}{\int p(\theta)p(D|\theta)d\theta}\\ 其中:p(D|\theta)=\prod_{i=1}^{n}p(\textbf{x}_k|\theta)【这里\textbf{x}_k是训练样本集的某一个样本】 p(θ∣D)=∫p(θ)p(D∣θ)dθp(θ)p(D∣θ)其中:p(D∣θ)=i=1∏np(xk∣θ)【这里xk是训练样本集的某一个样本】

接着根据P(θ∣D)P(\theta|D)P(θ∣D)积分估算测试样本的后验概率p(x∣D)p(\textbf{x}|D)p(x∣D)：

p(x∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ,D)p(θ∣D)dθp(\textbf{x}|D)=\int p(\textbf{x},\theta|D)d\theta\\=\int p(\textbf{x}|\theta,D)p(\theta|D)d\theta p(x∣D)=∫p(x,θ∣D)dθ=∫p(x∣θ,D)p(θ∣D)dθ

由于对测试样本x和训练样本集D的选取是独立进行的，p(x∣θ,D)=p(x∣θ)p(\textbf{x}|\theta,D)=p(\textbf{x}|\theta)p(x∣θ,D)=p(x∣θ)，公式(10)改为：

p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(\textbf{x}|D)=\int p(\textbf{x}|\theta)p(\theta|D)d\theta p(x∣D)=∫p(x∣θ)p(θ∣D)dθ

总结整个贝叶斯估计分为三个阶段：

根据样本与先验知识求得参数的后验概率根据参数的后验概率与类条件概率密度的形式求得每个类的具体的类条件概率密度最后求出每个类的后验概率

3.2 高斯情况下的贝叶斯估计

对高斯正态分布的情况，用贝叶斯估计的方法来计算未知参数θ\thetaθ的后验概率密度函数p(θ∣D)p(\theta|D)p(θ∣D)和设计分类器所需的类条件概率密度函数p(x∣D)p(\textbf{x}|D)p(x∣D)，其中假设p(x∣μ)∼N(μ,Σ)p(\textbf{x}|\mu)\sim N(\mu,\Sigma)p(x∣μ)∼N(μ,Σ)（相当于第一步中的p(x∣θ)p(\textbf{x}|\theta)p(x∣θ)）

3.2.1 单变量情况第一步：p(μ∣D)p(\mu|D)p(μ∣D)

先考虑只有均值μ\muμ未知的情况，同时假设特征向量是一维的。p(x∣μ)∼N(μ,Σ)p(x|\mu)\sim N(\mu,\Sigma)p(x∣μ)∼N(μ,Σ)，而且我们认为所有关于均值μ\muμ的先验知识都在先验概率密度函数p(μ)p(\mu)p(μ)中，且均值μ\muμ服从p(μ)∼N(μ0,σ02)p(\mu)\sim N(\mu_0,\sigma^2_0)p(μ)∼N(μ0,σ02)（μ0,σ02\mu_0,\sigma_0^2μ0,σ02已知），根据3.1节总结的贝叶斯估计三步走：

我们发现p(μ∣D)p(\mu|D)p(μ∣D)是一个指数函数，且指数部分是μ\muμ的二次型，因此p(μ∣D)p(\mu|D)p(μ∣D)实际上任然是正态分布，把p(μ∣D)p(\mu|D)p(μ∣D)写成下面的形式：

利用对应位置系数相等的原则就可以求出μn,σn2\mu_n,\sigma_n^2μn,σn2的值：

上述方程显示了先验知识和样本观测结果是如何被结合在一起，并且形成μ\muμ的后验概率密度函数p(μ∣D)p(\mu|D)p(μ∣D)的，总的来说：

μn\mu_nμn代表在观测n个样本后对μ\muμ的真实值的最好估计，μn\mu_nμn是μ0与μ^n\mu_0与\hat{\mu}_nμ0与μ^n的线性组合

σn2\sigma_n^2σn2表示对这种估计的不确定性（取值更离散，不集中）

如果σ0≠0\sigma_0 \not=0σ0=0，当n趋近于∞\infty∞，μn\mu_nμn趋近于样本均值μ^n\hat{\mu}_nμ^n，当σ0=0\sigma_0=0σ0=0时，μn=μ0\mu_n=\mu_0μn=μ0，这是一种退化的情况：我们对先验估计μ0\mu_0μ0是如此的确信，以至于任何观测样本都无法改变我们的认知。当σ0\sigma_0σ0远大于σ\sigmaσ，表示我们对先验估计μ0\mu_0μ0如此的不确信以至于直接拿样本均值μ^n\hat{\mu}_nμ^n当做μ\muμ

根据公式（7），σn2\sigma_n^2σn2是n的单调递减函数，也就是说每观测一个样本，我们对μ\muμ的估计的不确定性就会减小，当μ\muμ增加时，p(μ∣D)p(\mu|D)p(μ∣D)的概率密度图就会变得更尖锐，当n趋近于无穷大时，逼近狄拉克函数。

狄拉克δ函数是一个广义函数，在物理学中常用其表示质点、点电荷等理想模型的密度分布，该函数在除了零以外的点取值都等于零，而其在整个定义域上的积分等于1。
狄拉克δ函数在概念上，它是这么一个“函数”：在除了零以外的点函数值都等于零，而其在整个定义域上的积分等于1。【4】

3.2.2 单变量情况第二步：p(x∣D)p(\textbf{x}|D)p(x∣D)

在得到均值的后验概率密度p(μ∣D)p(\mu|D)p(μ∣D)后，我们就可以计算类条件概率密度p(x∣D)p(\textbf{x}|D)p(x∣D)（实际上是p(x∣ωi,D)p(\textbf{x}|\omega_i,D)p(x∣ωi,D)，把c个问题独立，去除类有关变量后）

求得类条件概率密度后再带入到公式(19)就能求出后验概率了。

四最大似然估计与贝叶斯估计比较

最大似然估计与贝叶斯估计在训练样本趋于无穷时效果是一样的，然而在实际的问题中，训练样本总是有限的，决定我们选择哪个方法的主要因素有

计算复杂度：MLE只涉及一些微分与求极值，而贝叶斯估计计算复杂的积分可理解性：MLE是基于设计者所提供的训练样本的一个最佳解答，而贝叶斯估计方法得到的结果则是许多可行解的加权平均值，反映出对各种可行解的不确定程度对初始先验知识的信任程度：MLE得到的类条件概率密度p(x∣θ^)p(\textbf{x}|\hat{\theta})p(x∣θ^)形式与先验的假设是一样的，而贝叶斯估计得到的形式可能与初始假设不相同，贝叶斯方法能比MLE利用更多有用的信息。

总结贝叶斯方法有很强的理论基础，但在实际应用中最大似然估计更加简便，且性能也相差无几。