失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 极大似然估计 最大后验概率估计(MAP) 贝叶斯估计

极大似然估计 最大后验概率估计(MAP) 贝叶斯估计

时间:2024-03-22 13:58:57

相关推荐

极大似然估计 最大后验概率估计(MAP) 贝叶斯估计

1、贝叶斯公式

三种参数估计方法都和贝叶斯公式有关,因此首先从分析贝叶斯公式入手:

贝叶斯公式可以表达为:

posterior:通过样本X得到参数的概率

likehood:通过参数得到样本X的概率

prior:参数的先验概率,一般是根据人的先验知识来得出的。比如人们倾向于认为抛硬币实验会符合先验分布:beta分布。当我们选择beta分布的参数时,代表人们认为抛硬币得到正反面的概率都是0.5

evidence:,样本X发生的概率,是各种条件下发生的概率的积分

2、极大似然估计

目标是寻求能最大化likehood:的值。可以写出目标函数:

一般使用对数来进行简化处理:

要最大化L,对L求导数并令导数为0即可求解。

3、最大后验估计(MAP)

和极大似然估计不同的是,MAP寻求的是能使后验概率最大的值。

之所以可以省略分母p(X),是因为p(X)和没有关系。

加上对数处理后,上面公式可以表达为:

的先验分布,我们可以按照实际情况来选择,比如抛硬币实验,我们就可以选择上面

说过的beta分布。

至于上面目标函数的求解,也和极大似然估计是一样的,对目标函数求导并令导数为0来求解。

MAP和极大似然的区别:

MAP允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的,因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,比如beta分布的,我们还可以调节把估计的结果“拉”向先验的幅度,越大,这个顶峰越尖锐。这样的参数,我们叫做预估模型的“超参数”。

4、贝叶斯估计

贝叶斯估计和MAP挺像的,都是以最大化后验概率为目的。区别在于:

1)极大似然估计和MAP都是只返回了的预估值,就完事了

2)MAP在计算后验概率的时候,把分母p(X)给忽略了,在进行贝叶斯估计的时候则不能忽略

3)贝叶斯估计要计算整个后验概率的概率分布

还是回到这两个公式:

这里有一个技巧,对于一个特定的likehood,如果我们选择了一个先验概率分布,

通过上面两个公式的计算,得出的后验概率和先验概率是同分布的,这时候我们说这个先验分布是共轭先验。

可以举几个例子:

likehood为高斯分布,prior为高斯分布,则posterior也为高斯分布

likehood为伯努利分布(二项式分布),prior为beta分布,则posterior也为beta分布

likehood为多项式分布,prior为Dirichlet分布(beta分布的一个扩展),则posterior也为Dirichlet分布

根据上面的描述,在实践中我们往往会选择共轭先验来简化。在把后验概率推导为和先验概率一样的分布形式的时候,分母p(X)其实可以看做一个常数,往往充当了一个normalize,归一化的作用。

求解的时候,既然我们根据先验分布知道了后验是什么分布,那我们求出后验分布的期望值,即是需要估计的参数的值:

知道了后验是什么分布,那么求这个分布的期望值应该不是什么难事。

贝叶斯估计相对于最大后验估计的好处还在于,贝叶斯估计计算了整个后验概率的分布,从而也能求出其他一些比如分布的方差之类的值来供参考,比如计算出来方差太大的,我们可以认为分布不够好,从而把这个当做选择超参数的一个考虑因素。实际上,贝叶斯估计会比MAP把估计的结果往先验结果“拉”的程度还提高了一些,从而使估计结果更靠近先验结果。

5、和经验风险最小化和结构风险最小化的联系

来自《统计学习方法》

这里先解释一下经验风险最小化和结构风险最小化

经验风险最小化:

结构风险最小化:

结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项。

正则化的好处将在下一篇文章中总结。

以下是来自《统计学习方法》的一些结论:

1、当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计(对数损失函数的形式:)

2、当模型是条件概率分布,损失函数是对数损失函数时,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计(MAP)

对于这两个结论,我个人是有一点疑问:

上文中极大似然的概率表示是,但对数损失函数的概率表示为,这两个概率表示是等价的吗?

Reference:

ML, MAP, and Bayesian — The HolyTrinity of Parameter Estimation and DataPrediction

如果觉得《极大似然估计 最大后验概率估计(MAP) 贝叶斯估计》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。