失眠网 > 极大似然估计最大后验概率估计

极大似然估计最大后验概率估计

时间：2024-01-04 11:55:40

相关推荐

极大似然估计最大后验概率估计

经验风险最小化：

minf∈F1N∑Ni=1L(yi,f(xi))

结构风险最小化：

minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)

李航博士《统计学习方法》中第一章第九页中有两个论断

1 当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计

证明论断1：

极大似然估计：对于观测的随机变量D，其总体分布为

P(D;θ)

(这里θ是一个未知的参数，是一个常量而不是变量)

S为抽样得到的样本，S=(s1,s2,...,sN)，样本是独立同分布得到的，因此样本的分布为

L(θ)=∏Ni=1P(si;θ)

当S=(s1,s2,...,sN)确定，则上式可以看做是θ的函数。

这个函数反映了在观察结果已知的情况下，θ的“似然程度”，因此上式被叫做似然函数。用似然程度最大的那个θ∗去做θ的估计，这种估计方法叫做”极大似然估计”。取对数，极大平均似然函数为：

maxlogL(θ)=max1N∑Ni=1logP(si;θ)

上式等价于

min−logL(θ)=min1N∑Ni=1−logP(si;θ)

在统计学习中，S就是样本，si=(xi,yi).xi为特征,yi为标签

当模型是条件概率分布时，则P(si;θ)=P(yi|xi;θ)

min−logL(θ)=min1N∑Ni=1−logP(yi|xi;θ)−−−−−（1）

当损失函数是对数损失函数(L(Y,P(Y|X))=−logP(Y|X))，则最小化经验风险的公式为

minf∈F1N∑Ni=1L(yi,f(xi))=minf∈F1N∑Ni=1L(yi,p(yi|xi;θ))=minf∈F1N∑Ni=1−logp(yi|xi;θ)—–（2）

对比(1)(2)两个公式，论断1得证。

证明论断2:

极大似然估计将θ看做是一个确定但未知的常量，而贝叶斯学派则认为θ可以看做一个随机变量，从这个视角出发可得到条件概率P(θ|S)

因此利用贝叶斯公式得到

P(θ|S)=P(S|θ)P(θ)P(S)

最大后验概率估计是要最大化P(θ|S)这个后验概率，因此

maxP(θ|S)=maxP(S|θ)P(θ)

上式与极大似然估计相比，只多了个P(θ)，左边和极大似然估计一样，因此对左边取对数处理求平均似然最大

max1N∑Ni=1logP(si|θ)+logP(θ)

当模型是条件概率分布时，则P(si;θ)=P(yi|xi;θ)因此，

max1N∑Ni=1logP(yi|xi;θ)+logP(θ)

取负号，转换为

min1N∑Ni=1−logP(yi|xi;θ)−logP(θ)−−−−−(3)

当损失函数是对数损失函数(L(Y,P(Y|X))=−logP(Y|X))，模型是条件概率分布时,

结构风险最小化公式

minf∈F1N∑Ni=1L(yi,f(xi))+λJ(f)=minf∈F1N∑Ni=1−logP(yi|xi;θ)+λJ(f)—–(4)

比较公式(3)(4)，则当λJ(f)=−logP(θ)两者等价，论断2得证。

如果觉得《极大似然估计最大后验概率估计》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

极大似然估计 最大后验概率估计

极大似然估计最大后验概率估计