失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 极大似然估计_计量经济学 | 极大似然估计

极大似然估计_计量经济学 | 极大似然估计

时间:2024-01-26 05:35:55

相关推荐

极大似然估计_计量经济学 | 极大似然估计

写在前面:本文写作于被新冠病毒 (COVID-19) 笼罩下的英国。前段时间本人的恩师、苏格兰老爷爷、英国伯明翰大学Emeritus讲席教授Peter Sinclair确诊新冠病毒,实乃不幸。在此祝Peter早日康复。本文全文翻译自伯明翰大学经济学高级讲师Ralph Bailey的课件(Optimization Unit 7 Notes - Maximum Likelihood Estimation:A Ghost Story.) ,意在纪念本人在伯明翰大学的求学岁月,并分享通俗易懂的计量经济学知识给大家。

极大似然估计 (Maximum Likelihood Estimation, MLE) —— 一个鬼故事

一般的原理最好在简单的情境下学习。下面这个例子虽然有点做作,但却可以让我们抓住极大似然估计的要点。

例我们观察到n个0到1之间取值的独立同分布 (IID) 随机变量 。我们不假定它们是均匀分布的:也就是说,它们可能更靠近0或者1。

搞一个傻瓜式的应用:想象一下总共有n个酒鬼在酒吧里消磨时光。凡是把酒喝光的都已经走了,剩下的那些每个人都喝了一部分的酒,喝掉部分的占比记作

比如说,我们看到有四个酒鬼分别有

, , , ,那么他们都快要喝完酒并且准备离开了……

其实吧……其实吧……说来也好玩(都是旧回忆呀),我自己也是在这么一个酒吧里学的极大似然估计。我也不知道是不是我吃错了什么,但当我四下张望时,好像所有人都静止了。连香烟上燃着的烟都静止在空气中。还有一块被隔壁桌手肘无心打翻的鸡尾酒虾味的薯片[1],也固定在那准备用嘴巴接住它的雕像般人上方15厘米处。

那个和我相当聊得来的家伙 (Rather Agreeable Fellow, RAF) 却仿佛不受时间结界的影响。他有一把浓密的胡子,戴着厚厚的卵圆形玻璃眼镜。他不停地用一把有趣的古董烟枪吞云吐雾。(讲道理,这个好像违法诶?)在此之前他还滔滔不绝地跟我说那些关于吸烟和疾病的的统计学研究都毫无意义——其实吸烟有益他的健康。由于他好像懂一点概率论,我决定试着用我概率密度函数的知识炫耀一番,就以现在在这小酒馆里的酒鬼为例。

我在场所有酒鬼……都来自一个随机总体……随机变量……密度函数……不是均匀分布……靠近1而不是0……密度函数族……参数 。比如 。这是正确的形状。[2]RAF[3] 你大概是想说——我就是说(在桌布上画)你看,你看。如果 那就是
我的意思是,看这个。看那个概率密度函数。这边小。小的值就不太会发生,大的值就比较可能发生。所以,这就对啦。RAF【扯起了那块桌布凑近他的眼镜——他实在是近视】让我看看能不能让你这个蛮有道理的解释变得更合理。你观察到了几个0到1之间的数字。你觉得出于某种原因它们由 这种形式的隐含 (underlying) 概率密度函数产生。你画了个 情况下的图,它能够展示数据的特点,也就是结果更可能靠近1而非0。我正是我刚刚说的。RAF对……但是为什么 ?如果你真的觉得 的期望靠近1的话,为什么不选 或者 ?或者你不确定它会是这么高,也可能是 。又或者我们观察到的 都这么高只是出于巧合呢,而隐含分布就是均匀分布: 。【弯腰靠近桌子并在桌布上画着】
我呐,你看, 只是一个例子而已,某种吧。就好像你画的这样,看,你得要估计 才行。比方说,如果你计算一下样本均值。那就是,呃……RAF 。我然后计算隐含分布的期望……呃……RAF[4]。我正是。RAF噢对的。我从来没试过。【开心地笑】这不就是老Pearson那家伙用过的东西嘛,直到我修正了它们。我修正?你说的是Karl Pearson?但他1936年就死了!只有——[5]RAF你看,任何一个傻瓜,哪怕是Pearson,都可以想出一个花哨的估计量 (estimator)。但一旦你仔细想想,你能用它们来做什么呢,嗯?你上面的 是差不多6.018,但它跟 是什么关系?嗯?真实的 会不会是1这么小?或者10这么大?或者假设存在这么个真实的 ,你能告诉我任何关于 概率分布的东西吗?我呃……RAF你当然不能!我那……你能?RAF不,我也不行。我【胜利地】看吧!RAF但这是因为你的 并不是从任何合适的方法推出的。让我给你展示一个更加系统的方法。假设我们知道 是……我或者它的先验 (prior) 概率密度函数是?……RAF【瞪着我】别跟我说那不合理的主观贝叶斯 (Bayesian) 垃圾。我是个科学家,不是个巫师!数字 是固定的,只是我们不知道而已。[6]它描绘了假设中的无限总体(和这里的酒鬼一样的所有可能世界中的所有酒鬼)的性质。我【心想】科学家,啊行。RAF什么?大声说出来!现在重复一遍。假设我们知道 ,那我们就能够知道 , , , 的联合概率密度函数 (joint density function) 。这就是给定 情况下数据的似然方程 (likelihood),我们可以把它写作 来表明这是个基于参数 的方程。但在目前的条件下, 是已知且固定的,所以我们不需要反反复复地提到他们。考虑似然方程 ,如果我们假设这里的 相互独立,那么似然方程 便是各个概率密度函数的乘积:
而极大似然估计就是找到一个 使得 尽可能的大。或者说,让实际观测到这个样本的可能性尽可能高。我所以说……?RAF就是一个最优化问题:目标函数为 ,优化对象为 。 对 求导,一阶导函数的零点为 ,检查下二阶条件 (second-order condition, SOC) 确认这是个极大值。

我 是的,但这里的 有点复杂:有乘法有乘方还有一大堆别的。求导只会变得一团糟。RAF【嘴角抽搐】是的,你确实是对的。但我们可以用一个小窍门来简化它。 是个单调增函数,所以当 取到极大值点时, 也在极大值,反之亦然——这就是对数似然方程 (log-likelihood function)。而且取对数之后,你就可以摆脱那些烦人的乘法和乘方了:密度函数之积的对数即为对数密度函数之和,通常看起来会更直观些,

我是的,当然!呃.....RAF如果 ,那么
现在最大化这个式子,找到 的极大似然估计量。

一阶条件 (FOC) 是 ,代入式子化简得到

因为MLE相当重要,所以它们有自己的特殊记号。他们通常写作 而非 。【他把这拼作‘alpha till-der’,顺便鄙视学生们将它拼成‘alpha twiddle’】我但是,且慢! 不应该是正的吗?否则概率密度就是负的啦!所以我们不应该有负的 对吧?这全是垃圾……这些推理……任何一个傻瓜都……RAF啊,尽管有个负号在前面,但 不是负的呀: 是负的(因为 ),所以实际上
离你之前的估计 并不是很远。我对 取对数这种方法——是不是有点太随意了?RAF对,刚开始看的话是这样的。但很快你会发现 本身也相当重要。我拜托你能不能不要用你臭臭的烟斗向我喷云吐雾了?你知道这对你的健康非常不好的吧?RAF胡说。目前你这个论断的统计证据非常弱。我你怎么知道?RAF我研究过了现有的统计证据。我谁赞助你去做这个研究的?RAF烟草公司。我我明白了……但说回来,目前为止你还没说 比 好在哪里呢!RAF我正要说到呢。MLE几乎所有的优良特性都得在大样本中体现。(如果你想了解更多关于小样本的知识,去跟我的朋友Gossett聊吧。[7]这里的Guinness啤酒还不错。)简而言之:在大样本情况下,MLE估计量 近似正态分布,其均值为 (未知的参数真实值),方差为Cramer-Rao下限(Cramer-Rao Lower Bound, CRLB):
我啥?RAF我们一步一步来。先说MLE估计量的在数轴上的位置 (location)。以我们的小酒馆为例。这个例子中的 是4,但如果我们能够获得更大的样本的话,也就是说, ,我们会发现 。也就是说,MLE估计量是渐进无偏的。我那小样本情况下就不是无偏的咯?RAF对,不一定无偏。我好吧,这解决了MLE估计量位置的问题。如果他们有大样本的话,那就是无偏的。我承认这是个优点。

但你也提到了MLE估计量的分布不是吗。你在桌布上提到的那个表达式:呃……这个: 所以这难道不是说明 趋近于你这里的CRLB么?当 时, ?RAF嗯,让我们回到之前的例子。如果样本量为 , 的估计量是 ,从而有 时,有 。【大样本下由于偏误趋于0,还能推出 】我 ?这又是从哪冒出来的?RAF我们还是不要太纠结细节了。对于所有的估计量来说[8],都有这么一个叫做Cramer-Rao 下限的量。如果 是 的任意一个估计量(即使在小样本情况下)[9],有

而在我们这次的例子中, 就是 。我那大样本呢?RAF在大样本下可以确定 MLE 给出了一个有效 (efficient) 的结果。也就是说它们达到了最小可能的方差: 。换言之,在大样本下它们给出了最可能的估计值。用行话来讲:MLE 是渐进有效的。我喔!RAF没错。我但,你看,这不太对。能说明 很好,但这不是啥都没说么。我们仍然不知道 是啥。而这才是我们做估计的目的呀。实在看不出来有哪点比之前好了。RAF孩子,没关系。你可能只是生来不适合学习统计学。当然,我会给你再解释一遍。我之前提到过,你那简单的估计量 的问题之一是,尽管 ,但我们不清楚真实值 到底是1还是10。我我想你大概是想说,用这个新奇有趣唬人特殊拉风的MLE估计量,我们可以基于 为某个特定值的原假设进行统计检验。RAF啊,你悟到了。是的,就是这样。我你可以多提供点细节吗?RAF好的。我刚刚说了大样本情况下MLE估计量位置的问题 ( ) 和分布的问题 ( ) ,但我还没说 确实是正态分布的呢(大样本情况下)。
我们说MLE估计量是渐进正态的——大样本下正态分布。我所以比方说,怎么检验 这个原假设?RAF嗯, 很难说是大样本吧。我噢,那么……多大才是‘大’?

【一阵诡异的沙哑的笑声。贝叶斯学派大师的亡魂入场】

贝叶斯学派大师的亡魂他戳爆你了,小Ronnie[10]。多大才是大?无限大!古典统计学什么时候有用?当你有无限数量的观测值的时候!都是吃奶的婴儿说的话……【退场】RAF【脸色变苍白、阴森的紫色】吹牛!你就等着看我下一版的《优生学评论》吧!它们会把你绝育干净!我【匆忙地】别放在心里。让我们假设 是个‘大’样本吧。这样的话你怎么检验 这个假设呢?RAF【恢复之前死人似苍白的脸色】假设原假设成立。如果我们认定4是‘大’的,我们可以得到(在原假设下)
如果我们进行标准化,定义 ,那么Z的分布就是 。在我们的样本中,我们发现 ,显然不显著 ( ) 。总结一下,我们的样本不能提供足够证据拒绝 的原假设。

【台下贝叶斯暮光之城的居民在咯咯暗笑】

我所以在实际设定中,统计学家和计量经济学家根据问题想出一个原假设,然后我们给未知参数 赋予了一个值?RAF正是。我让我总结一下到目前为止我学了啥。

(1)MLE是一个成体系的利用数据估计参数的方法。

(2) 的MLE估计量, ,是通过最大化观测值的联合概率密度函数得到的。这个联合密度 可以被认为是的函数,它叫似然方程。

(3)优化对象为 时,最大化 和最大化 是等价的。

(4)是渐进无偏的:当 , 。优点1。

(5)任何估计量 的方差不小于CRLB,它能够由 推出。

(6)在‘大’样本情况下,MLE估计量达到理论最优分布CRLB:它是渐进有效的。优点2。

(7)在‘大’样本情况下,MLE估计量围绕真值正态分布。它是渐进正态的。优点3。

(8)统计检验时未知的由原假设提供[11],就像陪审团审判运用的‘疑罪从无’原则一样,它让我们检验是否有足够证据拒绝模型给定的原假设。RAF精彩。但你还应该加上:

(9)如果你想找到某个的函数的MLE估计量,比方说 ,那就直接是 。优点4。

(10)这些结论也适用于同时估计模型中的多个参数:任何长度的参数向量都可以。优点5。我还有一事。假设某一天我要去教本科二年级的经济学最优化理论 (Optimization for Economists) 这门课。RAF经济学?我是的。假设我要给他们在这门课第7单元讲MLE的原理,要求他们一次掌握多少才合理呢?RAF你觉得这些学生聪明吗?基因上没什么问题吧?我噢,当然:他们中的大多数反应都和鞭子一样快。RAF嗯,那记得让他们多生几个孩子,所有聪明人都应该这样,我就有八个。我实际上,当我上这门课的时候,他们大多数可能更关心及格 (passing their exams) 而不是基因传递 (passing their genes on) 。RAF好吧,即使他们聪明,也别对他们第一次学习抱太大希望。给他们一两个例子让他们自己找出MLE估计量就好,这样他们就能掌握技巧了。

对话到此,我的伙伴穿上了他那过时的外套(当然也可能相当时髦)。但那时,令我惊讶的是他没有推开门,而是看起来——我很难确切形容——嗯,消失在我们桌子旁边的墙里,只留下一本《优生学评论》在桌上,以及空气中一股奇怪的古老烟枪的味道。我不禁思考他究竟是一个怎样的人?

结界打破了。香烟里冒出的白眼继续着它向上的旅程。薯片掉到了那个人的嘴里并被大声地嚼碎。所有的

大概都取值为1了。

调酒师走了过来,心不在焉地拿起了那本《优生学评论》,结果那本书迅速化作尘土,在他的指尖变作虚无。‘快点吧先生,喝完它。别再对着墙说话了。我们都经历了美好时光,但现在已经很晚了。差不多要回家去准备课件了。’

"

参考

^英国乐事 (Walkers) 经典口味。^这是一个概率密度函数,从0到1积分值为1,且靠近1处密度大。^巧合的是,他和Ronald A. Fisher有一样的首字母。^根据期望的定义,对概率密度函数和x的乘积求积分可得。^享年79岁。^贝叶斯计量认为参数是一个随机变量。^William Gossett常被称作"学生",学生t分布就是以他命名的。因为他的赞助人Guinness公司把t分布视作商业机密,Gossett化名“学生”发表了该论文。^不只是MLE估计量。^准确地说是(渐进)无偏估计量。^Ronald的昵称。^原理同LM检验。大样本条件下,Wald、LR和LM检验渐进等价。

如果觉得《极大似然估计_计量经济学 | 极大似然估计》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。