失眠网 > [数理知识]参数估计：点估计区间估计及置信区间

[数理知识]参数估计：点估计区间估计及置信区间

时间：2018-09-30 14:08:05

文章目录

Preliminaries数学期望、方差与协方差常用概率分布及其期望、方差参数估计问题一、大数定律及中心极限定理1 切比雪夫不等式(Chebyshev)2 大数定律(Law of Large Numbers)3 中心极限定理(central limit theorems)4 大数定理和中心极限定理的理解二、点估计(point estimator)1 矩估计2 最大似然估计(maximum Likelihood)三、区间估计(interval estimate)置信区间(confidence interval)四、估计的评价标准1 无偏性(unbias)2 有效性3 一致性(相合性)

Preliminaries

了解参数估计，需要知道以下先导知识：

数学期望、方差与协方差

参见：[数理知识]机器学习入门: 概率论与信息论基础 - 数学期望、方差与协方差

常用概率分布及其期望、方差

参见：[数理知识]机器学习入门: 概率论与信息论基础 - 常用概率分布及其期望、方差

参数估计问题

参数估计是数理统计中重要的统计推断问题之一。

给定 x∼P(x;θ)x \sim P(x;\theta)x∼P(x;θ)，参数 θ\thetaθ 控制了 xxx 的分布“范围”：

我们在已知其概率分布模型和一系列随机变量 xxx 的值之后，试图推测出 θ\thetaθ 的值；（点估计）在点估计的基础上，从抽样数据的统计计算中可以对其与总体样本的真实参数的接近程度求出一个概率度量，在此概率下给出总体参数估计的一个可信的区间范围。（区间估计）

这类问题就被统称为参数估计问题。

一、大数定律及中心极限定理

在正式开始参数估计之前，需要了解一下其先导知识——大数定律及中心极限定理。

1 切比雪夫不等式(Chebyshev)

设 xxx 是随机变量，如果其期望 E\mathbb EE 和方差 Var(x)Var(x)Var(x) 存在，则 ∀ε>0\forall \varepsilon>0∀ε>0 有：

Var(x)ε2≥P(∣x−E∣≥ε)\frac{Var(x)}{\varepsilon^2} \ge P(\vert x-\mathbb E \vert \ge \varepsilon)ε2Var(x)≥P(∣x−E∣≥ε)

证明：因为 ∣x−E∣≥ε\vert x-\mathbb E \vert \ge \varepsilon∣x−E∣≥ε 且 ε≥0\varepsilon \ge 0ε≥0 所以有 (∣x−E∣ε)2≥1(\frac{\vert x-\mathbb E \vert}{\varepsilon})^2 \ge 1(ε∣x−E∣)2≥1。
设 xxx 的概率密度函数为 p(x)p(x)p(x)，则有：
P(∣x−E∣≥ε)=∫∣x−E∣≥εp(x)dx≤∫∣x−E∣≥ε(∣x−E∣ε)2p(x)dx≤ε−2∫−∞+∞(∣x−E∣)2p(x)dxP(∣x−E∣≥ε)≤Var(x)ε2\begin{aligned} P(\vert x-\mathbb E \vert \ge \varepsilon) &= \int_{\vert x-\mathbb E \vert \ge \varepsilon}p(x)dx\\ &\le \int_{\vert x-\mathbb E \vert \ge \varepsilon}(\frac{\vert x-\mathbb E \vert}{\varepsilon})^2p(x)dx\\ &\le {\varepsilon}^{-2} \int_{-\infin}^{+\infin}(\vert x-\mathbb E \vert)^2 p(x)dx \\ P(\vert x-\mathbb E \vert \ge \varepsilon) &\le \frac{Var(x)}{\varepsilon^2} \end{aligned}P(∣x−E∣≥ε)P(∣x−E∣≥ε)=∫∣x−E∣≥εp(x)dx≤∫∣x−E∣≥ε(ε∣x−E∣)2p(x)dx≤ε−2∫−∞+∞(∣x−E∣)2p(x)dx≤ε2Var(x)∴ 原命题得证。

显然，1−Var(x)ε2≤P(∣x−E∣<ε)1-\frac{Var(x)}{\varepsilon^2} \le P(\vert x-\mathbb E \vert < \varepsilon)1−ε2Var(x)≤P(∣x−E∣<ε)。切比雪夫不等式给出了如何在随机变量的分布未知而期望和方差已知的情况下估计P(∣x−E∣≥ε)P(\vert x-\mathbb E \vert \ge \varepsilon)P(∣x−E∣≥ε)的极限。下文中的切比雪夫大数定律等几个大数定律变形均可由切比雪夫不等式证明得到。

2 大数定律(Law of Large Numbers)

依概率收敛: 设有随机变量序列 x1,x2,⋯ ,xn,⋯x_1,x_2,\cdots ,x_n,\cdotsx1,x2,⋯,xn,⋯ 对随机变量 xxx 使得 ∀ε>0\forall \varepsilon>0∀ε>0 有：lim⁡n→∞P(∣x−xn∣≥ε)=0\lim_{n \rightarrow \infin}P\left( \vert x-x_n \vert \ge \varepsilon \right)=0n→∞limP(∣x−xn∣≥ε)=0则称序列xix_ixi依概率收敛于 xxx，记为 xi⟶Pxx_i \stackrel{P}{\longrightarrow}xxi⟶Px。

大数定律：设有随机变量序列 x1,x2,⋯ ,xn,⋯x_1,x_2,\cdots ,x_n,\cdotsx1,x2,⋯,xn,⋯ ，其任意划分的互斥组合的期望值从小到大排列为 a1,a2,⋯ ,ana_1,a_2,\cdots ,a_na1,a2,⋯,an 使得 ∀ε>0\forall \varepsilon>0∀ε>0 有：
lim⁡n→∞P(∣1n∑i=1nxi−an∣≥ε)=0\lim_{n \rightarrow \infin}P \left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-a_n \vert \ge \varepsilon \right)=0n→∞limP(∣n1i=1∑nxi−an∣≥ε)=0或记作：
1n∑i=1nxi⟶Pan,n→∞\frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }a_n,~n \rightarrow \infinn1i=1∑nxi⟶Pan,n→∞

Tip：大数定律说明了随机变量序列前若干项的算术平均值在某种条件下收敛到这些项的数学期望。（注意：数学期望 E\mathbb EE在概念上不等于算术平均值 1n∑inxi\frac{1}{n}\sum_i^n x_in1∑inxi，只有在xix_ixi等概率分布时二者等值。）
大数定律以严格的数学形式表现了随机事件在足够的广度上的频率稳定性。利用这一性质，我们可以基于抽样样本中的均值来估计整体的均值。

它具有以下几个变形：

切比雪夫大数定律设相互独立的随机变量序列(集合) x1,x2,⋯ ,xn,⋯x_1,x_2,\cdots ,x_n,\cdotsx1,x2,⋯,xn,⋯ 具有相同的数学期望 μi=μ\mu_i=\muμi=μ ，若其也具有相同的方差或方差 σi2<C\sigma_i^2<Cσi2<C，CCC为一个大于零的常数，则对于 ∀ε>0\forall \varepsilon>0∀ε>0 有：

lim⁡n→∞P(∣1n∑i=1nxi−μ∣≥ε)=01n∑i=1nxi⟶Pμ\begin{aligned} \lim_{n \rightarrow \infin}P&\left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-\mu \vert \ge \varepsilon \right)=0\\ &\frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }\mu \end{aligned}n→∞limP(∣n1i=1∑nxi−μ∣≥ε)=0n1i=1∑nxi⟶Pμ该定律说明了在方差满足一定条件时，序列服从大数定律。

khintchine大数定律设相互独立的随机变量序列(集合) x1,x2,⋯ ,xn,⋯x_1,x_2,\cdots ,x_n,\cdotsx1,x2,⋯,xn,⋯ 满足同分布且具有有限的数学期望时，序列服从大数定律。该定理在切比雪夫大数定律的基础上，补充了当方差未知或不存在时，序列是否满足大数定律的问题。

3 中心极限定理(central limit theorems)

Lindeberg-Levy中心极限定理：设随机变量序列x1,x2,⋯ ,xn,⋯x_1,x_2,\cdots ,x_n,\cdotsx1,x2,⋯,xn,⋯ 满足独立同分布假设，记 ∑inxi=X\sum_i^n x_i = X∑inxi=X ，若 μi=μ\mu_i=\muμi=μ、σi2=σ2\sigma_i^2=\sigma^2σi2=σ2，当 nnn 足够大时，XXX 近似满足 X∼N(nμ,nσ2)X \sim N(n\mu,n\sigma^2)X∼N(nμ,nσ2) 或者说 1n∑inxi∼N(μ,σ2n)\frac{1}{n}\sum_i^n x_i \sim N(\mu,\frac{\sigma^2}{n})n1∑inxi∼N(μ,nσ2)。

Lyapunov中心极限定理：(一般化推广) 设随机变量序列 x1,x2,⋯ ,xn,⋯x_1,x_2,\cdots ,x_n,\cdotsx1,x2,⋯,xn,⋯ 满足独立同分布假设，记 ∑inxi=X\sum_i^n x_i = X∑inxi=X，当 nnn 足够大时，XXX 近似满足 X∼N(∑inμi,∑inσi2)X \sim N(\sum_i^n \mu_i,\sum_i^n \sigma_i^2)X∼N(∑inμi,∑inσi2) 或者说 1n∑inxi∼N(∑inμin,∑inσi2n)\frac{1}{n}\sum_i^n x_i \sim N(\frac{\sum_i^n \mu_i}{n},\frac{\sum_i^n \sigma_i^2}{n})n1∑inxi∼N(n∑inμi,n∑inσi2)。

4 大数定理和中心极限定理的理解

大数定理告诉我们：当抽样样本的量逐渐增大，其均值将依概率收敛到总体样本的均值。此时我们不必关心真实的分布究竟是怎样的。中心极限定理告诉我们：当抽样样本的量逐渐增大，这些抽样样本的均值将会满足 N(∑inμin,∑inσi2n)N(\frac{\sum_i^n \mu_i}{n},\frac{\sum_i^n \sigma_i^2}{n})N(n∑inμi,n∑inσi2)。显然，当 nnn 逐渐变大，该正态分布的方差越小最终将塌缩为 Dirac delta function。

带图的直观体验：怎样理解和区分中心极限定理与大数定律？

>返回目录

二、点估计(point estimator)

事实上，对 θ\thetaθ 的计就是点估计问题，我们一般把其点估计值记为 θ^\hat \thetaθ^ ，称为点估计值。

1 矩估计

矩估计法用一阶样本的原点矩来估计总体的期望，而用二阶样本的中心矩来估计总体的方差。

由Khintchine大数定理可知，若样本总体的数学期望有限，则样本均值依概率收敛于其数学期望。因此在估计时可以使用样本的矩来作为总体矩的估计量。

我们使用矩估计来估计时，有：

{μ1(θ1,θ2,⋯ ,θk)=1n∑i=1nXiμ2(θ1,θ2,⋯ ,θk)=1n∑i=1nXi2⋮μk(θ1,θ2,⋯ ,θk)=1n∑i=1nXik\begin{cases} \mu_1(\theta_1,\theta_2,\cdots,\theta_k) &= \frac{1}{n}\sum_{i=1}^{n}X_i \\ \mu_2(\theta_1,\theta_2,\cdots,\theta_k) &= \frac{1}{n}\sum_{i=1}^{n}X_i^2 \\ & \vdots\\ \mu_k(\theta_1,\theta_2,\cdots,\theta_k) &= \frac{1}{n}\sum_{i=1}^{n}X_i^k \end{cases}⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧μ1(θ1,θ2,⋯,θk)μ2(θ1,θ2,⋯,θk)μk(θ1,θ2,⋯,θk)=n1∑i=1nXi=n1∑i=1nXi2⋮=n1∑i=1nXik

原点矩：对于自然数 kkk 和 ∀a∈R\forall a \in \R∀a∈R，随机变量 xxx 的期望值 E[(x−a)k]\mathbb E[(x-a)^k]E[(x−a)k] 叫做随机变量 xxx 对 aaa 的 kkk 阶矩(若 a=0a=0a=0 则称为 kkk 阶原点矩)。当 a=0,k=1a=0,k=1a=0,k=1 时即为 xxx 的数学期望。

中心矩：若对于随机变量 xxx 存在 E[x−E[x]]k\mathbb E[x-\mathbb E[x]]^kE[x−E[x]]k，则称其为 xxx 的 kkk 阶中心矩。

示例：对于均匀分布 xU(a,b)x~U(a,b)xU(a,b)，欲对 a,ba,ba,b 进行估计，已知均匀分布的期望为 E[x]=a+b2\mathbb E[x]=\frac{a+b}{2}E[x]=2a+b，方差 Var(x)=(b−a)212Var(x)=\frac{(b-a)^2}{12}Var(x)=12(b−a)2，则 E[x2]=Var(x)+E[x]2\mathbb E[x^2]=Var(x)+\mathbb E[x]^2E[x2]=Var(x)+E[x]2，利用矩估计则有：
{E[x]=a+b2=1n∑i=1nXiE[x2]=(b−a)212+(a+b2)2=1n∑i=1nXi2\begin{cases} \mathbb E[x]&=\frac{a+b}{2}=\frac{1}{n}\sum_{i=1}^{n}X_i\\ \mathbb E[x^2]&=\frac{(b-a)^2}{12}+(\frac{a+b}{2})^2=\frac{1}{n}\sum_{i=1}^{n}X_i^2 \end{cases}{E[x]E[x2]=2a+b=n1∑i=1nXi=12(b−a)2+(2a+b)2=n1∑i=1nXi2解得：
{μx=1n∑i=1nXia^=μx−3n∑i=1n(xi−μx)2b^=μx+3n∑i=1n(xi−μx)2\begin{cases} \mu_x &= \frac{1}{n}\sum_{i=1}^{n}X_i\\ \hat a &= \mu_x - \sqrt{\frac{3}{n}\sum_{i=1}^n(x_i-\mu_x)^2}\\ \hat b &= \mu_x + \sqrt{\frac{3}{n}\sum_{i=1}^n(x_i-\mu_x)^2} \end{cases}⎩⎪⎪⎨⎪⎪⎧μxa^b^=n1∑i=1nXi=μx−n3∑i=1n(xi−μx)2=μx+n3∑i=1n(xi−μx)2

2 最大似然估计(maximum Likelihood)

最大似然估计的参考：[数理知识]贝叶斯公式和最大似然估计笔记

示例：对于伯努利分布(即重复次数为1的二项分布) x∼B(1,p)x \sim B(1,p)x∼B(1,p)，欲对 ppp 进行估计：

L(p)=∏i=1npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi\begin{aligned} L(p)&=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\ &=p^{\sum_{i=1}^nx_i} (1-p)^{n-\sum_{i=1}^nx_i}\\ \end{aligned}L(p)=i=1∏npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi取自然对数：

ln⁡L(p)=∏i=1npxi(1−p)1−xi=(∑i=1nxi)ln⁡p+(n−∑i=1nxi)ln⁡(1−p)\begin{aligned} \ln L(p)&=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\ &=\left(\sum_{i=1}^nx_i \right)\ln p + \left(n-\sum_{i=1}^n x_i \right) \ln \left(1-p \right) \end{aligned}lnL(p)=i=1∏npxi(1−p)1−xi=(i=1∑nxi)lnp+(n−i=1∑nxi)ln(1−p)令∂ln⁡L(p)∂p=0\frac{\partial \ln L(p)}{\partial p}=0∂p∂lnL(p)=0 解得：

p^=1n∑i=1nxi\hat p = \frac{1}{n}\sum_{i=1}^{n}x_ip^=n1i=1∑nxi

>返回目录

三、区间估计(interval estimate)

在点估计的基础上，根据样本统计量的抽样分布可以对样本统计量与总体样本的真实参数的接近程度求出一个概率度量，在此概率下给出总体参数估计的一个可信的区间范围。与区间估计常常一同出现的，还有置信区间的概念。

对于区别点估计和区间估计，有个很通俗的解释：
我对待定参数只估计一个值（点估计），只笃定了这个值是最精确的；我给出待定参数的一个估计范围（区间估计），猜测这个区间内至少有一个值使得待定参数最接近于真实值；对于这个区间，给出一个概率（置信度）来说明这个区间内有多大的把握存在至少有一个值使得待定参数最接近于真实值；给出置信度的区间估计就是置信区间。

显然，区间估计的精确度更高，但其“成本”也提升了，即获得精确值所需要进行尝试的次数变多。

置信区间(confidence interval)

补充理解：如何理解 95% 置信区间？- 知乎

置信区间设总体样本集 XXX 的分布函数 F(x;θ)F(x;\theta)F(x;θ) 已知，先准备对 θ\thetaθ 进行估计，如果对 ∀0<a<1\forall ~ 0<a<1∀0<a<1 可以得知子样本集 X′∈XX' \in XX′∈X 可以得到待定参数的下界（置信下限）与下界（置信上限）θˉ，θ‾\bar \theta，\underline \thetaθˉ，θ，使得：

P(θ‾(X′))<θ<P(θˉ(X′))=1−aP(\underline \theta(X'))<\theta<P(\bar \theta(X'))=1-aP(θ(X′))<θ<P(θˉ(X′))=1−a则称随即区间 (θˉ,θ‾)(\bar \theta,\underline \theta)(θˉ,θ) 为参数 θ\thetaθ 以 1−a1-a1−a 为置信水平（或置信度）的置信区间，或称双侧置信区间。

例题：(脱敏数据裁剪于我们的一次爬虫实验) 已知某大学某组织的学生在总计3613场的某游戏对局中，每局时间服从正态分布N(μ,25.62)N(\mu,25.6^2)N(μ,25.62)。现从中抽取100场的数据，根据矩估计求得点估计μ^=1100∑i=1100xi=43.2\hat \mu=\frac{1}{100}\sum_{i=1}^{100}x_i=43.2μ^=1001∑i=1100xi=43.2(分钟)，给定95%置信区间，试求得其平均游戏时长(分钟)的范围。
解：根据大数定律所得到的中心极限定理，可以得知100场游戏的抽样集点估计均值 μ^\hat \muμ^ 的分布满足 μ^∼N(μ,25.62100)\hat \mu\sim N(\mu, \frac{25.6^2}{100})μ^∼N(μ,10025.62) 。
令 a=0.05a=0.05a=0.05 ，查标准正态分布(x−μσ∼N(0,1)\frac{x-\mu}{\sigma}\sim N(0,1)σx−μ∼N(0,1))表可知 za2=1.96z_{\frac{a}{2}}=1.96z2a=1.96，即：
P(−z0.052<μ^−μσn<z0.052)=1−0.05=0.95−1.96<μ^−μσn<1.96\begin{aligned} P(-z_{\frac{0.05}{2}}<\frac{\hat \mu - \mu}{\frac{\sigma}{ \sqrt n}}<z_{\frac{0.05}{2}})&=1-0.05=0.95 \\ -1.96<\frac{\hat \mu - \mu}{\frac{\sigma}{ \sqrt n}}&<1.96\end{aligned}P(−z20.05<nσμ^−μ<z20.05)−1.96<nσμ^−μ=1−0.05=0.95<1.96∴在置信度为95%的置信区间中，有：
μ^−1.96σn<μ<μ^+1.96σn\hat \mu - 1.96 \frac{\sigma}{\sqrt n}< \mu <\hat \mu + 1.96 \frac{\sigma}{\sqrt n}μ^−1.96nσ<μ<μ^+1.96nσ代入 μ^=43.2\hat \mu =43.2μ^=43.2、n=100n=100n=100、σ=25.6\sigma = 25.6σ=25.6 得：
38.1824<μ<48.217638.1824< \mu < 48.217638.1824<μ<48.2176也就是说，我们有95%的把握认为，总计3613场的游戏平均每局时间落在这个范围内（实际上的真实值为40.2分钟），在区间估计的情况下，我们修正点估计值 μ^\hat \muμ^ ，用区间估计 (43.2±1.9625.6100)∣0.95(43.2 \pm 1.96 \frac{25.6}{\sqrt 100})\vert_{0.95}(43.2±1.9610025.6)∣0.95 来替代对 μ\muμ 的估计。

>返回目录

四、估计的评价标准

1 无偏性(unbias)

估计的偏差被定义为：bias(θ^)=E(θ^)−θbias(\hat \theta)=\mathbb E(\hat \theta)-\thetabias(θ^)=E(θ^)−θ其中 θ\thetaθ 为真实值，E\mathbb EE 是数学期望。

以伯努利分布 P(x=k)=pk(1−p)(1−k)P(x=k)=p^k(1−p)^{(1−k)}P(x=k)=pk(1−p)(1−k) 为例，我们给出参数估计 p^=1n∑i=1nxi\hat p=\frac{1}{n}\sum_{i=1}^{n}x_ip^=n1∑i=1nxi，则其偏差为：

bias(p^)=E[1n∑i=1nxi]−p=1n∑i=1nE[xi]−p=p−p=0\begin{aligned} bias(\hat p)&=\mathbb E[\frac{1}{n}\sum_{i=1}^{n}x_i]-p\\ &=\frac{1}{n}\sum_{i=1}^{n}\mathbb E[x_i]-p\\ &=p-p=0 \end{aligned} bias(p^)=E[n1i=1∑nxi]−p=n1i=1∑nE[xi]−p=p−p=0