失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 简单回归模型:普通最小二乘法OLS(一)

简单回归模型:普通最小二乘法OLS(一)

时间:2021-03-05 07:05:55

相关推荐

简单回归模型:普通最小二乘法OLS(一)

简单回归模型

基本概念

回归分析:在其他条件不变的情况下,考察一个变量对另一个变量的影响。

设变量u表示关系式中的干扰项,表示除X之外其他影响Y的因素。

我们用一个简单的方程来表示它们之间的关系:

Y=β0+β1x+uY=\beta_0+\beta_1 x+uY=β0​+β1​x+u

当X发生变化时,△Y=β1△X+△u\triangle Y=\beta_1\triangle X+\triangle u△Y=β1​△X+△u,如果△u=0\triangle u=0△u=0,那么△Y=β1△X\triangle Y=\beta_1\triangle X△Y=β1​△X,从而可以用β1\beta_1β1​衡量X对Y的影响。

零条件均值假定

如何保证其他条件不变?简单地,如果X和u是独立的,即X的变化不会对u造成系统性影响,那么β1\beta_1β1​就可以度量其他条件不变的情况下X对Y的影响。在计量分析中,采用一个更弱的技术性假定——零条件均值假定

首先,对于Y=β0+β1x+vY=\beta_0+\beta_1 x+vY=β0​+β1​x+v,若E(v)=a=0E(v)=a=0E(v)=a=0,令u=v;若E(v)=a≠0E(v)=a\neq0E(v)=a​=0,令u=v−au=v-au=v−a,这样使E(u)=0E(u)=0E(u)=0,这样变换后的方程为Y=(β0+a)+β1x+uY=(\beta_0+a)+\beta_1 x+uY=(β0​+a)+β1​x+u使得干扰项的均值为0.

因为u和x是随机变量,所以我们能在任何给定x下定义u的条件分布,所以关键假设是u的均值与x无关。写作:E(u∣x)=E(u)E(u|x)=E(u)E(u∣x)=E(u)

该方程表示:u的均值独立于x,(用均值独立来近似说明u独立于x)结合E(u)=0E(u)=0E(u)=0,就得到了零条件均值假定:E(u∣x)=0E(u|x)=0E(u∣x)=0.

零条件均值假定的直观含义:由于误差项的存在,x对y的影响是随机的。但如果零条件均值假定成立,那么无论x取什么值,误差项对y的平均影响为零,从而x对y的均值的影响是确定性的。换言之,我们无法确定x与y的关系,但可以确定x与y的均值之间的关系。

总体回归函数

根据零条件均值假定:

E(y∣x)=E(β0+β1x+u∣x)E(y|x)=E(\beta_0+\beta_1 x+u|x)E(y∣x)=E(β0​+β1​x+u∣x)

=E(β0∣x)+E(β1x∣x)+E(u∣x)=β0+β1x=E(\beta_0|x)+E(\beta_1 x|x)+E(u|x)=\beta_0+\beta_1 x=E(β0​∣x)+E(β1​x∣x)+E(u∣x)=β0​+β1​x

E(y∣x)=β0+β1xE(y|x)=\beta_0+\beta_1 xE(y∣x)=β0​+β1​x被称为总体回归函数。△E(y∣x)=β1\triangle E(y|x)=\beta_1△E(y∣x)=β1​,因此β1\beta_1β1​衡量了x增加一个单位对y的条件均值的影响。

进而推得y=E(y∣x)+uy=E(y|x)+uy=E(y∣x)+u,该方程把y分成两部分,一部分是E(y∣x)E(y|x)E(y∣x),被称为y的系统部分,可以由x解释;另一部分u被称为非系统部分,不能被x解释,但它的均值为0。

普通最小二乘法(OLS)

矩估计

接下来讨论如何估计参数β0\beta_0β0​和β1\beta_1β1​,我们通过矩估计的方法,用样本矩估计总体矩。令{(xi,yi):(i=1,2,⋯,n)(x_i,y_i):(i=1,2,\cdots,n)(xi​,yi​):(i=1,2,⋯,n)}表示从总体中抽取容量为n的样本,对每个i,都有

yi=β0+β1xi+uiy_i=\beta_0+\beta_1 x_i +u_iyi​=β0​+β1​xi​+ui​

其中uiu_iui​为第i次观测的干扰项。

根据零条件均值假定,我们知道E(u)=0E(u)=0E(u)=0,Cov(x,u)=0Cov(x,u)=0Cov(x,u)=0,所以有 Cov(x,u)=E(xu)−E(x)E(u)=E(xu)=0Cov(x,u)=E(xu)-E(x)E(u)=E(xu)=0Cov(x,u)=E(xu)−E(x)E(u)=E(xu)=0

所以 E(u)=E(y−β0−β1x)=0E(u)=E(y-\beta_0-\beta_1 x)=0E(u)=E(y−β0​−β1​x)=0

E(ux)=E[x(y−β0−β1x)]=0E(ux)=E[x(y-\beta_0-\beta_1 x)]=0E(ux)=E[x(y−β0​−β1​x)]=0

用样本均值代替总体均值,选择估计值β^0\hat \beta_0β^​0​和β^1\hat \beta_1β^​1​来代替β0\beta_0β0​和β1\beta_1β1​,以上两式就可以写成:

1n∑i=1n(yi−β^0−β^1x)=0\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat \beta_0 -\hat \beta_1 x)=0n1​i=1∑n​(yi​−β^​0​−β^​1​x)=0

1n∑i=1nxi(yi−β^0−β^1x)=0\frac{1}{n}\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0n1​i=1∑n​xi​(yi​−β^​0​−β^​1​x)=0

对于等式一,可以改写为 β^0=yˉ−β^1xˉ\hat\beta_0=\bar y-\hat\beta_1 \bar xβ^​0​=yˉ​−β^​1​xˉ

对于等式二,做进一步的替换:

∑i=1nxi(yi−β^0−β^1x)=0\sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0i=1∑n​xi​(yi​−β^​0​−β^​1​x)=0

∑i=1nxi[yi−(yˉ−β^1xˉ)−β^1x]=0\sum_{i=1}^{n}x_i[y_i-(\bar y-\hat \beta_1 \bar x) -\hat \beta_1 x]=0i=1∑n​xi​[yi​−(yˉ​−β^​1​xˉ)−β^​1​x]=0

∑i=1nxi(yi−yˉ)=β^1∑i=1nxi(xi−xˉ)\sum_{i=1}^{n}x_i(y_i-\bar y)=\hat \beta_1\sum_{i=1}^{n}x_i(x_i-\bar x)i=1∑n​xi​(yi​−yˉ​)=β^​1​i=1∑n​xi​(xi​−xˉ)

根据求和运算的性质,有

∑i−1n(xi−xˉ)2=∑i=1n(xi2−2xixˉ+xˉ2)\sum_{i-1}^n(x_i-\bar x)^2=\sum_{i=1}^{n}(x_i^2-2x_i\bar x+\bar x^2)i−1∑n​(xi​−xˉ)2=i=1∑n​(xi2​−2xi​xˉ+xˉ2)

=∑i=1n(xi2−xixˉ)=∑i=1nxi(xi−xˉ)=\sum_{i=1}^n(x_i^2-x_i\bar x)=\sum_{i=1}^{n}x_i(x_i-\bar x)=i=1∑n​(xi2​−xi​xˉ)=i=1∑n​xi​(xi​−xˉ)

同理,∑i−1nxi(yi−yˉ)=∑i=1n(xi−xˉ)(yi−yˉ)\sum_{i-1}^n x_i(y_i-\bar y)=\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)∑i−1n​xi​(yi​−yˉ​)=∑i=1n​(xi​−xˉ)(yi​−yˉ​)

所以只要有∑i−1n(xi−xˉ)2>0\sum_{i-1}^n(x_i-\bar x)^2>0∑i−1n​(xi​−xˉ)2>0 就有β^1=∑i=1n(xi−xˉ)(yi−yˉ)∑i−1n(xi−xˉ)2\hat\beta_1=\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i-1}^n(x_i-\bar x)^2}β^​1​=∑i−1n​(xi​−xˉ)2∑i=1n​(xi​−xˉ)(yi​−yˉ​)​

根据代数知识,β^1=Cov(x,y)Sx2=Cov(x,y)SxSy⋅sySx=r^xy⋅SySx\hat \beta_1=\frac{Cov(x,y)}{S_x^2}=\frac{Cov(x,y)}{S_xS_y}\cdot \frac{s_y}{S_x}=\hat r_{xy}\cdot \frac{S_y}{S_x}β^​1​=Sx2​Cov(x,y)​=Sx​Sy​Cov(x,y)​⋅Sx​sy​​=r^xy​⋅Sx​Sy​​

由样本推得总体:β1=rxy⋅SySx\beta_1=r_{xy}\cdot\frac{S_y}{S_x}β1​=rxy​⋅Sx​Sy​​

可以看出,若x与y正相关,则斜率为正;若x与y负相关,则斜率为负。但是,简单回归本质上是两个变量之间的相关性分析,所以在推导因果关系时需要非常小心。

最小化残差平方和

对任意斜率和截距β0\beta_0β0​和β1\beta_1β1​,定义y在x=xix=x_ix=xi​时的一个拟合值为

y^i=β^0+β^1xi\hat y_i=\hat\beta_0+\hat\beta_1 x_iy^​i​=β^​0​+β^​1​xi​

这是在给定斜率和截距下,y在x=xix=x_ix=xi​时的预测值。样本中每一次观测都有一个拟合值,第i次观测的残差就是其实际值与拟合值之差:ui=yi−β^0−β^1xiu_i=y_i-\hat\beta_0-\hat\beta_1 x_iui​=yi​−β^​0​−β^​1​xi​

事实上,普通最小二乘法之所以得名,就是因为β^0,β^1\hat\beta_0,\hat\beta_1β^​0​,β^​1​这些估计值最小化了残差的平方和:

∑i=1nu^i2=∑i=1n(yi−β^0−β^1xi)2\sum_{i=1}^{n}\hat u_i^2=\sum_{i=1}^{n}(y_i-\hat\beta_0-\hat\beta_1 x_i)^2i=1∑n​u^i2​=i=1∑n​(yi​−β^​0​−β^​1​xi​)2

其一阶条件恰为

∑i=1n(yi−β^0−β^1x)=0∑i=1nxi(yi−β^0−β^1x)=0\sum_{i=1}^{n}(y_i-\hat \beta_0 -\hat \beta_1 x)=0 \sum_{i=1}^{n}x_i(y_i-\hat \beta_0 -\hat \beta_1 x)=0∑i=1n​(yi​−β^​0​−β^​1​x)=0∑i=1n​xi​(yi​−β^​0​−β^​1​x)=0

一旦确定了截距和斜率的估计值,就能够建立OLS回归线:

y^=β^0+β^1x\hat y=\hat \beta_0+\hat \beta_1 xy^​=β^​0​+β^​1​x 从该方程中得到的预测值便是估计值。

该方程又被称作样本回归函数,因为它是总体回归函数E(y∣x)=β0+β1xE(y|x)=\beta_0+\beta_1 xE(y∣x)=β0​+β1​x的一个样本估计。(总体回归函数是唯一且未知的)样本回归函数来自于给定一组数据的样本,所以对于不同的样本,OLS回归线有不同的斜率和截距。

在大多数情形中,斜率的估计值可以写成:β^1=△y^/△x\hat\beta_1=\triangle\hat y/\triangle xβ^​1​=△y^​/△x,它告诉我们x变化一个单位时的y^\hat yy^​的变化量;

类似的,有△y^=β^1△x\triangle \hat y=\hat \beta_1\triangle x△y^​=β^​1​△x,所以在给定x的一个变化,我们都能计算出y的预期变化。

如果觉得《简单回归模型:普通最小二乘法OLS(一)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。