失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【应用回归分析】CH3 回归参数的估计1——最小二乘估计

【应用回归分析】CH3 回归参数的估计1——最小二乘估计

时间:2018-10-30 17:59:13

相关推荐

【应用回归分析】CH3 回归参数的估计1——最小二乘估计

目录

前言

一、经验线性回归方程

1.未知参数的估计

2.经验线性回归方程

3.【例3.1.1】一元线性回归

二、中心化的经验线性回归方程

1.中心化

2.【例3.1.2】一元线性回归(续)

三、标准化的经验线性回归方程

1.标准化

2.【例3.1.3】

前言

估计回归参数的最基本方法是最小二乘法。这个方法不仅仅在统计学中,就是在数学的其他分支,例如运筹学、计算数学、逼近论和控制论等,都是很重要的求解方法。本章前三节我们首先讨论如何应用最小二乘法求回归参数的最小二乘估计,并研究这种估计的基本性质。在本文四五部分,我们讨论了当有了一批实际数据后 ,如何考察导出最小二乘估计的基本假设的适用性以及当这些假设不适用时,对数据应该做的变换,即变换。在本文第六部分我们讨论了广义最小二乘估计。在一些情况下,最小二乘估计并不是一个好的估计,于是统计学家提出了一些新的估计。在本文最后两部分,我们将讨论其中最重要的两种估计——岭估计和主成分估计。

一、经验线性回归方程

1.未知参数的估计

假设为因变量,为对有影响的个自变量,并且他们之间具有线性关系,其中为误差项,它表示除了之外其他因素对的影响以及试验或测量误差。是待估计的未知参数。

假设我们有了因变量和自变量的组观测值:

他们满足。误差项满足如下假设(假设):

(等方差)(不相关)

若用矩阵形式,变形为:

等价地,。是的变量观测向量,为的已知设计矩阵,为未知参数向量,为随机误差向量。用矩阵形式可将假设写成:

将合并在一起,就得到最基本、最重要的线性回归模型:

获得参数向量的估计的一个最重要的方法是最小二乘法,这个方法是找的估计,使得偏差向量的长度之平方达到最小。记

对求偏导,并命其为0,即

称为正则方程。这个线性方程组有唯一解的充要条件是的秩为。等价地,的秩为。以后,在线性回归模型的讨论中,我们总假定这个条件满足。于是,我们得到的唯一解。

根据微积分的极值理论,只是函数的一个驻点。我们还需要证明,确实使达到最小。事实上,对任意一个,有:

因为满足正则方程,于是,因而上式第三项为0,这就证明了对任意的,有

又因为是一个正定矩阵,故上式第二项总是非负的,于是

且等号成立当且仅当

2.经验线性回归方程

记,并将其带入。去掉误差项,得到

称为经验线性回归方程。这个方程是不是描述了与自变量的真实关系,还需要做进一步的统计分析。

3.【例3.1.1】一元线性回归

假设影响因变量的因素只有一个,记为。现在我们对获得了次观测

于是我们有,这时正则方程变为:

当不全相等时,,这里。于是正则方程左端的系数行列式。经过初等计算可以解得的最小二乘估计为

其中,。

二、中心化的经验线性回归方程

1.中心化

在回归分析的应用中,我们常常要把原始观测数据进行中心化和标准化,这对于我们的统计分析将是有益的。记为第个回归自变量次取值的平均值。将改写为

这里与中的有如下关系:

在中,我们把每个回归自变量减去了他们的平均值,这称为中心化。若记

则可改写为

这里表示所有分量皆为1的向量。称为回归系数。这个模型跟前面模型不同之处是:我们把回归常数项与回归系数分离开来了,且设计矩阵已经中心化,它满足:

也就是每个列向量的个元素之和等于0.由于此性质,正则方程变形为:

等价地,

于是回归参数的最小二乘估计为:

这样,对经过中心化程序的线性回归模型,回归常数项的最小二乘估计总是等于因变量的观测平均值,而的最小二乘估计将相当于从线性回归模型,按原来的最小二乘估计公式计算得到的。于是,我们就把常数项和回归系数的估计也分离开了。因为在实际应用中,我们总是特别关心回归系数,所以中心化是很必要的。

2.【例3.1.2】一元线性回归(续)

将例3.1.1所研究的一元线性回归模型进行中心化,得到

根据,我们可以得到的最小二乘估计:

三、标准化的经验线性回归方程

1.标准化

除了中心化,对自变量经常做的另一种处理叫做标准化。记

我们刚才讨论过,将减去称为中心化,现在再除以,这称为标准化。命,则就是将原来的设计矩阵经过中心化和标准化得到的新设计矩阵,这个矩阵具有如下性质:

性质是中心化的作用,它使设计阵每列之和都为0;性质是中心化后再施以标准化后的结果。如果把回归自变量都看成随机向量,的第列为第个自变量的个随机样本,那么的第元正是回归自变量与的样本相关系数,因而是回归自变量的相关阵,于是对一切成立。

这样做的好处有两条。其一,用可以分析回归自变量之间的相关关系;其次,在一些问题中,诸回归自变量所用的单位可能不相同,取值范围大小也不同,经过标准化,消去了单位和取值范围的差异,这便于对回归系数估计值的统计分析。

需要注意,如果把模型既经过中心化,又经过标准化,则变形为

这里的和前面的当然不同,但我们没有必要写出它和的关系,用矩阵形式,模型就是:

当我们对这个模型求到了参数的最小二乘估计:之后,所对应的经验回归方程应为

2.【例3.1.3】

一个试验容器靠蒸汽供应能量,使其保持恒温。表3.1.1中,自变量表示容器周围空气单位时间的平均温度,表示单位时间内消耗的蒸汽量(L),共观测了25个单位时间。图3.1.1是这些数据的散点图。

对这组数据,应用中心化线性回归模型,我们得到。常数项和回归系数的最小二乘估计分别为。于是经验回归方程为

从这个经验回归方程,我们看到,周围环境的温度每上升1摄氏度保持容器恒温在单位时间内所需要的蒸汽量减少0.0978(L)。一般来说,一个经验回归方程是不是真正描述了因变量和自变量之间的关系,最重要的应该是根据实践来检验,从问题本身专业知识的角度来分析。当然,从数理统计的角度也有一些辅助方法,这将在下一章讨论。

如果觉得《【应用回归分析】CH3 回归参数的估计1——最小二乘估计》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。