失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 三因素方差分析_详解方差分析表(ANOVA)(一) —— 线性回归与矩阵代数.回顾

三因素方差分析_详解方差分析表(ANOVA)(一) —— 线性回归与矩阵代数.回顾

时间:2022-10-24 21:04:10

相关推荐

三因素方差分析_详解方差分析表(ANOVA)(一) —— 线性回归与矩阵代数.回顾

导读:在初学回归分析时,方差分析表(ANOVA)往往由线性回归引入。方差分析表在线性模型的显著性检验、模型选择方面有重要的应用,因此理解其各个表项的含义,以及这些表项值从何而来,对于我们能正确应用ANOVA有着重要的意义。然而当下大多数教材和博文对ANOVA的介绍,大多数习惯于直接给出结果量,而省略了重要的推导,遂致使许多初学者在学习ANOVA时落入“知其然,不知其所以然”的困惑,主要的问题总结如下:

自由度(Degree of Freedom, Df)描述的是做什么事的“自由”,为什么各项的自由度是表中所示的数值?和的定义是什么,为何?为何模型统计不显著时,检验的数学合理性是如何保障的?

笔者在学习ANOVA时也遇到了相同的疑惑,并在查阅部分资料以及Dr. Choudur Lakshminarayan的启发下,完成了关于上述问题的解释和证明,如果读者在学习ANOVA时有类似的问题,希望能对你有所帮助。

《详解方差分析表(ANOVA)》共三篇:第一篇线性回归与矩阵代数.回顾从一般线性回归的概念开始,回顾在后续证明中需要应用的一些结论和数学定理;第二篇SST、SSE、SSR和它们的自由度将阐明问题一和问题二;收尾篇ANOVA中的F统计量则重点解释问题三。

感谢 @纯粹 审稿和对排版的建议。

一、一般线性回归问题与参数的最小二乘估计

回归分析(Regression Analysis)的终极目的是在获知一组协变量

情况下,借助模型来预测其结果 。回归问题则是利用一组组已知的 对,推断模型参数。例如我们若想通过上市公司CEO的学历和工龄预测其股价,那么在这一示例中,为CEO的 , 而 则是公司的股价。如果我们认为 和 之间存在线性关系,可以构建这样的线性模型:

其中

为自变量向量, 为斜率向量, 为截距; 为一个高斯噪声量,引入它是为了模拟现实世界中的“不完美”。为了表示方便,我们重写上式为

假设在稳定环境下,我们做了

次( )独立观测,则可得到一般线性模型

简记为

记最小二乘法推断的

为 ,并记 ,则可以如下求出:

这里,

也称线性方程组 的伪逆解。关于伪逆矩阵的定义以及一些重要性质,可以参考 @纯粹 的这篇文章。纯粹:奇异值分解(SVD),MP广义逆,最小二乘,低秩逼近​

二、 列空间(Column Space)、Hat矩阵和它们的性质

利用已估计的

,计算回归目标 :

这里矩阵

的定义为 ,由于它事实功能为 ,可以看成一个“扣帽”算子,故命名其为Hat矩阵(经评论区 @纯粹 提醒,这里“Hat”是个动词!)。我们将residual也用 和 来表示:

容易证明

是对称且幂等(idempotent)矩阵。幂等的定义为矩阵具有乘幂不变性, , 。同样,矩阵 也是对称且幂等矩阵,而且有

列满秩时(一般默认列满秩,即 ),考虑矩阵 的列所构成的空间 , ,如下定义:

其中

为矩阵

的列,亦是构成的一组基。现考虑 ,一方面,

另一方面,

这说明

与 的每一列都是正交的,即它与 的列空间 正交。考虑这两方面的因素,可以得知 为 在 上的正投影。

三、利用列空间解释最小二乘估计的性质

利用最小二乘法来估计线性回归参数

的本质是什么呢?用列空间的语言来说,就是寻找列空间中的向量 ,使得 的模长最小,那这一目标自然当且仅当向量 为 在列空间 上的正投影时达到, 。上图还可以解释最小二乘估计的三个性质: ,则 ,则 ,则

如果觉得《三因素方差分析_详解方差分析表(ANOVA)(一) —— 线性回归与矩阵代数.回顾》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。