导读:在初学回归分析时,方差分析表(ANOVA)往往由线性回归引入。方差分析表在线性模型的显著性检验、模型选择方面有重要的应用,因此理解其各个表项的含义,以及这些表项值从何而来,对于我们能正确应用ANOVA有着重要的意义。然而当下大多数教材和博文对ANOVA的介绍,大多数习惯于直接给出结果量,而省略了重要的推导,遂致使许多初学者在学习ANOVA时落入“知其然,不知其所以然”的困惑,主要的问题总结如下:
自由度(Degree of Freedom, Df)描述的是做什么事的“自由”,为什么各项的自由度是表中所示的数值?和的定义是什么,为何?为何模型统计不显著时,检验的数学合理性是如何保障的?
笔者在学习ANOVA时也遇到了相同的疑惑,并在查阅部分资料以及Dr. Choudur Lakshminarayan的启发下,完成了关于上述问题的解释和证明,如果读者在学习ANOVA时有类似的问题,希望能对你有所帮助。
《详解方差分析表(ANOVA)》共三篇:第一篇线性回归与矩阵代数.回顾从一般线性回归的概念开始,回顾在后续证明中需要应用的一些结论和数学定理;第二篇SST、SSE、SSR和它们的自由度将阐明问题一和问题二;收尾篇ANOVA中的F统计量则重点解释问题三。
感谢 @纯粹 审稿和对排版的建议。
一、一般线性回归问题与参数的最小二乘估计
回归分析(Regression Analysis)的终极目的是在获知一组协变量
情况下,借助模型来预测其结果 。回归问题则是利用一组组已知的 对,推断模型参数。例如我们若想通过上市公司CEO的学历和工龄预测其股价,那么在这一示例中,为CEO的 , 而 则是公司的股价。如果我们认为 和 之间存在线性关系,可以构建这样的线性模型:
其中
为自变量向量, 为斜率向量, 为截距; 为一个高斯噪声量,引入它是为了模拟现实世界中的“不完美”。为了表示方便,我们重写上式为
假设在稳定环境下,我们做了
次( )独立观测,则可得到一般线性模型
简记为
记最小二乘法推断的
为 ,并记 ,则可以如下求出:
这里,
也称线性方程组 的伪逆解。关于伪逆矩阵的定义以及一些重要性质,可以参考 @纯粹 的这篇文章。纯粹:奇异值分解(SVD),MP广义逆,最小二乘,低秩逼近
二、 列空间(Column Space)、Hat矩阵和它们的性质
利用已估计的
,计算回归目标 :
这里矩阵
的定义为 ,由于它事实功能为 ,可以看成一个“扣帽”算子,故命名其为Hat矩阵(经评论区 @纯粹 提醒,这里“Hat”是个动词!)。我们将residual也用 和 来表示:
容易证明
是对称且幂等(idempotent)矩阵。幂等的定义为矩阵具有乘幂不变性, , 。同样,矩阵 也是对称且幂等矩阵,而且有
当
列满秩时(一般默认列满秩,即 ),考虑矩阵 的列所构成的空间 , ,如下定义:
其中
为矩阵
的列,亦是构成的一组基。现考虑 ,一方面,
另一方面,
这说明
与 的每一列都是正交的,即它与 的列空间 正交。考虑这两方面的因素,可以得知 为 在 上的正投影。
三、利用列空间解释最小二乘估计的性质
利用最小二乘法来估计线性回归参数
的本质是什么呢?用列空间的语言来说,就是寻找列空间中的向量 ,使得 的模长最小,那这一目标自然当且仅当向量 为 在列空间 上的正投影时达到, 。上图还可以解释最小二乘估计的三个性质: ,则 ,则 ,则
如果觉得《三因素方差分析_详解方差分析表(ANOVA)(一) —— 线性回归与矩阵代数.回顾》对你有帮助,请点赞、收藏,并留下你的观点哦!