失眠网 > 关于多元线性回归显著性水平P的理解

关于多元线性回归显著性水平P的理解

时间：2021-03-10 23:31:02

相关推荐

关于多元线性回归显著性水平P的理解

我们在用统计软件工具，比如SPSS、R、python在做多元线性回归时，通常会看其系数的P值，但你真的理解这个P值吗？关于这个问题，我们首先需要了解什么是假设检验、假设检验的两类错误以及P值的含义。

假设性检验的定义：提出检验假设又称无效假设，也称为原假设，符号是H0；备择假设的符号是H1。H0：样本与总体或样本与样本间的差异是由抽样误差引起的；H1：样本与总体或样本与样本间存在本质差异；预先设定的检验水准α为0.05；当检验假设为真，但被错误地拒绝的概率，记作α，通常取α=0.05或α=0.01。

假设检验的两类错误：当原假设H0为真，我们却拒绝原假设，这时我们便犯了第一类错误或α错误，也称为拒真错误；当原假设为假，我们却接受了它，这就是第二类错误，也称受伪错误或β错误。

P值其实就是一种统计量发生的概率，比较它与我们与设定的显著性水平α来判断结果：若P>α，结论为按α所取水准不显著，不拒绝H0，即认为差别很可能是由于抽样误差造成的，在统计上不成立；如果P≤α，结论为按所取α水准显著，拒绝H0，接受H1，则认为此差别不大可能仅由抽样误差所致，很可能是实验因素不同造成的，故在统计上成立。

从另一个角度来理解，P值描述的是H0在极端情况下发生的概率，其值越小表明这是H0原假设事件发生的概率越小，H0的发生是一个小概率事件，因此应该拒绝它，那么怎样判断要不要拒绝呢？这就是预设的显著性水平α，如果P<α，我们就拒绝H0。显然α越大，我们就越可能拒绝原假设H0，但原假设如果是真的，我们就越可能第一类错误，拒真错误；

那么多元线性回归自变量的系数的原假设是什么呢？按照前面假设性检验的定义，原假设H0实际上指样本或者总体不存在什么关系，完全是因为抽样产生的关系，也称为因为抽样产生的误差，其实本来没什么因果关系。因此多元线性回归的原假设是指因变量与自变量之间没什么关系，完全是抽样产生的错觉，用数学语言表示就是，设自变量X1的系数为m1,则原假设H0：m1=0

因此，在实践中我们需要分别检查各个自变量系数的p值，而通常显著性水平设α为0.05，如果p<0.05，按照上述解释，在0.05的显著性水平下拒绝原假设。即该系数m1不等于0，该系数与因变量存在某种关系，这种关系是真实存在的，并不是因为抽样的样本产生的误差。

特别提醒的是在统计学上的一些原假设H0的提出不是你自己想怎样假设就怎样假设，而通常是遵循某种定义的，你需要根据上述“假设性检验的定义”，并结合你要研究的问题提出H0。下面举一个小例子：

甲和我手里都有一枚硬币，但我不知道这枚硬币是否做了手脚，我们打赌，每个人投掷这枚硬币50次，谁菊花面朝上的次数多谁赢。结果我菊花朝上的次数是30次，而甲是49次。对这个结果我表示怀疑，我质疑甲硬币作弊，那么我应该怎样做原假设呢？分析如下：科学来讲，这个豪赌应该完全靠运气（用术语讲就是抽样误差），理论值是25次，我的结果看起来应该没什么问题，甲的结果可能有问题，因为发生这样的概率太低了。两种假设分别是甲作弊了和甲没作弊，用数学语言理解：甲作弊了就是说甲的结果与硬币本身（作弊，对硬币做了手脚）存在某种关系，按照前述定义，这应该是备择假设H1；甲没作弊意思就是这种结果也是可能的，他的出现是因为运气（抽样误差）产生的，所以应该是原假设H0。因此这个例子的假设是：

H0：甲没作弊 H1：甲作弊了

如果觉得《关于多元线性回归显著性水平P的理解》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。