失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 关于多元线性回归显著性水平P的理解

关于多元线性回归显著性水平P的理解

时间:2021-03-10 23:31:02

相关推荐

关于多元线性回归显著性水平P的理解

我们在用统计软件工具,比如SPSS、R、python在做多元线性回归时,通常会看其系数的P值,但你真的理解这个P值吗?关于这个问题,我们首先需要了解什么是假设检验、假设检验的两类错误以及P值的含义。

假设性检验的定义:提出检验假设又称无效假设,也称为原假设,符号是H0;备择假设的符号是H1。H0:样本与总体或样本与样本间的差异是由抽样误差引起的;H1:样本与总体或样本与样本间存在本质差异;预先设定的检验水准α为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01。

假设检验的两类错误:当原假设H0为真,我们却拒绝原假设,这时我们便犯了第一类错误或α错误,也称为拒真错误;当原假设为假,我们却接受了它,这就是第二类错误,也称受伪错误或β错误。

P值其实就是一种统计量发生的概率,比较它与我们与设定的显著性水平α来判断结果:若P>α,结论为按α所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。

从另一个角度来理解,P值描述的是H0在极端情况下发生的概率,其值越小表明这是H0原假设事件发生的概率越小,H0的发生是一个小概率事件,因此应该拒绝它,那么怎样判断要不要拒绝呢?这就是预设的显著性水平α,如果P<α,我们就拒绝H0。显然α越大,我们就越可能拒绝原假设H0,但原假设如果是真的,我们就越可能第一类错误,拒真错误;

那么多元线性回归自变量的系数的原假设是什么呢?按照前面假设性检验的定义,原假设H0实际上指样本或者总体不存在什么关系,完全是因为抽样产生的关系,也称为因为抽样产生的误差,其实本来没什么因果关系。因此多元线性回归的原假设是指因变量与自变量之间没什么关系,完全是抽样产生的错觉,用数学语言表示就是,设自变量X1的系数为m1,则原假设H0:m1=0

因此,在实践中我们需要分别检查各个自变量系数的p值,而通常显著性水平设α为0.05,如果p<0.05,按照上述解释,在0.05的显著性水平下拒绝原假设。即该系数m1不等于0,该系数与因变量存在某种关系,这种关系是真实存在的,并不是因为抽样的样本产生的误差。

特别提醒的是在统计学上的一些原假设H0的提出不是你自己想怎样假设就怎样假设,而通常是遵循某种定义的,你需要根据上述“假设性检验的定义”,并结合你要研究的问题提出H0。下面举一个小例子:

甲和我手里都有一枚硬币,但我不知道这枚硬币是否做了手脚,我们打赌,每个人投掷这枚硬币50次,谁菊花面朝上的次数多谁赢。结果我菊花朝上的次数是30次,而甲是49次。对这个结果我表示怀疑,我质疑甲硬币作弊,那么我应该怎样做原假设呢?分析如下:科学来讲,这个豪赌应该完全靠运气(用术语讲就是抽样误差),理论值是25次,我的结果看起来应该没什么问题,甲的结果可能有问题,因为发生这样的概率太低了。两种假设分别是甲作弊了和甲没作弊,用数学语言理解:甲作弊了就是说甲的结果与硬币本身(作弊,对硬币做了手脚)存在某种关系,按照前述定义,这应该是备择假设H1;甲没作弊意思就是这种结果也是可能的,他的出现是因为运气(抽样误差)产生的,所以应该是原假设H0。因此这个例子的假设是:

H0:甲没作弊 H1:甲作弊了

如果觉得《关于多元线性回归显著性水平P的理解》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。