失眠网 > 11.1 p值的意义

11.1 p值的意义

时间：2019-01-13 02:07:41

相关推荐

11.1 p值的意义

11.1 如何看待 Nature《科学家们起来反对统计显著性》一文，对统计意义的误解源头真的是 p 值吗？

标签：机器学习与数据挖掘

作者：孟浩巍

原文链接：/question/317252051/answer/633033538?utm_oi=50144498155520

是知乎上面的答案写的很好啊

198 人赞同了该回答

不必过度解读，几乎每过两年就会出现一篇类似的文章来告诉大家：你的统计学方法错啦；Pvalue不重要啦；反对统计显著性啦；加强统计学教育啦等等。

其实，要领会精神，内核是：告诉大家不要一刀切地下科学结论。

（3月26日）今晚稍微有点时间，简单更一点。

其实要解释“统计显著”这个概念，那得先给大家讲讲历史故事。所谓的统计pvalue其实是做假设检验的一个产物，那假设检验主要是Pearson，Fisher，Neyman以及小Pearson 这4位大神建立起来的。

最早的时候Pearson提出了一个显著性水平 α\alphaα 这个概念，当时主要是为了做拟合优度检验，简单来说，就是一个抽样分布和已知分布是否相同，现在应用非常广泛的二联表检验里的 χ2\chi^{2}χ2 检验就是基于这个原理。

而Fisher当时是在Pearson手下的一个农场里做一些统计分析的工作，他最早比较明确地提出来显著性检验这个概念的人，一个比较著名的例子就是“女士品茶”，就是当时有一个Young lady非常喜欢喝茶，然后还喜欢在茶（T）里加牛奶（M），还号称能够尝出来是这两者先后加入的顺序，即能够通过品尝知道是TM（先加茶再加奶）还是MT（先加奶再加茶）。Fisher觉得，有必要通过一定的统计学方法来确定这个事情是不是真实客观的。那怎么来做这件事情呢？他先准备好MT，TM各4杯，然后让妹子盲喝，最后妹子答对了8杯里的7杯。那么Fisher老爷子就开始计算概率了，假设妹子纯靠猜8杯答对7杯的概率应该按二项分布计算：

P{8杯猜对7杯}=C87×(0.5)7×(0.5)1=0.03125P\left\{ 8杯猜对7杯 \right\} = C_{8}^{7} \times (0.5)^{7} \times (0.5)^{1} = 0.03125P{8杯猜对7杯}=C87×(0.5)7×(0.5)1=0.03125

P{8杯猜对8杯}=C88×(0.5)8=0.00390625P\left\{ 8杯猜对8杯 \right\} = C_{8}^{8} \times (0.5)^{8} = 0.00390625P{8杯猜对8杯}=C88×(0.5)8=0.00390625

那么这个时候：

P{8杯猜对7杯以上}=0.03515625P\left\{ 8杯猜对7杯以上 \right\} = 0.03515625P{8杯猜对7杯以上}=0.03515625

Fisher老爷子一看，这瞎猜出现这种情况的概率平均每20次还不到1次（0.05），那我就索性信了这个妹子吧，认为妹子不是瞎猜，而是真的有这个分辨TM、MT的能力。这个就是最早的统计检验，这里的

P{8杯猜对7杯以上}P\left\{ 8杯猜对7杯以上 \right\}P{8杯猜对7杯以上}

就是我们现在所谓的P−valueP-valueP−value，不要问我为什么 P−value<0.05P-value < 0.05P−value<0.05 就是能否定原假设，就是统计显著，这特么是Fisher老爷子一拍脑门想出来的啊！没有什么为什么 233333！

（3月29日）继续写一点。

Fisher老爷子这个检验很好，也给出了P−ValueP-ValueP−Value这个概念，告诉我们当P−valueP-valueP−value 小于一定的cutoff就需要否定我们的假设。但是还不完善，后来Neyman和小Pearson（K Pearson的儿子，Pearson相关系数的提出者）完善了统计检验的步骤：一个统计检验应该包括假设 H0H_{0}H0 和备择假设H1，H0H_{1}，H_{0}H1，H0和H1H_{1}H1是两个互斥的集合，同时二者的合集构成全集；当不能够接受H0H_{0}H0的时候，就一定需要接受H1H_{1}H1；同时明确了两类错误，分别称为第一类错误，第二类错误及功效函数。

其中，第一类错误，也叫“去真”错误；第二类错误也叫“纳伪”错误。这两个错误在不同的检验问题下，重要程度往往不同且通过数学可以证明，这两者不能同时减小。压下葫芦起了瓢，当一个减少以后，另外一个一定增加。

怎么理解这个“去真”错误呢？就是真的发生了一个小概率事件，恰巧被我们观测到了，结果由于P−value<0.05P-value < 0.05P−value<0.05的原因，我们否定了不应该否定的 H0H_{0}H0 造成了错误。去真往往会带来问题，因此现在习惯上喜欢在统计检验的时候，首先关注的是H0H_{0}H0的第一类错误。

那么P−valueP-valueP−value有什么问题呢？常见的大概有下面几种：

P−valueP-valueP−value不能完全代表总体的情况，只能够代表样本的情况；比如你要检验的是A城市与B城市的平均身高有无显著差距；如果你只抽样了20个人，那么很可能就会得到Pvalue极小的情况，但这并不能代表你的H0H_{0}H0真实的情况！

PValuePValuePValue的多重检验的假阳性问题；当你有1000个检验问题的时候，使用相同的检验方法，就很可能出现几十个P−valueP-valueP−value带来的假阳性问题。

PValue临界值附近的经常存在争议；比如我有一个药物A，进行了20个人的配对实验，结果发现PValue=0.04PValue = 0.04PValue=0.04；同时有个药物B也进行了同样的实验发现P−Value=0.06P-Value = 0.06P−Value=0.06. 那么我能不能说药物B对这个病没有效果？我能不能说药物A对这个病有疗效？我能不能说A与B的药效有显著差异？这种问题经常在PvaluePvaluePvalue的临界值附近出现，所以一定要小心！

PValue的计算选择错了统计方法；这个问题很有趣，很多时候，你可能计算出了一个P−value<2.2e−16P-value < 2.2e-16P−value<2.2e−16的一个超显著的PValuePValuePValue结果，但是你忘记你的 $H_{0} .举个例子，比如你想比较的是两个总体的均值是否相同；结果你用错了统计学方法，搞了个. 举个例子，比如你想比较的是两个总体的均值是否相同；结果你用错了统计学方法，搞了个.举个例子，比如你想比较的是两个总体的均值是否相同；结果你用错了统计学方法，搞了个KS,, test，殊不知，殊不知，殊不知KS test是用来检验两者分布是否相同的检验，结果得到了超显著的是用来检验两者分布是否相同的检验，结果得到了超显著的是用来检验两者分布是否相同的检验，结果得到了超显著的P-value。这种情况下，很遗憾，你用了错误的统计学方法，得到了错误的。这种情况下，很遗憾，你用了错误的统计学方法，得到了错误的。这种情况下，很遗憾，你用了错误的统计学方法，得到了错误的P-value$，最终得到了错误的检验结论！

（待续。。。）

如果觉得《11.1 p值的意义》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。