失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验

2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验

时间:2018-12-24 10:49:00

相关推荐

2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验

前一篇说了卡方分布的定义和来由,以及卡方统计量,这次介绍下如何像卡尔·皮尔逊(Karl·Pearson)一样通过卡方统计量来做分布拟合优度检验Goodness-of-fit Test for Distribution。

卡方检验:

先来回顾一下卡尔·皮尔逊(Karl·Pearson)所提出的卡方统计量:数据的分布与理想分布之间的差异的度量,

其中:

fo为实际观测的频度Observed Frequencyfe为期望的事件频度Expected Frequency

从卡方统计量的公式可以得出,如果观测的结果与期望的完全一致则χ2 = 0,说明拟合度处于完美情况;当χ2大到一定程度时,也就是累计卡方贡献度超出设定的置信度范围(通常默认为α = 0.05,置信度为1 - α = 95%),就可以得到统计意义上显著差异的结论,所以卡方检验通常采用的是右尾检验。

另外,卡方检验的原假设和备择假设为:

- H0:观测频度分布与期望频度分布没有差异- Ha:观测频度分布与期望频度分布存在差异

如下图所示为df = 5时,χ2判定的临界值为11.07:

当实际χ2 < 11.07,右尾检验P-value > 0.05, 卡方检验结论为H0成立。当实际χ2 > 11.07,右尾检验P-value < 0.05, 卡方检验结论为Ha成立

由于卡方分布取决于自由度,按照常用的α = 0.05,可以得到χ2临界值(Excel公式:=ChiInv(α,df))与自由度的相关曲线,接近于线性。

分布拟合优度检验χ2 Goodness-of-fit Test for Distribution:

我们通过投骰子的练习来理解如何用卡方统计量进行分布拟合检验。一个骰子有六个面,每次扔出来的点数在理论上是服从1 ~ 6的均匀分布。

步骤一:生成模拟数据。

先通过“Excel命令:数据>>数据分析”来生成100个1~6的随机均匀分布数据,然后用Round(data,0)命令将小数点后的尾数给四舍五入掉(非常时期在家窝着没事,也可以自己拿骰子扔个100次,然后将点数记录下来),我们记为fo:

步骤二:对观测数据进行频次汇总fo,并计算对应分类的概率Probo以及累计概率Cumo。

步骤三:计算均匀分布在对应分类的期望发生频次fe、事件概率Probe和累计概率Cume。

步骤四:计算每一个分类的卡方统计量的贡献度。

步骤五:进行卡方检验。

这里需要注意的是自由度是根据分类数n来的,不是N,df = n – 1 = 5;同时由于卡方检验为右尾检验,故Excel的P-value计算公式为= 1 – ChiDist(χ2, df, 1) = 0.310 >α = 0.05,结论为假设H0成立,该数据分布经分布拟合优度检验后服从均匀分布。

步骤六:观测值vs.期望值柱状图和概率图分析:

结合步骤四和步骤五的计算过程拟合优度检验的逻辑来看,是不是和方差分析、最小二乘法有异曲同工之处?(fo - fe)2与离差平方(xi - xbar)2;χ2 = ∑χi2 → 0与∑εi2 → 0得到最完美无偏差模型。只不过一个是用在离散数据上,一个是用在连续型数据上。

这个例题我们也可以使用MiniTAB来检验是否服从均匀分布。“MiniTAB命令:统计>>表格>>卡方拟合优度检验(单变量)...”,检验里选择“相等比率”。

泊松分布的卡方拟合优度检验:

估计不少同学会说我用过泊松分布的卡方拟合优度检验,没用过均匀分布的卡方拟合优度检验。这里逻辑其实都是一样的,把期望的fe、Probe、Cume按照泊松分布的概率公式来计算就好了,具体过程就不细说了。

“MiniTAB命令:统计>>基本统计量>>Poisson分布的拟合优度检验...”

最后,同学们思考一下,可不可以通过卡方拟合优度检验的方法来判断一组连续型数据是否服从正态分布?

- Jeff整理于/02/02

[完]

微信公众号:Jeff_LSS

如果觉得《2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。