失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 正态分布的峰度和偏度分别为_科学网—峰度(Kurtosis)与偏态(Skewness) - 李旭的博文...

正态分布的峰度和偏度分别为_科学网—峰度(Kurtosis)与偏态(Skewness) - 李旭的博文...

时间:2020-05-05 21:26:47

相关推荐

正态分布的峰度和偏度分别为_科学网—峰度(Kurtosis)与偏态(Skewness) - 李旭的博文...

我们在应用ArcGIS提供的克里格(Kriging)插值工具之前,经常要对数据的分布情况进行考察,这是因为克里格插值的前提假设之一就是数据服从正态分布。峰度(Kurtosis)与偏态(Skewness)就是量测数据正态分布特性的两个指标。

(1)峰度(Kurtosis)

峰度衡量数据分布的平坦度(flatness)。尾部大的数据分布,其峰度值较大。正态分布的峰度值为3。其公式如下:

式中, K表示峰度(无量纲); i表示第 i个数值; xbar表示平均值; n是采样数量。

图 1

如图 1所示,黑线服从尖峰(leptokurtic)、厚尾(thick-tailed)分布的峰度值大于3。红线服从正态分布,峰度值等于3。

注意,个别的软件会将峰度值减3,ArcGIS默认正态分布的峰度为3。MS Excel的计算公式与上面略有不同。

(2)偏态(Skewness)

偏态量度对称性。0说明是最完美的对称性,正态分布的偏态就是0。如图2所示,右偏态为正,表明平均值大于中位数。反之为左偏态,为负。

图 2

式中, S表示偏度(无量纲);i 表示第 i个数值; xbar表示平均值; n是采样数量。

(3)采样数量对峰度和偏态的影响

在真实世界里,我们是不能获得全部数据的。那么,从局部已获得的采样点数据来推测整体就是现实最优的选择。下面举例说明,采样点数量对峰度和偏态的影响。

数据描述:有一列数据集,内含5000个数值,依次抽样数量从5个升至5000个随机抽取,每次抽取分为5次重复,计算N个抽样数量下的峰度和偏态的最大值、平均值、中位数和最小值。

表 一

如表一所示,采样数量从5至5000个,若以全部采样(5000)得到的峰度和偏度为真值,那么小于5000个采样的峰度和偏度对整体的估计就不一定很准确了。抽样数量为500时,峰度从2.9682~2.6704,偏度为0.1705到-0.0841,这与真值都相差较大,可能对真实的情况产生误导。由此发现,峰度和偏度的准确性非常依赖于采样的数量。因此,也有人对峰度和偏态量度数据分布的能力产生质疑。

即使是全部采样(数量为5000),又由于采样的序列不同,峰度和偏态也不相同,如表一黄色单元格。

下面附有数据及Matlab代码。

转载本文请联系原作者获取授权,同时请注明本文来自李旭科学网博客。

链接地址:/blog-1148346-786610.html

上一篇:ArcGIS地统计插值(2/2):克里格插值

下一篇:NOAA:全球气象站点数据

如果觉得《正态分布的峰度和偏度分别为_科学网—峰度(Kurtosis)与偏态(Skewness) - 李旭的博文...》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。