失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 【MATLAB数据分析】01数据的均值 变异度 偏度和峰度

【MATLAB数据分析】01数据的均值 变异度 偏度和峰度

时间:2024-05-11 06:29:21

相关推荐

【MATLAB数据分析】01数据的均值 变异度 偏度和峰度

引言

本文介绍了试验数据描述性统计分析中常用的均值、极差、方差、标准差、变异系数、偏度和峰度计算,并给出了MATLAB计算的函数。

文章目录

引言1 均值1.1 样本均值1.2 总体均值1.3 MATLAB编程-均值2 变异度2.1 样本极差、方差、标准差、变异系数2.2 总体方差、标准差、变异系数2.3 MATLAB编程-极差、方差、标准差、变异系数3 偏度3.1 样本偏度3.2 总体偏度3.3 MATLAB编程-偏度4 峰度4.1 样本峰度4.2 总体峰度4.1 MATLAB编程-峰度5.其他说明

设nnn个观测值构成行向量x\mathbf{x}x

x=[x1,x2,⋯,xn]\mathbf{x}=[x_1, x_2, \cdots, x_n]x=[x1​,x2​,⋯,xn​]

其中nnn是样本容量。以下介绍均是样本的数字特征。和样本对应的数字特征是总体特征。

1 均值

1.1 样本均值

样本的样本均值即求数据的算术平均值:

x‾=1n(x1+x2+⋯+xn)=1n∑i=1nxi\overline{x}=\frac{1}{n} (x_1+x_2+\cdots +x_n)=\frac{1}{n}\sum_{i=1}^nx_ix=n1​(x1​+x2​+⋯+xn​)=n1​i=1∑n​xi​

在分组样本场合,样本均值的近似公式为:

x‾=1k(x1f1+x2f2+⋯+xkfk)=1k∑i=1kxifi\overline{x}=\frac{1}{k}(x_1f_1+x_2f_2+\cdots+x_kf_k)=\frac{1}{k}\sum_{i=1}^kx_if_ix=k1​(x1​f1​+x2​f2​+⋯+xk​fk​)=k1​i=1∑k​xi​fi​

其中,kkk是组数,xix_ixi​是第iii组的组中数,fif_ifi​是第iii组的频数。

均值表现了数据的集中位置。

1.2 总体均值

总体均值即为总体数据的数学期望:

μ=E(x)\mu=E(x)μ=E(x)

1.3 MATLAB编程-均值

计算均值使用的是函数mean

xmean=mean(x);%均值

2 变异度

2.1 样本极差、方差、标准差、变异系数

刻画数据变异度的量有样本极差RRR,她等于样本中最大值减去最小值,即R=xmax−xminR=x_{max}-x_{min}R=xmax​−xmin​

它可以刻画数据散布范围大小,但不能刻画数据在这个范围内散布的集中或离散程度。刻画数据集中或离散程度的程度应该用其中心位置x‾\overline{x}x为度量标准。任一数据xix_ixi​和样本均值x‾\overline{x}x的差称作xix_ixi​的偏差。可以计算出,样本中所有数据的偏差和是0:

∑i=1n(xi−x‾)=∑i=1nxi−nx‾=0\sum_{i=1}^{n}(x_i-\overline{x})=\sum_{i=1}^nx_i-n\overline{x}=0i=1∑n​(xi​−x)=i=1∑n​xi​−nx=0

因而,刻画所有数据的变异度常用样本方差s2s^2s2或样本标准差sss,可以表示为:

s2=1n−1∑i=1n(xi−x‾)2s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2s2=n−11​i=1∑n​(xi​−x)2

s=s2=1n−1∑i=1n(xi−x‾)2s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}s=s2​=n−11​i=1∑n​(xi​−x)2​

方差的量纲和数据的量纲不一致,它是数据量纲的平方,而标准差的量纲和数据量纲一致。比较两个样本的变异度,由于单位不同或平均数不同,不能单纯地用标准差来比较,而是用一个相对的百分数变异数来比较,这就是变异系数,表示为:

CV=100×sx‾CV=100\times\frac{s}{\overline{x}}CV=100×xs​

用它可以对同一样本中的不同指标或不同样本中的同一指标进行比较,据CVCVCV的大小可以对指标的变异程度排序。

2.2 总体方差、标准差、变异系数

总体方差计算公式为:

σ2=var(x)\sigma^2=var(x)σ2=var(x)

总体标准差计算公式为:

σ=var(x)\sigma=\sqrt{var(x)}σ=var(x)​

总体变异系数计算公式为:

γ=σμ\gamma=\frac{\sigma}{\mu}γ=μσ​

2.3 MATLAB编程-极差、方差、标准差、变异系数

计算极差用的是函数range

xrange=range(x);%极差

计算方差用的是函数var

xvar=var(x);%方差

计算标准差用的是函数std

xstd=std(x);%标准差

计算变异系数利用定义计算:

xcv=100*std(x)./mean(x);%变异系数

3 偏度

3.1 样本偏度

偏度用来刻画数据的偏态,对于样本数据,其样本偏度其计算公式(总体偏度的无偏估计)为:

g1=n(n−1)(n−2)s3∑i=1n(xi−x‾)3=n2u3(n−1)(n−2)s3g_1=\frac{n}{(n-1)(n-2)s^3}\sum_{i=1}^n(x_i-\overline{x})^3=\frac{n^2u_3}{(n-1)(n-2)s^3}g1​=(n−1)(n−2)s3n​i=1∑n​(xi​−x)3=(n−1)(n−2)s3n2u3​​

其中,s是标准差,u3=1n∑i=1n(xi−x‾)3u_3=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3u3​=n1​∑i=1n​(xi​−x)3是样本的3阶中心矩。偏度是刻画数据对称性的指标:

数据关于均值对称偏度g1=0g_1=0g1​=0

数据关于均值不对称,右侧数据更分散(右尾长),偏度g1>0g_1>0g1​>0

数据关于均值不对称,左侧数据更分散(左尾长),偏度g1<0g_1<0g1​<0

3.2 总体偏度

总体偏度的计算公式是:

G1=μ3σ3G_1=\frac{\mu_3}{\sigma^3}G1​=σ3μ3​​

式中μ3=E(X−μ)3\mu_3=E(X-\mu)^3μ3​=E(X−μ)3是总体3阶中心距。

3.3 MATLAB编程-偏度

计算偏度用的是函数skewness,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。

xske=skewness(x,0);%偏度

4 峰度

4.1 样本峰度

峰度用来刻画数据的尾重程度,对于样本数据,其样本峰度计算公式(总体峰度的无偏估计)为:

g2=n(n+1)(n−1)(n−2)(n−3)s4∑i=1n(xi−x‾)4−3(n−1)2(n−2)(n−3)=n2(n+1)u4(n−1)(n−2)(n−3)s4−3(n−1)2(n−2)(n−3)\begin{aligned} g_2&=\frac{n(n+1)}{(n-1)(n-2)(n-3)s^4}\sum_{i=1}^n(x_i-\overline{x})^4-3\frac{(n-1)^2}{(n-2)(n-3)}\\&=\frac{n^2(n+1)u_4}{(n-1)(n-2)(n-3)s^4}-3\frac{(n-1)^2}{(n-2)(n-3)} \end{aligned}g2​​=(n−1)(n−2)(n−3)s4n(n+1)​i=1∑n​(xi​−x)4−3(n−2)(n−3)(n−1)2​=(n−1)(n−2)(n−3)s4n2(n+1)u4​​−3(n−2)(n−3)(n−1)2​​

其中,s是标准差,u4=1n∑i=1n(xi−x‾)4u_4=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4u4​=n1​∑i=1n​(xi​−x)4是样本的4阶中心矩。峰度是刻画数据分散性的指标:

数据总体分布式正态分布时,g2=0g_2=0g2​=0

数据分布较正态分布的尾部更加分散,两端极端数据更多(粗尾),偏度g2>0g_2>0g2​>0

数据分布较正态分布的尾部更加集中,两端极端数据更少(细尾),偏度g2<0g_2<0g2​<0

4.2 总体峰度

总体峰度的计算公式是:

G2=μ4σ4−3G_2=\frac{\mu_4}{\sigma^4}-3G2​=σ4μ4​​−3

式中μ4=E(X−μ)4\mu_4=E(X-\mu)^4μ4​=E(X−μ)4是总体4阶中心距。

4.1 MATLAB编程-峰度

计算峰度用的是函数kurtosis,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。

xkur=kurtosis(x,0);%峰度

5.其他说明

根据统计学的结果,样本的数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,当观测数量足够大时:

μ≈x‾σ2≈s2σ≈sγ≈CVG1≈g1G2≈g2\begin{aligned} &\mu\approx \overline{x}\\ &\sigma^2\approx s^2\\ &\sigma\approx s\\ &\gamma\approx CV\\ &G_1\approx g_1\\ &G_2\approx g_2 \end{aligned}​μ≈xσ2≈s2σ≈sγ≈CVG1​≈g1​G2​≈g2​​

这里,特别要强调以下情况,当观测数据x1,x2,⋯,xnx_1,x_2,\cdots,x_nx1​,x2​,⋯,xn​是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据xix_ixi​是等可能的,即为1n\frac{1}{n}n1​,总体分布为离散均匀分布:

P(X=xi)=1n,i=1,2,⋯,nP(X=x_i)=\frac{1}{n},\quad i=1,2,\cdots,nP(X=xi​)=n1​,i=1,2,⋯,n

参考资料

[1]WikiPedia-偏度

[2]WikiPedia-峰度

[3]Joanes D N, Gill C A. Comparing measures of sample skewness and kurtosis[J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1998, 47(1): 183-189.

[4]王岩,隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,:10-14

如果觉得《【MATLAB数据分析】01数据的均值 变异度 偏度和峰度》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。