失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 正态分布 t分布 卡方分布 F分布的关系与差异

正态分布 t分布 卡方分布 F分布的关系与差异

时间:2023-10-29 11:47:37

相关推荐

正态分布 t分布 卡方分布 F分布的关系与差异

要理解这些分布,要从基础的正态分布开始。

1. 正态分布

下面是维基百科对正态分布的介绍:

正态分布(英语:normal distribution)又名高斯分布(英语:Gaussian distribution),是一个非常常见的连续概率分布。若随机变量 X服从一个位置参数为 ?、尺度参数为 σ 的正态分布,记为:

X∼N(μ,σ)X \sim N(\mu, \sigma) X∼N(μ,σ)

则其概率密度函数为

f(x)=1σ2π e−(x−μ)22σ2f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}} f(x)=σ2π​1​e−2σ2(x−μ)2​

正态分布的数学期望值或期望值 ? 等于位置参数,决定了分布的位置;其方差 σ2的开平方或标准差 σ 等于尺度参数,决定了分布的幅度。通常所说的标准正态分布是位置参数? =0,尺度参数 σ2 = 1的正态分布。

下面是正态分布图(来自维基):

2. t分布

2.1 概念

在概率论和统计学中,学生t-分布(Student’s t-distribution)可简称为t分布,用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

假设 X是呈正态分布的独立的随机变量(随机变量的期望值是 ? ,方差是 σ2但未知)。 令:

X‾n=X1+⋯+Xnn{\overline {X}}_{n}= {\frac {X_{1}+\cdots +X_{n}}{n}} Xn​=nX1​+⋯+Xn​​

为样本均值。

Sn2=∑i=1n(Xi−X‾n)2n−1{S_{n}}^{2}={\frac {\sum _{{i=1}}^{n}\left(X_{i}-\overline {X}_{n}\right)^{2}}{n-1}} Sn​2=n−1∑i=1n​(Xi​−Xn​)2​

为样本方差。

T值定义:

T=X‾n−μSnnT={\frac {{\overline {X}}_{n}-\mu }{\frac {S_{n}}{\sqrt {n}}}} T=n​Sn​​Xn​−μ​

T的概率密度函数是:

f(t)=Γ(ν+12)νπ  Γ(ν2)(1+t2ν)−(ν+1)2f(t)={\frac {\Gamma ({\frac {\nu +1}{2}})}{{\sqrt {\nu \pi \,}}\,\Gamma ({\frac {\nu }{2}})}}(1+{\frac {t^{2}}{\nu }})^{\frac {-(\nu +1)}{2}} f(t)=νπ​Γ(2ν​)Γ(2ν+1​)​(1+νt2​)2−(ν+1)​

参数 v = n − 1, 一般被称为自由度。 T的分布称为t-分布。

关于伽玛函数,不再具体展开,可点击链接参考维基百科。

2.2 分布图

T的概率密度函数的形状类似于标准正态分布(?=0, σ2=1),但更低更宽。随着自由度 v 的增加,则越来越接近均值为0方差为1的正态分布。

t-分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线).

前幅图用绿色曲线表示.

2.3 应用

t分布是对两个样本均值差异进行显著性测试的学生t检验的基础。学生t检验改进了Z检验(Z-test),因为Z检验以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检验来求得近似值,但Z检验用在小样本会产生很大的误差,因此必须改用学生t检验以求准确。

在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检验。

在待比较的数据有三组以上时,因为误差无法被压低,此时可以用变异数分析(ANOVA)代替学生t检验。

3.卡方分布

3.1 概念

卡方分布(chi-square distribution, χ²-distribution,或写作χ²分布)是概率论与统计学中常用的一种概率分布。

若k个随机变量 Z1、……、 Zk是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和

X=∑i=1kZi2X=\sum _{{i=1}}^{k}Z_{i}^{2} X=i=1∑k​Zi2​

被称为服从自由度为 k 的卡方分布,记作

X∼χ2(k)或X∼χk2X \sim \chi ^{2}(k) \space 或 \space X \sim \chi _{k}^{2} X∼χ2(k)或X∼χk2​

3.2 分布图

下面是卡方分布的概率密度函数:

3.3 应用

卡方分布是一种特殊的伽玛分布,是统计推断中应用最为广泛的概率分布之一,例如假设检验和置信区间的计算。

由卡方分布延伸出来皮尔森卡方检定常用于:

样本某性质的比例分布与总体理论分布的拟合优度(例如某行政机关男女比是否符合该机关所在城镇的男女比);

同一总体的两个随机变量是否独立(例如人的身高与交通违规的关联性);

二或多个总体同一属性的同素性检定(意大利面店和寿司店的营业额有没有差距)。

4. F分布

4.1 概念

F分布定义:设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,F-分布是这两个卡方分布变量X、Y除以各自的自由度后的比率的分布:

X1/k1X2/k2=X1/X2k1/k2{\frac {X_{1}/k_{1}}{X_{2}/k_{2}}}={\frac {X_{1}/X_{2}}{k_{1}/k_{2}}} X2​/k2​X1​/k1​​=k1​/k2​X1​/X2​​

4.2 概率密度函数

F分布的形状依赖于分子和分母的自由度,分布不对称,在第一象限。

4.3 应用

F-分布(F-distribution)是一种连续概率分布,被广泛应用于似然比率检验,特别是ANOVA中。

在下篇F检验的应用着重介绍了两个应用:

a) 对于正态总体来说,两个总体的方差比较可以用F-分布来检验;

b) F检验应用于方差分析。

小结

对于来自呈正态分布而方差未知的总体的小样本,T值类似于基于小样本进行的正态分布标准化转换,T的概率密度函数的形状也类似于标准正态分布,且随着自由度增加会越来越接近。t分布是对两个样本均值差异进行显著性测试的学生t检验的基础,在母体标准差未知的情况下,不论样本数量大或小皆可应用学生t检验。

卡方分布是k个独立的标准正态分布变量的平方和服从的分布,自由度为k,可用于计算假设检验和置信区间,由其延伸的皮尔森卡方检验很常用。

F分布是基于卡方分布的。

如果觉得《正态分布 t分布 卡方分布 F分布的关系与差异》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。