一
导 语
相信大家在做数据分析时,一定遇到过样本数据可能具有群组效应的情况。因为种种原因,数据点之间会是非独立的,呈现出一定的聚集性,这类数据往往也存在嵌套性,层次关系明显。
举个例子,当我们得到一组广东省各地区受教育程度数据时,就可以发现一种“市/县—区/乡—个人”的层级结构。按照经验来说,城镇化程度高的地区,居民的受教育程度较高,除了个体因素(性别、智力水平、家庭经济条件等)之外,还有地区教育基础设施、具体政策、文化风俗等影响。
所以,我们就不能够直接粗暴地对不同地区的数据进行一般的线性回归分析,预测所有人的受教育程度。否则,模型中的参数估计值和标准误容易有偏差,残差方差也会偏大,使模型拟合优度变差,损失数据信息。
二
概 念 解 释
今天要介绍的多水平模型就可以解决上述问题,它是基于方差成分分析提出的,结合了多元统计分析。它也常被称为“随机系数模型”,“混合效应模型”,“层次线性模型”,等,其实根据不同假设条件,多水平模型可以具体地采用随机效应模型,固定效应模型,或者混合效应模型。虽然会在不同应用领域上算法可能稍有差别,但它们均用于分析具有层次结构的数据或者非独立的数据。
多水平模型的典型数据来源
1.自然的层级结构
1)多阶段抽样:健康服务评估中,患者——医院——地区
2)群随机试验研究/准试验
3)多中心临床试验:患者——中心
4)实验研究:大鼠——窝别;测试点——不同部位——个体
5)调查研究:个体——乡镇——县
2.非自然的系统层级结构
1)随访研究:重复测量——个体
2)多结局应变量(伴随疾病,往往多个应变量内部具有强相关性):人格特质/精神病维度——个体
三
关 于 模 型
1.随机截距模型
一种最基本最简单的多水平模型,以方差成分模型为基础。
j=1,2,...,m表示水平2单位
i=1,2,...,n表示水平1单位
*角标含义样例:j代表水平2,医院;i代表水平1,患者;即ij代表第j个医院中的第i个患者
随机变量
就是这个模型与传统模型的区别,有j个截距,所以也叫随机截距模型。多水平模型增加的随机效应项其实是从一般线性模型的误差项分解出来的,假定
,
就是平均截距,即X=0时,Y的总均数。
为随机变量,反映了第j个医院对Y的随机效应。斜率
则为X的固定效应值,由于斜率不变,此模型可以拟合j条平行的回归线。
为了确认数据是否独立,层次结构数据可以利用组内相关系数(ICC)来度量
有水平2残差
的假定为
,水平1残差
的假定为
:
ICC取值在0至1之间:
①ICC不为0时,就可以认为该数据有组内相关性;
②趋近1时,水平2的组间方差较组内方差大很多;
③趋近0时,数据不具有层次结构,模型可简化为固定效应模型。
2.随机系数模型
不难发现,相较上面的随机截距模型,这个模型中的
就是随机系数。假定
,有两个随机变量
,而
依然是平均截距,
则是平均斜率。
3.固定与随机参数估计方法
最大似然估计:基于普通残差项
限制性最大似然估计:基于全残差项,即所有的随机变异
对于多水平模型我们已经有了初步的了解,在今天的第二篇推送中,还有超详细的SPSS操作案例,不要错过喔~
如果觉得《多水平模型系列|连续性资料的多水平模型分析》对你有帮助,请点赞、收藏,并留下你的观点哦!