失眠网 > 拓端tecdat|基于模型的聚类和R语言中的高斯混合模型

拓端tecdat|基于模型的聚类和R语言中的高斯混合模型

时间：2019-12-07 23:02:13

原文链接：/?p=6105

原文出处：拓端数据部落公众号

介绍

四种最常见的聚类方法模型是层次聚类，k均值聚类，基于模型的聚类和基于密度的聚类

可以基于两个主要目标评估良好的聚类算法：

高组内相似性低组间相似性

基于模型的聚类是迭代方法，通过优化聚类中数据集的分布，将一组数据集拟合到聚类中。高斯分布只不过是正态分布。此方法分三步进行：

首先随机选择高斯参数并将其拟合到数据集。迭代地优化分布参数以拟合尽可能多的点。一旦收敛到局部最小值，您就可以将数据点分配到更接近该群集的分布。

高斯混合模型

基于概率模型的聚类技术已被广泛使用，并且已经在许多应用中显示出有希望的结果，从图像分割，手写识别，文档聚类，主题建模到信息检索。基于模型的聚类方法尝试使用概率方法优化观察数据与某些数学模型之间的拟合。

生成模型通常使用EM方法求解，EM方法是用于估计有限混合概率密度的参数的最广泛使用的方法。基于模型的聚类框架提供了处理此方法中的几个问题的主要方法，例如密度（或聚类）的数量，参数的初始值（EM算法需要初始参数值才能开始），以及分量密度的分布（例如，高斯分布）。EM以随机或启发式初始化开始，然后迭代地使用两个步骤来解决计算中的循环：

E-Step。使用当前模型参数确定将数据点分配给集群的预期概率。M-Step。通过使用分配概率作为权重来确定每个集群的最佳模型参数。

R中的建模

mb = Mclust(iris[,-5])#或指定集群数mb3 = Mclust(iris[,-5], 3)# 或指定集群数mb$modelName# 或指定集群数mb$G# 在给定聚类中观察的概率head(mb$z)# 获取概率，均值，方差summary(mb, parameters = TRUE)

table(iris$Species, mb$classification)# 比较table(iris$Species, mb3$classification)

比较每个群集中的数据量

在将数据拟合到模型中之后，我们基于聚类结果绘制模型。

让我们绘制估计的密度。

plot(mb, "density")

您还可以使用该summary()函数来获取最可能的模型和最可能数量的集群。对于此示例，最可能的簇数为5，BIC值等于-556.1142。