失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 数据建模-聚类分析-K-Means算法

数据建模-聚类分析-K-Means算法

时间:2021-05-08 10:36:26

相关推荐

数据建模-聚类分析-K-Means算法

数据+ 代码来源:Python数据分析与挖掘实战

数据:根据这些数据将客户分类成不同群体,并评价这些客户群的价值

R: 最近依次消费时间间隔;F: 消费频率;M: 消费总金额

部分数据如下:

代码:

#-*- coding: utf-8 -*-import pandas as pdfrom sklearn.cluster import KMeansinputfile = '../data/consumption_data.xls'outputfile = './data_type.xls'k =3 #聚类的级别iteration = 500 #剧烈最大循环次数data = pd.read_excel(inputfile, index_col='Id')data_zs = 1.0 *(data-data.mean())/data.std() #数据标准化model = KMeans(n_clusters=k, n_jobs=4, max_iter=iteration) #分为k类,并发数4model.fit(data_zs) #开始聚类#简单打印结果r1 = pd.Series(model.labels_).value_counts() #统计各个类别的数目r2 = pd.DataFrame(model.cluster_centers_) #找出聚类中心r = pd.concat([r2, r1], axis=1) #横向连接(0是横向),得到聚类中心对应的类别下的数目r.columns = list(data.columns) + [u'类别数目'] #重命名表头#print(r)#详细输出原始数据及其类别r = pd.concat([data, pd.Series(model.labels_, index=data.index)], axis=1) #详细输出每个样本对应的类别r.columns = list(data.columns) + [u'聚类类别'] #重命名表头r.to_excel(outputfile) #保存结果

输出结果部分如下:

接着用Pandas和Matplotlib绘制的不同客户分群的概率密度函数图,通过这些图能直观地比较不同客户群的价值,代码如下:

def density_plot(data): #自定义作图函数import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Falsep = data.plot(kind='kde', linewidth=2, subplots=True, sharex=False)[p[i].set_ylabel(u'密度') for i in range(k)]plt.legend()return pltpic_output = './pd_'for i in range(k):density_plot(data[r[u'聚类类别']==i]).savefig(u'%s%s.png' % (pic_output, i))

分群1的概率密度函数图

分群1特点:R间隔相对较小,主要集中在0~30天;消费次数集中在10~25次,消费金额在500~2000。

分群2的概率密度函数图

分群2特点:R间隔分布在0~30天;消费次数集中在0~12次;消费金额在0~1800。

分群3的概率密度函数图

分群3特点:R间隔相对较大,间隔分布在30~80天;消费次数在0~15次;消费金额在0~2000。

对比分析:分群1时间间隔较短,消费次数多,而且消费金额较大,是高消费、高价值人群。分群2的时间间隔、消费次数和消费金额处于中等水平,代表着一般客户。分群3的时间间隔较长,消费次数较少,消费金额也不是特别的高,是价值较低的客户群体。

如果觉得《数据建模-聚类分析-K-Means算法》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。