失眠网 > kmeans聚类分析——Python实现

kmeans聚类分析——Python实现

时间：2022-06-15 13:20:12

注意点：一定要处理异常值和去量纲

导入库

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline

一、数据概况

异常值

缺失值

二、单变量分析

创建新变量

airbnb['year_since_account_created']=airbnb['date_account_created'].apply(lambda x:-x.year)

类别型变量处理

store=pd.get_dummies(store)

日期型变量处理

airbnb['date_account_created']=pd.to_datetime(airbnb['date_account_created']) # 将注册日期转变为日期时间格式

删除对业务分析没有实际作用的变量

drop(['变量名'],axis=1,inplace=True)

三、数据准备

1.相关分析

mb1.columnsmobike.corr() # 相关分析sns.heatmap(df.corr()) # 使用热力图进行可视化呈现

2.选择变量

airbnb_5=airbnb[['age','web','moweb','ios','android']]X = dataset.iloc[:, [3, 4]].values#选择最后两栏作为分群依据

3.数据标准化：（收入-收入均值）/收入标准差

from sklearn.preprocessing import scaleairbnb_5=airbnb[['age','web','moweb','ios','android']]x=pd.DataFrame(scale(airbnb_5)) # 全部变量tired['speed_scaled']=preprocessing.scale(tired.vehicle_speed) # 单个变量

四、评估聚类个数——肘部法则

快速下降趋于平缓下降的转折点，为聚类最好的情况

from sklearn.cluster import KMeanssse = []for i in range(1,11): # 循环使用不同k测试结果kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42)kmeans.fit(df[[,,,]])sse.append(kmeans.inertia_) # kmeans.inertia_是每类数据到其中心点的距离之和。值越小，聚类越好。类别越多，k越大，值越小。plt.plot(range(1,11), sse)plt.title('The Elbow Method')plt.xlabel('Number of clusters')plt.ylabel('SSE')plt.show()