基于大数据挖掘分析的客户细分:K-means聚类分析实战
创作时间:
作者:
@小白创作中心
基于大数据挖掘分析的客户细分:K-means聚类分析实战
引用
CSDN
1.
https://blog.csdn.net/caxiou/article/details/137166959
本文将介绍如何使用K-means聚类分析算法对超市客户数据进行细分。通过数据分析和可视化,我们可以更好地理解客户群体的特征和行为模式,为商业决策提供数据支持。
数据分析步骤
- 导入必要的库
- 了解数据
- 数据可视化
- 使用K-means进行聚类分析
数据观察与预处理
引入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
plt.style.use('fivethirtyeight')
from sklearn.cluster import KMeans
import plotly as py
import plotly.graph_objects as go
import warnings
import os
warnings.filterwarnings('ignore')
查看数据
df=pd.read_csv('/home/kesci/input/1564558710/超市数据.csv')
df.head()
数据可视化
查看数据分布
样本数据中的性别比
年龄与年收入之间的关系
年龄与消费得分之间的关系
年龄与消费得分与年收入之间的分布
K-means聚类分析
确定聚类数量
x1=df[['Age','Spending Score (1-100)']].iloc[:,:].values
from sklearn.cluster import KMeans
inertia=[]
for i in range(1,11):
km=KMeans(n_clusters=i,init='k-means++',max_iter=300,n_init=10,random_state=100)
km.fit(x1)
inertia.append(km.inertia_)
plt.figure(1,figsize=(12,6))
plt.plot(range(1,11),inertia)
plt.title('The Elbow Method',fontsize=20)
plt.xlabel('Number of Clusters')
plt.ylabel('inertia')
plt.show()
聚类结果可视化
km = KMeans(n_clusters = 4, init = 'k-means++', max_iter = 300, n_init = 10, random_state = 100)
y_means = km.fit_predict(x1)
plt.figure(1 , figsize = (12 , 6) )
plt.scatter(x1[y_means == 0, 0], x1[y_means == 0, 1], s = 200, c = 'salmon')
plt.scatter(x1[y_means == 1, 0], x1[y_means == 1, 1], s = 200, c = 'yellowgreen')
plt.scatter(x1[y_means == 2, 0], x1[y_means == 2, 1], s = 200, c = 'cornflowerblue')
plt.scatter(x1[y_means == 3, 0], x1[y_means == 3, 1], s = 200, c = 'magenta')
plt.scatter(km.cluster_centers_[:,0], km.cluster_centers_[:, 1], s = 100, c = 'black' , label = 'centeroid')
plt.ylabel('Spending Score (1-100)') , plt.xlabel('Age')
plt.legend()
plt.show()
映射到三维空间上的分布如下:
热门推荐
QDII基金是什么?购买QDII基金需要注意哪些问题
2025治疗乙肝新药最新进展:AHB-137揭盲在即,多款新药展现潜力
MacBook双系统轻松卸载指南,一招教你删除Mac系统
资产价值评估报告的具体应用场景有哪些?
餐饮选址:如何利用大数据解决工作难题
物业经理证书和物业项目经理证书用途
三国杀核心玩法详解:身份角色与胜利条件解析
感冒了可以喝咖啡吗?
色环电阻的读取方法全解:从基础原理到实际应用
车辆剩余里程是什么意思及准确性探讨与计算方法解析
惊险!车辆漏油自燃,加油员20秒神速灭火!
Q355D钢板尺寸与规格报告
平行宇宙存在论:我们可能只是多个现实中的一部分?
糖蜜肥料的制造与应用
詹姆斯常规赛生涯胜场数达到1001场,追平邓肯并列历史第三
告别熬夜!了解宝宝各月龄睡眠特点及护理指南,全家轻松带娃
高中生物选修二知识点总结
辣条热量多少大卡
人工智能主题基金五年业绩PK:万家、南方基金收益率领跑
药品说明“适老化”,关键要让老人看得清读得懂
防火门开启方向的规定
未来3年力争新增500万人次高技能人才
专家解读:2024年11月乘用车新车分级测算
张东京:蚊子绝育用上了“核技术”
疾控专家教你“控水”防蚊
少儿学习中国舞的四大好处
新疆生地所突破:沙漠苔藓齿肋赤藓极端生存能力研究,助力外星环境拓殖
2024年艺术拍卖市场总体疲软,但有这些亮点和新趋势
勐景来:一个傣族村寨的文旅融合发展之路
家庭教育的情绪管理艺术:帮助孩子建立情绪调节机制