资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据分析案例：2014年淘宝电商平台数据集

创作时间:

作者:

@小白创作中心

数据分析案例：2014年淘宝电商平台数据集

引用

CSDN

https://blog.csdn.net/a_blade_of_grass/article/details/139158958

本文将通过一个实际的电商平台数据集，展示如何进行数据分析。数据来源于阿里云天池，为淘宝app平台在2014年11月18日-12月18日的数据。通过数据处理、统计分析和可视化，我们将揭示用户行为特征和转化漏斗模型，为电商运营提供数据支持。

数据处理

首先导入必要的Python库，并设置seaborn的绘图风格：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

查看数据文件的前几行：

filename = 'tianchi_mobile_recommend_train_user.csv'
with open(filename) as f:
    for _ in range(5):
        line = f.readline()
        line.strip()
        print(line)

输出结果如下：

user_id,item_id,behavior_type,user_geohash,item_category,time
98047837,232431562,1,,4245,2014-12-06 02
97726136,383583590,1,,5894,2014-12-09 20
98607707,64749712,1,,2883,2014-12-18 11
98662432,320593836,1,96nn52n,6562,2014-12-06 10

使用pandas读取数据：

data = pd.read_csv(filename, sep=',')
data.info()

输出结果如下：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12256906 entries, 0 to 12256905
Data columns (total 6 columns):
 #   Column         Dtype 
---  ------         ----- 
 0   user_id        int64 
 1   item_id        int64 
 2   behavior_type  int64 
 3   user_geohash   object
 4   item_category  int64 
 5   time           object
dtypes: int64(4), object(2)
memory usage: 561.1+ MB

将behavior_type的值替换为对应的行为：

behavior_mapping = {'1': 'click', '2': 'collect', '3': 'cart', '4': 'purchase'}
data['behavior_type'] = data['behavior_type'].astype(str).map(behavior_mapping)
data

检查并去除重复项：

duplicates = data.duplicated(subset=['user_id', 'item_id', 'time', 'behavior_type'])
duplicates[duplicates == True].sum()

输出结果为6043527，说明有大量重复项。去除重复项：

data = data.drop_duplicates(['user_id', 'item_id'], keep='first')
data

将time列转换为datetime类型：

data['time'] = pd.to_datetime(data['time'])
data.loc[:, 'time'] = data['time'].dt.strftime('%m-%d')
data

每日PV和UV统计

统计每日页面浏览量（PV）：

daily_pv = data[data['behavior_type'] == 'click'].groupby(data['time']).size()
daily_pv

输出结果如下：

time
11-18    141760
11-19    135782
11-20    132636
11-21    125752
11-22    136362
11-23    145400
11-24    141774
11-25    137280
11-26    134526
11-27    137784

统计每日独立访客数（UV）：

daily_uv = data[data['behavior_type'] == 'click'].groupby(data['time']).user_id.nunique()
daily_uv

输出结果如下：

time
11-18    6189
11-19    6206
11-20    6096
11-21    6026
11-22    5921
11-23    6115
11-24    6226
11-25    6062
11-26    6064
11-27    6089
11-28    5889
11-29    5944

绘制PV和UV的折线图：

fig = plt.figure(figsize=(12, 6))
ax1 = fig.add_subplot(2, 1, 1)
ax2 = fig.add_subplot(2, 1, 2)
ax1.plot(daily_pv.index, daily_pv.values, label='PV', color='blue')
ax1.tick_params(axis='x', rotation=45)
ax2.plot(daily_uv.index, daily_uv.values, label='UV', color='green')
ax2.tick_params(axis='x', rotation=45)
fig.subplots_adjust(hspace=0.35)

结果分析：可以看出，PV和UV是高度正相关的，在双十二左右都剧烈增加，出现井喷现象，说明了活动的热度。

每日用户行为趋势

统计每日不同行为的用户数：

daily_behavior = data.groupby(['behavior_type', 'time']).user_id.nunique()
daily_behavior

输出结果如下：

behavior_type  time 
cart           11-18    1027
               11-19     969
               11-20     992
               11-21     871
               11-22     927
                        ... 
purchase       12-14     366
               12-15     453
               12-16     427
               12-17     417
               12-18     415
Name: user_id, Length: 124, dtype: int64

绘制不同行为的用户数趋势图：

plt.figure(figsize=(12, 6))
daily_behavior.unstack(0).plot()

可以看出双十二的时候，购买人数峰值高于收藏，说明很多人都是活动直接下单，活动力度很大，而日常情况下，加购物车>收藏>购买，人们更普遍的进行加购物车操作，收藏操作相对少一些。

漏斗模型：用户行为转换分析

使用pyecharts绘制用户行为转化漏斗图：

from pyecharts.charts import Funnel
from pyecharts import options as opts

Funnel_behavior=data.groupby(['behavior_type'])['user_id'].nunique()
Funnel_behavior.rename('Count', inplace=True)
Funnel_behavior.drop(index='collect', inplace=True)

value = Funnel_behavior.values.tolist()
key = Funnel_behavior.index.tolist()

# 计算每个阶段的百分比
tmp = value[0]
for i in range(0, len(value)):
    value[i] = value[i] / tmp * 100
    value[i] = "{:.2f}".format(value[i])

# 创建 Funnel 图表实例
c = Funnel()
c.add(
    '',
    list(zip(key, value)),
    label_opts=opts.LabelOpts(
        is_show=True,
        formatter='{b}: {d}%'
    )
)
c.set_global_opts(title_opts=opts.TitleOpts(title="用户行为转化漏斗"))

c.render_notebook()

可以看出，click人数的69.18%都进行了cart操作，57.81%都进行了purchase操作，说明加购物车到购买是比较容易的，因此要提高从点击转化为加购物车的转化率，这样购买人数也会提高。

周期内用户行为频率

分析用户在周期内的行为频率：

data.loc[:, 'user_id1'] = data['user_id']
user_data = data.pivot_table('user_id', index='user_id1', columns='behavior_type', aggfunc='count')

user_behavior = user_data.sort_values(by='click', ascending=False)

user_behavior.describe()

user_behavior.fillna(0).describe()

能够看出，平均购买次数近两次，收藏和购买行为用户占总用户的50%。

绘制购买行为的密度分布图：

sns.displot(user_behavior['purchase'], color='k', kind='kde')

跳失率和复购率

计算跳失率：

grouped_userid = data.groupby('user_id')
grouped_usertype = grouped_userid.behavior_type.value_counts().unstack(1)
users_click = grouped_usertype[grouped_usertype['click'] == grouped_usertype.sum(axis=1)]

onlyclick_rate = users_click.shape[0] / data['user_id'].nunique()

print("跳失率:{:.2f}%".format(onlyclick_rate*100))

输出结果为：

跳失率:11.98%

计算复购率：

users_buytwo_rate = grouped_usertype[grouped_usertype['purchase'] >= 2].shape[0] / data[data['behavior_type'] == 'purchase'].user_id.nunique()

print("复购率:{:.2f}%".format(users_buytwo_rate*100))

输出结果为：