资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

双十一数据清洗神器：Pandas DataFrame

创作时间:

作者:

@小白创作中心

双十一数据清洗神器：Pandas DataFrame

引用

CSDN

等

来源

https://blog.csdn.net/YEN_CSDN/article/details/53445616

https://blog.csdn.net/MAOZI8/article/details/140136849

https://blog.csdn.net/Chen__19/article/details/139707420

https://guandata.com/gy/post/23683.html

https://bbs.fanruan.com/thread-148291-1-1.html

https://bbs.fanruan.com/thread-150674-1-1.html

https://www.cda.cn/discuss/post/details/5f42745ade734f52c64cf48d

每年的双十一购物狂欢节都会产生海量的交易数据，这些数据包含了丰富的信息，如用户行为、商品销售情况、地域分布等。然而，原始数据往往存在各种问题，如缺失值、异常值和重复数据等，这些问题会严重影响数据分析的准确性和可靠性。因此，在进行数据分析之前，数据清洗是必不可少的一步。

Pandas DataFrame作为Python中强大的数据处理工具，为数据清洗提供了全面的功能支持。本文将详细介绍Pandas在双十一数据清洗中的具体应用，帮助读者掌握数据清洗的关键技巧。

Pandas DataFrame数据清洗核心功能

1. 处理缺失值

在双十一交易数据中，缺失值是一个常见的问题。Pandas提供了多种处理缺失值的方法：

检测缺失值：使用isnull()函数可以检测数据中的缺失值。

import pandas as pd

# 创建示例数据
data = {'用户ID': [1, 2, None, 4],
        '交易金额': [100, 200, 300, None]}
df = pd.DataFrame(data)

# 检测缺失值
print(df.isnull())

删除缺失值：使用dropna()函数可以删除包含缺失值的行或列。

# 删除包含缺失值的行
cleaned_df = df.dropna()
print(cleaned_df)

填充缺失值：使用fillna()函数可以填充缺失值，支持常数值填充、均值填充等多种方式。

# 使用均值填充缺失值
mean_value = df['交易金额'].mean()
df['交易金额'].fillna(mean_value, inplace=True)
print(df)

2. 检测和处理异常值

异常值会影响数据分析的准确性，Pandas结合IQR（四分位距）方法可以有效识别和处理异常值。

计算IQR：首先需要计算第一四分位数（Q1）和第三四分位数（Q3），然后计算IQR。

Q1 = df['交易金额'].quantile(0.25)
Q3 = df['交易金额'].quantile(0.75)
IQR = Q3 - Q1

识别异常值：根据IQR的1.5倍范围来识别异常值。

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['交易金额'] < lower_bound) | (df['交易金额'] > upper_bound)]
print("异常值：\n", outliers)

处理异常值：可以采用删除、修正或替换等策略。

# 删除异常值
cleaned_df = df[~((df['交易金额'] < lower_bound) | (df['交易金额'] > upper_bound))]
print("清洗后的数据：\n", cleaned_df)

3. 移除重复数据

重复数据会扭曲分析结果，Pandas提供了简单的方法来检测和删除重复数据。

检测重复数据：使用duplicated()函数可以检测重复行。

# 创建包含重复数据的示例
data = {'用户ID': [1, 2, 1, 4],
        '交易金额': [100, 200, 100, 300]}
df = pd.DataFrame(data)

# 检测重复行
print(df.duplicated())

删除重复数据：使用drop_duplicates()函数可以删除重复行。

# 删除重复行
cleaned_df = df.drop_duplicates()
print(cleaned_df)

实战案例：双十一交易数据清洗

假设我们有一份双十一交易数据，包含了用户ID、交易金额、购买时间等信息。我们将使用Pandas进行数据清洗。

import pandas as pd

# 读取数据
data = pd.read_csv('double11_transactions.csv')

# 检查数据基本信息
print(data.info())
print(data.describe())

# 处理缺失值
data.dropna(inplace=True)

# 检测异常值
Q1 = data['交易金额'].quantile(0.25)
Q3 = data['交易金额'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 删除异常值
data = data[(data['交易金额'] >= lower_bound) & (data['交易金额'] <= upper_bound)]

# 删除重复数据
data.drop_duplicates(inplace=True)

# 保存清洗后的数据
data.to_csv('cleaned_double11_transactions.csv', index=False)

通过以上步骤，我们可以有效地清洗双十一交易数据，为后续的数据分析奠定基础。