资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Pandas高效处理Excel数据，职场人必学技能！

创作时间:

作者:

@小白创作中心

Pandas高效处理Excel数据，职场人必学技能！

引用

CSDN

等

来源

https://blog.csdn.net/weixin_50538485/article/details/131595828

https://zhuanlan.zhihu.com/p/552263958

https://blog.csdn.net/wangxingfan316/article/details/79628463

https://blog.csdn.net/weixin_44305115/article/details/108082729

https://zhuanlan.zhihu.com/p/142972462

https://blog.csdn.net/weixin_43413451/article/details/116618481

https://blog.csdn.net/weixin_44369049/article/details/142283194

https://blog.csdn.net/qq_35318838/article/details/104692846

http://www.runoob.com/pandas/pandas-cleaning.html

10.

https://www.cnblogs.com/xiao987334176/p/14138123.html

11.

https://chengjun.github.io/mybook/06-data-cleaning-pandas.html

12.

https://shixiangwang.github.io/pybook/08-pandas-intro/

在当今数据驱动的商业环境中，数据分析已成为职场人士必备的技能之一。Python的Pandas库作为数据处理和分析的强大工具，以其简洁的语法和强大的功能，成为数据科学家和分析师的首选工具。本文将详细介绍如何使用Pandas高效读取、清洗、分析并写入Excel数据，帮助职场人士提升工作效率，增强数据分析能力。

为什么选择Pandas？

Pandas是Python生态系统中最重要的数据分析库之一，提供了大量用于数据操作和分析的函数和方法。它具有以下特点：

强大的数据结构：Pandas提供了DataFrame和Series两种数据结构，可以轻松处理表格数据和时间序列数据。
灵活的数据操作：Pandas支持数据的读取、清洗、转换、合并、重塑等多种操作，可以满足各种数据处理需求。
丰富的数据分析功能：Pandas提供了数据筛选、排序、分组、聚合等数据分析功能，可以快速完成复杂的数据分析任务。
易用的API：Pandas的API设计直观，易于学习和使用，可以快速上手。

读取Excel数据

Pandas提供了read_excel()函数来读取Excel文件。下面是一个基本的读取示例：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')
print(df.head())  # 显示前5行数据

但是，实际工作中我们经常会遇到更复杂的情况，比如：

Excel文件有多个sheet
需要读取特定的列
文件没有标题行
需要处理不同格式的Excel文件

读取特定的sheet

可以通过sheet_name参数来指定要读取的sheet：

# 读取特定的sheet
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 读取所有sheet
dfs = pd.read_excel('data.xlsx', sheet_name=None)

处理标题行

如果Excel文件没有标题行，可以使用header参数：

# 不使用标题行
df = pd.read_excel('data.xlsx', header=None)

# 指定特定行作为标题
df = pd.read_excel('data.xlsx', header=1)

读取特定的列

使用usecols参数可以只读取需要的列：

# 读取特定的列
df = pd.read_excel('data.xlsx', usecols=['A', 'B', 'C'])

# 读取前3列
df = pd.read_excel('data.xlsx', usecols=3)

处理不同格式的Excel文件

Pandas支持多种Excel文件格式，包括.xls、.xlsx、.xlsm、.xlsb和.odf。如果遇到不支持的格式，可以使用engine参数指定第三方库：

# 使用openpyxl引擎读取xlsx文件
df = pd.read_excel('data.xlsx', engine='openpyxl')

数据清洗与预处理

数据清洗是数据分析的重要步骤，Pandas提供了多种数据清洗功能：

缺失值处理

可以使用dropna()函数删除包含缺失值的行或列：

# 删除包含缺失值的行
df = df.dropna()

# 删除包含缺失值的列
df = df.dropna(axis=1)

也可以使用fillna()函数填充缺失值：

# 用0填充缺失值
df = df.fillna(0)

# 用均值填充缺失值
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

重复数据处理

使用duplicated()函数检查重复数据，使用drop_duplicates()函数删除重复数据：

# 检查重复数据
print(df.duplicated())

# 删除重复数据
df = df.drop_duplicates()

数据类型转换

可以使用astype()函数转换数据类型：

# 将列转换为整数类型
df['column_name'] = df['column_name'].astype(int)

异常值处理

可以使用条件筛选来处理异常值：

# 删除异常值
df = df[df['column_name'] < 100]

数据分析

Pandas提供了丰富的数据分析功能：

数据筛选

使用布尔索引可以进行数据筛选：

# 筛选年龄大于30的记录
filtered_df = df[df['age'] > 30]

排序

使用sort_values()函数可以对数据进行排序：

# 按年龄升序排序
sorted_df = df.sort_values(by='age')

# 按年龄降序排序
sorted_df = df.sort_values(by='age', ascending=False)

分组聚合

使用groupby()函数可以进行数据分组，配合聚合函数可以完成复杂的统计分析：

# 按性别分组，计算平均年龄
grouped_df = df.groupby('gender')['age'].mean()

写入Excel数据

处理完数据后，我们可能需要将结果保存回Excel文件。Pandas提供了to_excel()函数来实现这一功能：

# 写入Excel文件
df.to_excel('output.xlsx', index=False)

如果需要写入多个sheet，可以使用ExcelWriter：

with pd.ExcelWriter('output.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1', index=False)
    df2.to_excel(writer, sheet_name='Sheet2', index=False)