资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Pandas 数据分析工具详细教程

创作时间:

作者:

@小白创作中心

Pandas 数据分析工具详细教程

引用

CSDN

https://blog.csdn.net/m0_70474954/article/details/143604434

Pandas是一个强大的Python数据分析库，广泛应用于数据科学、数据分析和机器学习等领域。它提供了高效的数据操作和分析功能，使得数据处理变得简单而高效。本文将详细介绍Pandas的基本概念、数据结构、常用操作及其在数据分析中的应用，力求通俗易懂，适合初学者和有一定基础的读者。

Pandas 简介

Pandas 是一个开源的 Python 数据分析库，提供了高效的数据结构和数据分析工具。Pandas 的核心数据结构是 Series 和 DataFrame，它们使得数据的操作变得简单直观。Pandas 适用于各种数据操作，如数据清洗、数据转换、数据分析等。

安装 Pandas

在使用 Pandas 之前，首先需要安装它。可以通过 pip 安装：

pip install pandas

安装完成后，可以通过以下代码检查 Pandas 是否安装成功：

import pandas as pd
print(pd.__version__)

Pandas 数据结构

Series

Series 是一种一维的数据结构，可以存储任意类型的数据（整数、浮点数、字符串等）。每个元素都有一个索引，索引可以是整数或字符串。

import pandas as pd

# 创建一个 Series
data = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(data)

输出：

a    1
b    2
c    3
d    4
e    5
dtype: int64

DataFrame

DataFrame 是一种二维的数据结构，可以看作是一个表格，包含行和列。每列可以存储不同类型的数据。

# 创建一个 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 30, 22],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

输出：

      Name  Age         City
0    Alice   24     New York
1      Bob   30  Los Angeles
2  Charlie   22      Chicago

Panel

Panel 是三维的数据结构，但在 Pandas 中使用得较少，通常使用更高效的方式处理多维数据。以下是创建 Panel 的示例：

# 创建一个 Panel
data = {
    'Item1': pd.DataFrame({'A': [1, 2], 'B': [3, 4]}),
    'Item2': pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
}
panel = pd.Panel(data)
print(panel)

注意：Panel 在较新版本的 Pandas 中已被弃用，建议使用 MultiIndex DataFrame 替代。

数据操作

数据读取与写入

Pandas 支持从多种格式读取数据，包括 CSV、Excel、SQL 数据库等。

从 CSV 文件读取数据

df = pd.read_csv('data.csv')
print(df.head())  # 查看前五行数据

写入 CSV 文件

df.to_csv('output.csv', index=False)  # 不保存索引

数据选择与过滤

Pandas 提供了多种选择和过滤数据的方法。

选择列

# 选择单列
age = df['Age']

# 选择多列
subset = df[['Name', 'City']]

过滤数据

# 过滤年龄大于 25 的人
filtered_data = df[df['Age'] > 25]
print(filtered_data)

数据清洗

数据清洗是数据分析的重要步骤，Pandas 提供了多种方法来处理缺失值和重复数据。

处理缺失值

# 查看缺失值
print(df.isnull().sum())

# 删除缺失值
df_cleaned = df.dropna()

# 用均值填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)

删除重复数据

# 删除重复行
df_unique = df.drop_duplicates()

数据合并与连接

Pandas 提供了多种方法来合并和连接数据。

合并 DataFrame

df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
df_combined = pd.concat([df1, df2], ignore_index=True)
print(df_combined)

输出：

    A   B
0  A0  B0
1  A1  B1
2  A2  B2
3  A3  B3

使用 merge 函数

df1 = pd.DataFrame({'key': ['K0', 'K1'], 'A': ['A0', 'A1']})
df2 = pd.DataFrame({'key': ['K0', 'K1'], 'B': ['B0', 'B1']})
df_merged = pd.merge(df1, df2, on='key')
print(df_merged)

输出：

  key   A   B
0 K0  A0  B0
1 K1  A1  B1

数据分析与统计

描述性统计

Pandas 提供了多种方法来进行描述性统计分析。

# 计算基本统计量
print(df.describe())

分组分析

使用 groupby 方法可以对数据进行分组分析。

# 按城市分组并计算平均年龄
grouped = df.groupby('City')['Age'].mean()
print(grouped)

数据透视表

数据透视表是分析数据的强大工具。

# 创建数据透视表
pivot_table = df.pivot_table(values='Age', index='City', aggfunc='mean')
print(pivot_table)

数据可视化

Pandas 与 Matplotlib 等库结合，可以实现数据可视化。

import matplotlib.pyplot as plt

# 绘制柱状图
df['Age'].value_counts().plot(kind='bar')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Count')
plt.show()

案例分析

以下是一个简单的案例分析，展示如何使用 Pandas 进行数据分析。

案例：分析某公司员工数据

假设我们有一个 CSV 文件 employees.csv，包含员工的姓名、年龄、职位和薪水等信息。我们将通过 Pandas 进行数据分析。

# 读取数据
df = pd.read_csv('employees.csv')

# 查看数据概况
print(df.head())

# 计算各职位的平均薪水
avg_salary = df.groupby('Position')['Salary'].mean()
print(avg_salary)

# 绘制薪水分布图
df['Salary'].hist(bins=10)
plt.title('Salary Distribution')
plt.xlabel('Salary')
plt.ylabel('Frequency')
plt.show()