资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

数据清洗与分析工具详解：Pandas 和 NumPy 的全面教程

创作时间:

作者:

@小白创作中心

数据清洗与分析工具详解：Pandas 和 NumPy 的全面教程

引用

CSDN

https://blog.csdn.net/m0_70474954/article/details/143325268

在数据科学的世界中，数据清洗与分析是至关重要的步骤。Pandas 和 NumPy 是 Python 中最常用的两个库，它们为数据处理提供了强大的功能。本文将为你详细介绍这两个库的使用方法，配合实例和图示，帮助你深入理解并掌握数据清洗与分析的技巧。

NumPy 概述

NumPy 安装

NumPy 是一个用于科学计算的基础库。你可以通过以下命令安装：

pip install numpy

NumPy 基础

NumPy 提供了强大的 N 维数组对象 ndarray，以及用于数组操作的函数。

创建 NumPy 数组：

import numpy as np

# 创建一维数组
arr1 = np.array([1, 2, 3, 4, 5])
print(arr1)

# 创建二维数组
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr2)

数组运算

NumPy 支持元素级运算：

# 数组加法
arr3 = arr1 + 5
print(arr3)

# 数组乘法
arr4 = arr2 * 2
print(arr4)

数组切片

# 切片操作
print(arr1[1:4])  # 输出 [2 3 4]
print(arr2[:, 1])  # 输出第二列 [2 5]

Pandas 概述

Pandas 安装

Pandas 是一个用于数据分析的库，提供了数据结构和数据分析工具。安装方法如下：

pip install pandas

Pandas 基础

Pandas 主要有两个数据结构：Series 和 DataFrame。

创建 Pandas Series：

import pandas as pd

# 创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print(s)

创建 Pandas DataFrame：

# 创建 DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

数据清洗

数据清洗是数据分析的重要步骤，确保数据的质量和完整性。

处理缺失值

缺失值会影响分析结果，Pandas 提供了多种处理方法。

# 创建包含缺失值的 DataFrame
data_with_nan = {
    'name': ['Alice', 'Bob', None],
    'age': [25, None, 35],
    'city': ['New York', 'Los Angeles', None]
}
df_nan = pd.DataFrame(data_with_nan)

# 查看缺失值
print(df_nan.isnull())

# 删除缺失值
df_cleaned = df_nan.dropna()
print(df_cleaned)

# 用均值填充缺失值
df_nan['age'].fillna(df_nan['age'].mean(), inplace=True)
print(df_nan)

数据类型转换

有时需要转换数据类型以便于分析。

# 将年龄列转换为整数类型
df['age'] = df['age'].astype(int)
print(df.dtypes)

重命名列

# 重命名列
df.rename(columns={'name': 'full_name'}, inplace=True)
print(df)

数据分析

数据分析是从数据中提取有用信息的过程。

数据选择与过滤

可以根据条件选择数据。

# 选择年龄大于30的人
filtered_df = df[df['age'] > 30]
print(filtered_df)

数据分组与聚合

Pandas 提供了强大的分组功能。

# 按城市分组并计算平均年龄
grouped = df.groupby('city')['age'].mean()
print(grouped)

数据可视化

结合 Matplotlib 库进行数据可视化。

pip install matplotlib

import matplotlib.pyplot as plt

# 简单的柱状图
df['city'].value_counts().plot(kind='bar')
plt.title('Number of People by City')
plt.xlabel('City')
plt.ylabel('Count')
plt.show()

实战案例：数据清洗与分析

假设我们有一个 CSV 文件 data.csv，内容如下：

name,age,city
Alice,25,New York
Bob,,Los Angeles
Charlie,35,Chicago
David,,New York

数据清洗与分析步骤

读取数据

df = pd.read_csv('data.csv')
print(df)

处理缺失值

df['age'].fillna(df['age'].mean(), inplace=True)

数据分析

# 按城市分组并计算平均年龄
average_age = df.groupby('city')['age'].mean()
print(average_age)

数据可视化

average_age.plot(kind='bar')
plt.title('Average Age by City')
plt.xlabel('City')
plt.ylabel('Average Age')
plt.show()

总结与展望

本文详细介绍了 NumPy 和 Pandas 的基本用法，涵盖了数据清洗与分析的各个方面。通过示例和图表，希望能够帮助你更好地理解和使用这些工具。

进一步学习

深入学习数据可视化工具，如 Seaborn 和 Plotly。
探索数据分析的高级主题，如时间序列分析和机器学习。

希望这篇教程能为你的数据分析之旅提供帮助！

热门推荐

原来我不会呼吸？学唱歌的正确气息练习姿势——气息教学

四柱八字童子

寓意乐观开朗的好听女孩名字

案例速研 | 压片糖果宣称可“生发养发”，商家因构成欺诈被判退一赔三

为什么火锅里的海带都要打结？三个原因让你恍然大悟

医生解答：脖子疼如何用药？三种常见药物及注意事项

股骨头置换术后多久康复

厚铜PCB在新能源汽车中的应用

万历皇帝是个怎样的皇帝？大明王朝的衰弱真的是他造成的吗？

籍贯一般是填写什么

全球麻疹疫情反弹：儿童及成人接种MMR疫苗很重要

时间的本质是什么？是否只是人类大脑产生的幻觉？

孩子打羽毛球练习跳杀的简单介绍

阴阳学说的起源与发展

常见的几种数据库及其介绍、分类、作用和特点

西北工业大学刘峰教授团队：固态相变动力学模型与方法

靴子落地！降准降息雷厉风行持续提振中山楼市信心

股票绿色和红色代表什么(美股红色和绿色是什么)

防盗门却不防盗？除了门芯填充“骗人”，这“9买9不买”也是关键

把小病拖成大病的要警惕，医生告诫：6种小病千万别拖

魔法禁书目录：全角色深度解析与独到见解

专家预测金价走势：短期或有调整，长期仍有上涨动能

两班制工作是什么？优缺点及应用场景全解析

电影细节看不懂？这些博主逐帧分析

高骊山，驴友眼中"苏南第一虐"