资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Pandas数据排序完全指南：从基础到实战

创作时间:

作者:

@小白创作中心

Pandas数据排序完全指南：从基础到实战

引用

CSDN

等

来源

https://blog.csdn.net/m0_37637511/article/details/79901071

https://blog.csdn.net/weixin_35757704/article/details/120823888

https://jingyan.baidu.com/article/7908e85c54447fee481ad2a5.html

https://blog.csdn.net/BlueWhale52/article/details/119187311

https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/125075906

https://blog.csdn.net/PoGeN1/article/details/135606869

https://developer.aliyun.com/article/1499576

https://developer.aliyun.com/article/1646272

在数据分析和处理过程中，数据排序是一个非常基础且重要的操作。Pandas作为Python中最常用的数据处理库，提供了强大的排序功能。本文将详细介绍如何使用Pandas实现复杂排序，包括单列排序和多列排序，并通过实战案例帮助读者掌握这些技巧。

基础篇：单列排序

在开始复杂排序之前，我们先复习一下Pandas中单列排序的基本用法。假设我们有一个包含学生分数的DataFrame：

import pandas as pd

# 示例数据
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五'],
    '分数': [85, 92, 78]
})

# 按"分数"列升序排序
df_sorted = df.sort_values(by='分数', ascending=True)

print("排序后：\n", df_sorted)

输出结果：

排序后：
    姓名  分数
2  王五  78
0  张三  85
1  李四  92

在这个例子中，我们使用了sort_values()函数，其中by参数指定了排序的列名，ascending参数控制排序方向（True表示升序，False表示降序）。

进阶篇：多列排序

在实际工作中，我们经常需要根据多个条件进行排序。Pandas的sort_values()函数同样支持多列排序。我们可以通过传递一个列名列表给by参数，并使用ascending参数控制每列的排序方向。

多列排序基础

假设我们有一个包含学生信息的DataFrame，包括姓名、班级和分数：

df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五', '赵六'],
    '班级': ['一班', '一班', '二班', '二班'],
    '分数': [85, 92, 78, 88]
})

# 先按班级排序，再按分数排序
df_sorted = df.sort_values(by=['班级', '分数'], ascending=[True, False])

print("多列排序后：\n", df_sorted)

输出结果：

多列排序后：
    姓名  班级  分数
1  李四  一班  92
0  张三  一班  85
3  赵六  二班  88
2  王五  二班  78

在这个例子中，我们首先按照“班级”列进行升序排序，然后在每个班级内部按照“分数”列进行降序排序。

不同列不同排序方向

有时候，我们需要对不同的列使用不同的排序方向。这可以通过传递一个布尔值列表给ascending参数来实现：

# 先按班级升序排序，再按分数降序排序
df_sorted = df.sort_values(by=['班级', '分数'], ascending=[True, False])

print("不同列不同排序方向：\n", df_sorted)

输出结果与上一个例子相同，因为我们在两个例子中都使用了相同的排序方向。

实战篇：数据预处理中的多列排序

在实际数据预处理中，多列排序经常用于时间序列数据的处理。例如，我们可能需要先按时间排序，再按用户ID排序：

log_data = pd.DataFrame({
    'user_id': [101, 102, 101, 103, 102],
    'date': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03'],
    'action': ['login', 'login', 'logout', 'login', 'logout']
})

# 将日期列转换为datetime类型
log_data['date'] = pd.to_datetime(log_data['date'])

# 先按时间排序，再按用户ID排序
log_data_sorted = log_data.sort_values(by=['date', 'user_id'], ascending=[True, True])

print("数据预处理排序：\n", log_data_sorted)

输出结果：

数据预处理排序：
        user_id       date action
0       101 2023-01-01  login
1       102 2023-01-01  login
2       101 2023-01-02 logout
3       103 2023-01-02  login
4       102 2023-01-03 logout

在这个例子中，我们首先将“date”列转换为datetime类型，然后按照时间升序排序，再按用户ID升序排序。