资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Pandas中使用pivot_table函数进行高级数据汇总

创作时间:

作者:

@小白创作中心

Pandas中使用pivot_table函数进行高级数据汇总

引用

腾讯

https://new.qq.com/rain/a/20240920A04BPZ00?media_id=&openApp=false&suid=&web_channel=wap

Pandas的pivot_table函数是一个强大的数据分析工具,可以帮助我们快速地对数据进行汇总和重塑。本文将详细介绍pivot_table的用法及其在数据分析中的应用。

1. pivot_table函数简介

pivot_table函数的基本语法如下:

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean',  
                   fill_value=None, margins=False, dropna=True, margins_name='All',  
                   observed=False, sort=True)

主要参数说明:

data: 要进行汇总的DataFrame
values: 需要聚合的列
index: 行索引
columns: 列索引
aggfunc: 聚合函数,默认为mean
fill_value: 填充缺失值
margins: 是否添加汇总行/列
dropna: 是否删除全为NaN的列

2. 基本用法示例

让我们通过一个简单的例子来了解pivot_table的基本用法:

import pandas as pd
import numpy as np

# 创建示例数据
df = pd.DataFrame({
    '日期': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02'],
    '产品': ['A', 'B', 'A', 'B'],
    '销量': [100, 150, 120, 180],
    '价格': [10, 15, 12, 16]
})

# 使用pivot_table
result = pd.pivot_table(df, values='销量', index='日期', columns='产品', aggfunc='sum')
print(result)

输出结果:

产品         A    B
日期               
2023-01-01  100  150
2023-01-02  120  180

在这个例子中,我们以"日期"为行索引,"产品"为列索引,对"销量"进行了汇总。

3. 多个值列和聚合函数

pivot_table允许我们同时对多个列进行汇总,并使用不同的聚合函数:

result = pd.pivot_table(df, values=['销量', '价格'],
                        index='日期',
                        columns='产品',
                        aggfunc={'销量': 'sum', '价格': 'mean'})
print(result)

输出结果:

         价格         销量    
产品         A     B    A    B
日期                      
2023-01-01 10.0  15.0  100  150
2023-01-02 12.0  16.0  120  180

4. 使用多级索引

pivot_table支持多级索引,这在处理复杂数据时非常有用:

df['城市'] = ['北京', '上海', '北京', '上海']
result = pd.pivot_table(df, values='销量',
                        index=['日期', '城市'],
                        columns='产品',
                        aggfunc='sum')
print(result)

输出结果:

产品         A      B
日期         城市         
2023-01-01 上海    NaN  150.0
           北京  100.0    NaN
2023-01-02 上海    NaN  180.0
           北京  120.0    NaN

5. 添加汇总行和列

使用margins参数可以添加汇总行和列:

输出结果:

产品         A      B    All
日期         城市               
2023-01-01 上海    NaN  150.0  150.0
           北京  100.0    NaN  100.0
2023-01-02 上海    NaN  180.0  180.0
           北京  120.0    NaN  120.0
All                 220.0  330.0  550.0

6. 填充缺失值

使用fill_value参数可以填充缺失值:

result = pd.pivot_table(df, values='销量',
                        index=['日期', '城市'],
                        columns='产品',
                        aggfunc='sum',
                        fill_value=0)
print(result)

输出结果:

产品         A    B
日期         城市         
2023-01-01 上海    0  150
           北京  100    0
2023-01-02 上海    0  180
           北京  120    0

7. 高级应用:自定义聚合函数

pivot_table允许我们使用自定义的聚合函数:

def custom_agg(x):
    return x.max() - x.min()

result = pd.pivot_table(df, values=['销量', '价格'],
                        index='日期',
                        columns='产品',
                        aggfunc={'销量': 'sum', '价格': custom_agg})
print(result)

输出结果:

         价格     销量    
产品         A    B    A    B
日期                      
2023-01-01 0.0  0.0  100  150
2023-01-02 0.0  0.0  120  180

8. 结合query进行数据筛选

pivot_table生成的结果是一个DataFrame,我们可以使用query方法进行进一步的数据筛选:

输出结果:

         价格     销量    
产品         A    B    A   B
日期         城市         
2023-01-01 北京  10.0  0.0 100   0
2023-01-02 北京  12.0  0.0 120   0

9. 总结

Pandas的pivot_table函数是一个强大的数据分析工具,它可以帮助我们快速地对数据进行汇总和重塑。通过灵活使用其各种参数,我们可以轻松地创建复杂的数据透视表,从而更好地理解和分析数据。

在实际应用中,pivot_table常用于销售数据分析、财务报表生成、用户行为分析等多个领域。掌握这个函数将大大提高您的数据分析效率。

本文原文来自机器学习算法与Python实战

热门推荐

“精准控温”背后却因温差过大屡被投诉母婴品牌小白熊品质“失控”

家庭影院全攻略：从设备选购到布线布置详解

如何找到正确的工作与生活平衡——创造健康、有益的生活

杏仁酸的功效与作用是什么

债务纠纷中老赖欠钱不还，不接电话不见人怎么办？

多功能家具推荐：20件节省空间又时尚的变形家具

西安五险一金每月最低缴纳多少钱？

团队如何划好龙舟

日本日语翻译的重要性及如何提高翻译质量

香港优才计划是什么？新版政策+12个条件+官网+材料+6个好处+续签

非甾体抗炎药相关性胃病怎么预防

UWB定位技术：高精度无线通信技术的应用与原理解剖

于海斌院士：2025具身智能与智能机器人技术演进、挑战与未来趋势研判

如何通过上颚支架式异步双侧磨牙改善咬合关系：正畸医生的实践经验分享！

2025新目标！中国商飞C919预计年产50架！

孩子怎么提高自驱力(提升自驱力的方法)

卤肉历史与文化溯源

别墅装修设计：中式风格的材料与色彩搭配指南

退休后一定要去的这十座小城，宜居、宜慢游，千万不要错过

《赛博朋克2077》隐藏酒吧进入方法全揭秘

井巷工程中巷道交岔点的设计与尺寸确定详解

黑眼圈的真相：不同类型的黑眼圈需要不同的治疗方法

装修攻略：半包VS全包，哪个更适合你？

补税是否涉及行政处罚？全面解析税务补缴与行政责任的法律关系

现在客厅装什么灯好看？探索现代客厅的灯饰风尚

高效利用业余时间，轻松入门并精进古琴艺术

zywoo和s1mple谁厉害？CS:GO两大巨星实力对比

一文掌握铲墙面积计算方法，实用技巧与公式解析

外贸电商如何找到优质供应商

孕前检查需要做什么项目