资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Pandas DataFrame内存优化技巧：让数据处理更高效

创作时间:

作者:

@小白创作中心

Pandas DataFrame内存优化技巧：让数据处理更高效

引用

CSDN

https://blog.csdn.net/Gefangenes/article/details/137612079

在大数据时代，数据规模的快速增长对内存管理提出了更高的要求。Pandas作为数据分析领域的常用工具，其内存使用效率直接影响到数据处理的性能。本文将通过一个具体案例，展示如何通过优化数据类型来显著降低Pandas DataFrame的内存占用。

准备数据

首先，我们创建一个包含一百万条记录的测试数据集。数据集包含以下字段：

age：整数类型数值
grade：有限个数的字符串
qualified：是否合格
ability：能力评估，浮点类型数值

import pandas as pd
import numpy as np

def fake_data(size):
    df = pd.DataFrame()
    df["age"] = np.random.randint(1, 30, size)
    df["grade"] = np.random.choice(
        ["一年级", "二年级", "三年级", "四年级", "五年级", "六年级"],
        size,
    )
    df["qualified"] = np.random.choice(["合格", "不合格"], size)
    df["ability"] = np.random.uniform(0, 1, size)
    return df

df = fake_data(1_000_000)
df.head()

检测内存占用

查看优化前的内存占用情况：

df.info()

初始内存占用约为26.7MB。

优化内存

接下来，我们将逐步优化DataFrame的内存占用，并测试每一步优化后的效果。

3.1. 优化整型数据

首先优化整型数据（age）的内存占用。从df.info()的结果可以看出，age的类型是int32。对于年龄来说，int8（数值范围：-128~127）就足够了。

df["age"] = df["age"].astype("int8")
df.info()

优化后，内存占用从26.7MB降至23.8MB。

3.2. 优化浮点型数据

接下来优化浮点型数据（ability）。测试数据中ability的值是6位小数，类型是float64。转换成float16可能会改变值，所以这里转换成float32。

df["ability"] = df["ability"].astype("float32")
df.info()

优化后，内存占用进一步从23.8MB降至20.0MB。

3.3. 优化布尔型数据

接下来优化布尔型数据（qualified）。这个值虽然是字符串类型，但是它的值只有两种（合格和不合格），所以可以转换成布尔类型。

df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()

优化后，内存占用进一步从20.0MB降至13.4MB。

3.4. 使用category类型

最后，优化字符串类型的grade字段。这个字段的值只有6个，可以转换为pandas中的category类型。

df["grade"] = df["grade"].astype("category")
df.info()

优化后，内存占用进一步从13.4MB降至6.7MB。

总结

通过上述优化步骤，内存占用从最初的26.7MB降至6.7MB，优化效果显著。这表明，在数据分析过程中，合理选择数据类型对提高内存使用效率至关重要。建议在构造DataFrame时，根据数值的范围和特点，选择合适的类型，避免盲目使用默认类型。

热门推荐

蓝莓成熟度判断与保存指南：从颜色、软硬度到味道全方位解析

一键搞定！手机APP轻松完成营业执照年审全攻略

一键查询车辆年检状态，轻松知晓爱车 “健康” 情况！

如何评估战略规划的成效，并进行适时调整与优化？

范成大：南宋著名诗人与政治家

加速器在现代网络生活中的重要性与多种功能分析

植物界“大熊猫”为何悄然“消失”

南京财经大学“经济学与商学”学科跻身全球前1%，ESI排名再创新高

企业注销后的法律责任由谁承担

如何看懂项目需求

你最喜欢的顏色说明什么性格？颜色的读心术「色彩心理学」

什么是色温：色温是什么意思？详细解释和常见应用场景介绍

高脂肪食物大盘点：种类、影响与健康摄入指南

生酮饮食OR艺考生减肥法营养科：到底哪种有效？

自动驾驶车辆规划与控制的通用架构

橙子的象征意义与内涵（探寻橙子所代表的文化和情感）

2025年生肖财运展望：谁将成为财运之王？