问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Pandas DataFrame内存优化技巧:让数据处理更高效

创作时间:
作者:
@小白创作中心

Pandas DataFrame内存优化技巧:让数据处理更高效

引用
CSDN
1.
https://blog.csdn.net/Gefangenes/article/details/137612079

在大数据时代,数据规模的快速增长对内存管理提出了更高的要求。Pandas作为数据分析领域的常用工具,其内存使用效率直接影响到数据处理的性能。本文将通过一个具体案例,展示如何通过优化数据类型来显著降低Pandas DataFrame的内存占用。

准备数据

首先,我们创建一个包含一百万条记录的测试数据集。数据集包含以下字段:

  • age:整数类型数值
  • grade:有限个数的字符串
  • qualified:是否合格
  • ability:能力评估,浮点类型数值
import pandas as pd
import numpy as np

def fake_data(size):
    df = pd.DataFrame()
    df["age"] = np.random.randint(1, 30, size)
    df["grade"] = np.random.choice(
        ["一年级", "二年级", "三年级", "四年级", "五年级", "六年级"],
        size,
    )
    df["qualified"] = np.random.choice(["合格", "不合格"], size)
    df["ability"] = np.random.uniform(0, 1, size)
    return df

df = fake_data(1_000_000)
df.head()

检测内存占用

查看优化前的内存占用情况:

df.info()

初始内存占用约为26.7MB。

优化内存

接下来,我们将逐步优化DataFrame的内存占用,并测试每一步优化后的效果。

3.1. 优化整型数据

首先优化整型数据(age)的内存占用。从df.info()的结果可以看出,age的类型是int32。对于年龄来说,int8(数值范围:-128~127)就足够了。

df["age"] = df["age"].astype("int8")
df.info()

优化后,内存占用从26.7MB降至23.8MB。

3.2. 优化浮点型数据

接下来优化浮点型数据(ability)。测试数据中ability的值是6位小数,类型是float64。转换成float16可能会改变值,所以这里转换成float32。

df["ability"] = df["ability"].astype("float32")
df.info()

优化后,内存占用进一步从23.8MB降至20.0MB。

3.3. 优化布尔型数据

接下来优化布尔型数据(qualified)。这个值虽然是字符串类型,但是它的值只有两种(合格和不合格),所以可以转换成布尔类型。

df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()

优化后,内存占用进一步从20.0MB降至13.4MB。

3.4. 使用category类型

最后,优化字符串类型的grade字段。这个字段的值只有6个,可以转换为pandas中的category类型。

df["grade"] = df["grade"].astype("category")
df.info()

优化后,内存占用进一步从13.4MB降至6.7MB。

总结

通过上述优化步骤,内存占用从最初的26.7MB降至6.7MB,优化效果显著。这表明,在数据分析过程中,合理选择数据类型对提高内存使用效率至关重要。建议在构造DataFrame时,根据数值的范围和特点,选择合适的类型,避免盲目使用默认类型。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号