Pandas DataFrame内存优化技巧:让数据处理更高效
创作时间:
作者:
@小白创作中心
Pandas DataFrame内存优化技巧:让数据处理更高效
引用
CSDN
1.
https://blog.csdn.net/Gefangenes/article/details/137612079
在大数据时代,数据规模的快速增长对内存管理提出了更高的要求。Pandas作为数据分析领域的常用工具,其内存使用效率直接影响到数据处理的性能。本文将通过一个具体案例,展示如何通过优化数据类型来显著降低Pandas DataFrame的内存占用。
准备数据
首先,我们创建一个包含一百万条记录的测试数据集。数据集包含以下字段:
- age:整数类型数值
- grade:有限个数的字符串
- qualified:是否合格
- ability:能力评估,浮点类型数值
import pandas as pd
import numpy as np
def fake_data(size):
df = pd.DataFrame()
df["age"] = np.random.randint(1, 30, size)
df["grade"] = np.random.choice(
["一年级", "二年级", "三年级", "四年级", "五年级", "六年级"],
size,
)
df["qualified"] = np.random.choice(["合格", "不合格"], size)
df["ability"] = np.random.uniform(0, 1, size)
return df
df = fake_data(1_000_000)
df.head()
检测内存占用
查看优化前的内存占用情况:
df.info()
初始内存占用约为26.7MB。
优化内存
接下来,我们将逐步优化DataFrame的内存占用,并测试每一步优化后的效果。
3.1. 优化整型数据
首先优化整型数据(age)的内存占用。从df.info()
的结果可以看出,age的类型是int32。对于年龄来说,int8(数值范围:-128~127)就足够了。
df["age"] = df["age"].astype("int8")
df.info()
优化后,内存占用从26.7MB降至23.8MB。
3.2. 优化浮点型数据
接下来优化浮点型数据(ability)。测试数据中ability的值是6位小数,类型是float64。转换成float16可能会改变值,所以这里转换成float32。
df["ability"] = df["ability"].astype("float32")
df.info()
优化后,内存占用进一步从23.8MB降至20.0MB。
3.3. 优化布尔型数据
接下来优化布尔型数据(qualified)。这个值虽然是字符串类型,但是它的值只有两种(合格和不合格),所以可以转换成布尔类型。
df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()
优化后,内存占用进一步从20.0MB降至13.4MB。
3.4. 使用category类型
最后,优化字符串类型的grade字段。这个字段的值只有6个,可以转换为pandas中的category类型。
df["grade"] = df["grade"].astype("category")
df.info()
优化后,内存占用进一步从13.4MB降至6.7MB。
总结
通过上述优化步骤,内存占用从最初的26.7MB降至6.7MB,优化效果显著。这表明,在数据分析过程中,合理选择数据类型对提高内存使用效率至关重要。建议在构造DataFrame时,根据数值的范围和特点,选择合适的类型,避免盲目使用默认类型。
热门推荐
人体消化系统:消化道与消化腺的协同工作
环境污染的法律规定及处罚标准详解
皮肌炎怎么检查确诊
投标报价策略:如何在低价与高价之间找到平衡
宠物空气净化器的工作原理以及和普通空净有何区别,该如何选择?
大小脸不对称自我矫正方法
【中国公民健康素养66条(2024年版)(31)】足量饮水到底喝多少?
姆巴佩在皇马的窘境与本泽马背锅的对比分析
退烧时应该吃什么?专业医生给出详细饮食指南
大棚小青菜种植技术
高速电子发票怎么开
劳动合同到期公司不续签,员工该如何应对?
强制执行需要申请人提供财产线索
股票持续下跌说明了什么?这种下跌趋势如何判断和应对?
肺癌手术后伤口痛怎么回事
周末租车怎么租?第一次租车,租车平台怎么选?
如何和 GPT 做最有效的沟通
中医教你3个方法,来判断你的体质是阴虚还是阳虚
物业发现违建如何处理
检查糖化血红蛋白有什么作用
床单材质大比拼:优缺点全解析,贴心选择助你安睡整夜
超声波震碎肾结石需要注意哪些
护士排班系统与绩效管理系统怎么实现数据互通?
红霉素眼膏和金霉素眼膏,同样是眼膏,有何区别?可从2方面区分
那些与蛇有关的成语
什么方法祛痘印效果比较好
针灸完腿没劲走路是什么原因
论文的研究方法,你知道几种?
破解人类大脑神经元发育时钟,加速神经系统疾病研究
你快乐吗我很快乐下一句,讨论快乐的定义和获取方式