Pandas DataFrame内存优化技巧:让数据处理更高效
创作时间:
作者:
@小白创作中心
Pandas DataFrame内存优化技巧:让数据处理更高效
引用
CSDN
1.
https://blog.csdn.net/Gefangenes/article/details/137612079
在大数据时代,数据规模的快速增长对内存管理提出了更高的要求。Pandas作为数据分析领域的常用工具,其内存使用效率直接影响到数据处理的性能。本文将通过一个具体案例,展示如何通过优化数据类型来显著降低Pandas DataFrame的内存占用。
准备数据
首先,我们创建一个包含一百万条记录的测试数据集。数据集包含以下字段:
- age:整数类型数值
- grade:有限个数的字符串
- qualified:是否合格
- ability:能力评估,浮点类型数值
import pandas as pd
import numpy as np
def fake_data(size):
df = pd.DataFrame()
df["age"] = np.random.randint(1, 30, size)
df["grade"] = np.random.choice(
["一年级", "二年级", "三年级", "四年级", "五年级", "六年级"],
size,
)
df["qualified"] = np.random.choice(["合格", "不合格"], size)
df["ability"] = np.random.uniform(0, 1, size)
return df
df = fake_data(1_000_000)
df.head()
检测内存占用
查看优化前的内存占用情况:
df.info()
初始内存占用约为26.7MB。
优化内存
接下来,我们将逐步优化DataFrame的内存占用,并测试每一步优化后的效果。
3.1. 优化整型数据
首先优化整型数据(age)的内存占用。从df.info()的结果可以看出,age的类型是int32。对于年龄来说,int8(数值范围:-128~127)就足够了。
df["age"] = df["age"].astype("int8")
df.info()
优化后,内存占用从26.7MB降至23.8MB。
3.2. 优化浮点型数据
接下来优化浮点型数据(ability)。测试数据中ability的值是6位小数,类型是float64。转换成float16可能会改变值,所以这里转换成float32。
df["ability"] = df["ability"].astype("float32")
df.info()
优化后,内存占用进一步从23.8MB降至20.0MB。
3.3. 优化布尔型数据
接下来优化布尔型数据(qualified)。这个值虽然是字符串类型,但是它的值只有两种(合格和不合格),所以可以转换成布尔类型。
df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()
优化后,内存占用进一步从20.0MB降至13.4MB。
3.4. 使用category类型
最后,优化字符串类型的grade字段。这个字段的值只有6个,可以转换为pandas中的category类型。
df["grade"] = df["grade"].astype("category")
df.info()
优化后,内存占用进一步从13.4MB降至6.7MB。
总结
通过上述优化步骤,内存占用从最初的26.7MB降至6.7MB,优化效果显著。这表明,在数据分析过程中,合理选择数据类型对提高内存使用效率至关重要。建议在构造DataFrame时,根据数值的范围和特点,选择合适的类型,避免盲目使用默认类型。
热门推荐
蒲公英根泡水,养生新宠了解一下?
龙岩市第一医院分院开诊啦!如何快速到达?
创新服务模式,提升就医体验:医院的探索与实践
龙岩市第一医院再获国家自然科学基金项目!
西欧传统童话的文化解读兼论童话对女童的影响
钢琴选购指南:从预算到配置,全方位解析钢琴选购要点
戴尔·卡耐基教你高情商拒绝的艺术
麦肯锡教你:如何高情商地说“不”
职场必备:高情商拒绝的艺术
职场达人必修课:高情商拒绝同事请求的四大绝招
揭秘钱学森的纸飞机绝技:从童年趣事到空气动力学大师
缺什么补什么,增强体质少生病——宝宝喂养食谱
夏季宝宝常见疾病及预防常识
晋州市和平小学首届纸飞机大赛:从基础到高级的折纸艺术
“小小飞行家”火爆:亲子折纸新风尚!
折纸飞机里的空气动力学:从玩具到科学探索
漫评:甩掉“春节戒断” 不负美好春光
麦冬:中药界的养阴圣品
麦冬:冠心病治疗中的传统瑰宝
麦冬泡水喝,护心又养生!
家族办公室管理家族财富、家族企业和家族成员的超级管理工具
瑞士家族办公室,如何为有钱人管理财富?
南宁至巴马一日游:打卡百鸟岩、长寿村和百魔洞!
秋冬避暑胜地:巴马百魔洞探秘
西藏地震中最令人感动的故事:拾荒者胡雷的救援行动
寻亲19年,他在1万多辆网约车上,“寄存”了无数的希望
一面锦旗让50年的寻亲之旅画上了圆满句号
江门市人民医院摆渡车:解决就医停车难题的新尝试
意境深远的14首五言古诗,读完内心五味杂陈,选出你最喜欢的一首
丹参的用法与用量是什么