Pandas DataFrame内存优化技巧:让数据处理更高效
创作时间:
作者:
@小白创作中心
Pandas DataFrame内存优化技巧:让数据处理更高效
引用
CSDN
1.
https://blog.csdn.net/Gefangenes/article/details/137612079
在大数据时代,数据规模的快速增长对内存管理提出了更高的要求。Pandas作为数据分析领域的常用工具,其内存使用效率直接影响到数据处理的性能。本文将通过一个具体案例,展示如何通过优化数据类型来显著降低Pandas DataFrame的内存占用。
准备数据
首先,我们创建一个包含一百万条记录的测试数据集。数据集包含以下字段:
- age:整数类型数值
- grade:有限个数的字符串
- qualified:是否合格
- ability:能力评估,浮点类型数值
import pandas as pd
import numpy as np
def fake_data(size):
df = pd.DataFrame()
df["age"] = np.random.randint(1, 30, size)
df["grade"] = np.random.choice(
["一年级", "二年级", "三年级", "四年级", "五年级", "六年级"],
size,
)
df["qualified"] = np.random.choice(["合格", "不合格"], size)
df["ability"] = np.random.uniform(0, 1, size)
return df
df = fake_data(1_000_000)
df.head()
检测内存占用
查看优化前的内存占用情况:
df.info()
初始内存占用约为26.7MB。
优化内存
接下来,我们将逐步优化DataFrame的内存占用,并测试每一步优化后的效果。
3.1. 优化整型数据
首先优化整型数据(age)的内存占用。从df.info()的结果可以看出,age的类型是int32。对于年龄来说,int8(数值范围:-128~127)就足够了。
df["age"] = df["age"].astype("int8")
df.info()
优化后,内存占用从26.7MB降至23.8MB。
3.2. 优化浮点型数据
接下来优化浮点型数据(ability)。测试数据中ability的值是6位小数,类型是float64。转换成float16可能会改变值,所以这里转换成float32。
df["ability"] = df["ability"].astype("float32")
df.info()
优化后,内存占用进一步从23.8MB降至20.0MB。
3.3. 优化布尔型数据
接下来优化布尔型数据(qualified)。这个值虽然是字符串类型,但是它的值只有两种(合格和不合格),所以可以转换成布尔类型。
df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()
优化后,内存占用进一步从20.0MB降至13.4MB。
3.4. 使用category类型
最后,优化字符串类型的grade字段。这个字段的值只有6个,可以转换为pandas中的category类型。
df["grade"] = df["grade"].astype("category")
df.info()
优化后,内存占用进一步从13.4MB降至6.7MB。
总结
通过上述优化步骤,内存占用从最初的26.7MB降至6.7MB,优化效果显著。这表明,在数据分析过程中,合理选择数据类型对提高内存使用效率至关重要。建议在构造DataFrame时,根据数值的范围和特点,选择合适的类型,避免盲目使用默认类型。
热门推荐
蓝莓成熟度判断与保存指南:从颜色、软硬度到味道全方位解析
一键搞定!手机APP轻松完成营业执照年审全攻略
一键查询车辆年检状态,轻松知晓爱车 “健康” 情况!
减脂力量训练有哪些(减脂力量训练方法)
报车险需要哪些资料?
怀孕初期做NT检查需要注意什么?
反流性食管炎吃什么药,首先抗酸很重要
土豆发青还能吃吗
如何评估战略规划的成效,并进行适时调整与优化?
范成大:南宋著名诗人与政治家
加速器在现代网络生活中的重要性与多种功能分析
植物界“大熊猫”为何悄然“消失”
南京财经大学“经济学与商学”学科跻身全球前1%,ESI排名再创新高
企业注销后的法律责任由谁承担
如何看懂项目需求
你最喜欢的顏色说明什么性格?颜色的读心术「色彩心理学」
人参果,真的能让人长寿吗?
精神疾病银行贷款怎么处理
术后患者早期活动指南
辐射、黑体和色温都是什么?
什么是色温:色温是什么意思?详细解释和常见应用场景介绍
高脂肪食物大盘点:种类、影响与健康摄入指南
深入探讨ACG文化的定义与解释
心火旺吃什么食物降火快
科学管理湿疹
家用净水器真的能过滤自来水吗?
生酮饮食OR艺考生减肥法 营养科:到底哪种有效?
自动驾驶车辆规划与控制的通用架构
橙子的象征意义与内涵(探寻橙子所代表的文化和情感)
2025年生肖财运展望:谁将成为财运之王?