Pandas DataFrame内存优化技巧:让数据处理更高效
创作时间:
作者:
@小白创作中心
Pandas DataFrame内存优化技巧:让数据处理更高效
引用
CSDN
1.
https://blog.csdn.net/Gefangenes/article/details/137612079
在大数据时代,数据规模的快速增长对内存管理提出了更高的要求。Pandas作为数据分析领域的常用工具,其内存使用效率直接影响到数据处理的性能。本文将通过一个具体案例,展示如何通过优化数据类型来显著降低Pandas DataFrame的内存占用。
准备数据
首先,我们创建一个包含一百万条记录的测试数据集。数据集包含以下字段:
- age:整数类型数值
- grade:有限个数的字符串
- qualified:是否合格
- ability:能力评估,浮点类型数值
import pandas as pd
import numpy as np
def fake_data(size):
df = pd.DataFrame()
df["age"] = np.random.randint(1, 30, size)
df["grade"] = np.random.choice(
["一年级", "二年级", "三年级", "四年级", "五年级", "六年级"],
size,
)
df["qualified"] = np.random.choice(["合格", "不合格"], size)
df["ability"] = np.random.uniform(0, 1, size)
return df
df = fake_data(1_000_000)
df.head()
检测内存占用
查看优化前的内存占用情况:
df.info()
初始内存占用约为26.7MB。
优化内存
接下来,我们将逐步优化DataFrame的内存占用,并测试每一步优化后的效果。
3.1. 优化整型数据
首先优化整型数据(age)的内存占用。从df.info()的结果可以看出,age的类型是int32。对于年龄来说,int8(数值范围:-128~127)就足够了。
df["age"] = df["age"].astype("int8")
df.info()
优化后,内存占用从26.7MB降至23.8MB。
3.2. 优化浮点型数据
接下来优化浮点型数据(ability)。测试数据中ability的值是6位小数,类型是float64。转换成float16可能会改变值,所以这里转换成float32。
df["ability"] = df["ability"].astype("float32")
df.info()
优化后,内存占用进一步从23.8MB降至20.0MB。
3.3. 优化布尔型数据
接下来优化布尔型数据(qualified)。这个值虽然是字符串类型,但是它的值只有两种(合格和不合格),所以可以转换成布尔类型。
df["qualified"] = df["qualified"].map({"合格": True, "不合格": False})
df.info()
优化后,内存占用进一步从20.0MB降至13.4MB。
3.4. 使用category类型
最后,优化字符串类型的grade字段。这个字段的值只有6个,可以转换为pandas中的category类型。
df["grade"] = df["grade"].astype("category")
df.info()
优化后,内存占用进一步从13.4MB降至6.7MB。
总结
通过上述优化步骤,内存占用从最初的26.7MB降至6.7MB,优化效果显著。这表明,在数据分析过程中,合理选择数据类型对提高内存使用效率至关重要。建议在构造DataFrame时,根据数值的范围和特点,选择合适的类型,避免盲目使用默认类型。
热门推荐
银行贷款企业做账的具体步骤和注意事项
秦昭襄王:引领秦国繁荣与强盛
国家社会保险公共服务平台怎么注册账号?
乔治·乔斯达二世:《JOJO的奇妙冒险》中的勇敢飞行员
张居正与于谦:明朝两位名臣的历史贡献与影响
简历计算机能力怎么写
从"打卡"到"入戏":当旅游遇上传统文化
舆情优化策略提升公众信任度的有效路径
工具快捷键设计指南
从这场特展回顾中国动画百年学脉
C语言函数的返回值如何设置
硬件和软件的关系:理解它们在计算机系统中的角色和相互影响
M速的含义是什么?这个含义对经济有哪些影响?
英国人口现状与发展趋势:从最新数据到未来预测
英国有哪些人口数据库
如何有效压缩视频文件以节省存储和传输空间?
复杂动态博弈环境下多智能体协同控制与决策
Fate/Grand Order Passionlip热情迷唇角色实用性深度评测
春分灌溉,滴灌技术让农业种植更省心!
人气较高的肉鸽游戏有哪些 2025最新的肉鸽游戏盘点
走近中药:辛温走窜的桂枝,为什么和龙骨牡蛎配伍?
眼睛出现闪电和闪光感怎么办?可能与这些疾病相关
科学用药解便秘,便秘时该如何合理使用药品
柳叶刀子刊:社会经济地位、社交活动和孤独感对抑郁症的影响
结构化写作的好处:省去排版工作并让文档风格一致
【中药科普】药食两用的甘饴之品——罗汉果
在国外银行开户的完整指南:让你事半功倍的技巧与注意事项
js回调函数如何获取返回值
高压蒸汽灭菌器的最低灭菌要求是什么?确保每次都无菌可靠
限制性股权是什么?详解其概念、特点与运作机制