大模型的显存占用计算方法
创作时间:
作者:
@小白创作中心
大模型的显存占用计算方法
引用
CSDN
1.
https://blog.csdn.net/RamendeusStudio/article/details/140154864
参数的数量和量化决定了模型的大小,这是使用LLM的一个主要限制。
要使用 LLM,我们必须将模型放入内存中。使用 32 位浮点 (FP32),1 个参数需要 4 字节 RAM。
使用 16 位量化(BFLOAT16 或 FP16),我们可以将其减少到 1 个参数的 2 字节 RAM。
对于 8 位整数 (INT8),我们需要 1 字节的 RAM 用于 1 个参数。
因此,在内存中存储 10 亿 (1B) 个 LLM 参数需要大约 4GB 内存(32 位全精度)、2GB 内存(16 位半精度)和 1GB 内存(8 位精度)。
举例来说,我的 GeForce 2060 显卡有 6 GB 的内存,可以容纳大约 1.5B 参数@32 位,或 3B 参数@16 位,或 6B 参数@8 位。
但是,仅加载 CUDA 内核就会消耗 1-2GB 的内存。因此,实际上,您无法仅使用参数填满整个 GPU 内存。
训练 LLM 需要更多的 GPU RAM,因为优化器状态、梯度和前向激活每个参数都需要额外的内存 [3]。
选择 LLM 时,请查看 GPU 有多少 GB 的内存,然后选择合适的模型。使用 1B 参数 = 2GB@16 位或 1GB@8 位作为经验法则。
本文原文来自CSDN博客
热门推荐
民法典定金与订金哪个能退,哪个不能退
鱼肝的营养价值
假Pi币崩盘:从500万美元跌至20万美元
钢铁侠漫画:从天才发明家到超级英雄的传奇历程
哪里投诉移民中介?如何有效维护自身权益
黄金在经济中的地位及其对市场趋势的影响
美联储公布会议纪要,相关预测显示2025年全年降息75个基点
信用卡信用记录:理解与解读
2025车辆年检大变革:流程简化、周期放宽、电子化升级
【经典拾遗】36句诗词,36种感悟,最适合发朋友圈!
手机微信聊天记录删除了电脑上还有吗?5步恢复方案,全解析
一使劲小肚子疼?自查步骤与就医指南
科普日常 | 针对脑部疾病的“新宠”-姜黄素纳米颗粒
王者荣耀六大职业盘点:坦克、战士、刺客、法师、射手与辅助详解
探秘故宫龙椅:材质与工艺的奥秘
肾结石与肠胃炎的区别
改善姻缘的方法有哪些
健康科普:世界防治哮喘日
体质虚弱的孩子,如何运动才能增强体质!
脸上过敏了怎么办最快方法缓解
中秋超级月亮拍摄攻略:从机位到参数的全方位指南
F35对F22,F35差距明显?印媒:美国隐身战机作战体系正面临挑战
起诉需要被告什么信息?
外墙保温施工规范标准(外墙保温施工规范以及技术要求)
OLED和QLED屏幕在实际使用中有哪些具体的优势和劣势?
租赁合同解除指南:车辆租赁与房屋租赁的法律要点
重复警情纠纷核查工作:确保公正处理,提升警务效能
产品三维动画风格选择指南
中医教你辨识三种湿热类型:从舌象看湿热
阑尾割掉的人胖不了吗