大模型的显存占用计算方法
创作时间:
作者:
@小白创作中心
大模型的显存占用计算方法
引用
CSDN
1.
https://blog.csdn.net/RamendeusStudio/article/details/140154864
参数的数量和量化决定了模型的大小,这是使用LLM的一个主要限制。
要使用 LLM,我们必须将模型放入内存中。使用 32 位浮点 (FP32),1 个参数需要 4 字节 RAM。
使用 16 位量化(BFLOAT16 或 FP16),我们可以将其减少到 1 个参数的 2 字节 RAM。
对于 8 位整数 (INT8),我们需要 1 字节的 RAM 用于 1 个参数。
因此,在内存中存储 10 亿 (1B) 个 LLM 参数需要大约 4GB 内存(32 位全精度)、2GB 内存(16 位半精度)和 1GB 内存(8 位精度)。
举例来说,我的 GeForce 2060 显卡有 6 GB 的内存,可以容纳大约 1.5B 参数@32 位,或 3B 参数@16 位,或 6B 参数@8 位。
但是,仅加载 CUDA 内核就会消耗 1-2GB 的内存。因此,实际上,您无法仅使用参数填满整个 GPU 内存。
训练 LLM 需要更多的 GPU RAM,因为优化器状态、梯度和前向激活每个参数都需要额外的内存 [3]。
选择 LLM 时,请查看 GPU 有多少 GB 的内存,然后选择合适的模型。使用 1B 参数 = 2GB@16 位或 1GB@8 位作为经验法则。
本文原文来自CSDN博客
热门推荐
排便有个“最理想”的频率!每天超过1次,心血管病风险就会增加
杜仲怎么吃
脑供血不足能做有氧运动吗?医生这样说
梦见父母死去是什么兆头
KAN网络解读:一种可能替代MLP的新型神经网络架构
易理在投资中的应用有哪些?这种应用存在哪些局限性?
长期熬夜后怎么倒时差(倒时差、倒夜班的睡眠调整实用方法)
海外华文媒体夜游台儿庄古城 探寻大运河文化悠悠古韵
心脏彩超挂什么科?一文详解5个可选科室
拼多多上卖药合法吗?药品销售的法律风险与合规建议
参松养心胶囊和稳心颗粒的区别是什么
劳动能力鉴定网上查询流程及法律依据
清明节扫墓带什么祭品 清明节扫墓的注意事项
汽车底盘损坏应如何处理?处理汽车底盘问题的方法有哪些?
兼职劳动者是否属于劳动关系
这些食物或饮品,真的不宜空腹时食用或饮用吗?
确诊鼻炎需要做什么检查?
咽喉炎患者该对哪些食物忌口?
根据伊本西林的说法,梦中的死亡意味着什么?
克罗恩病患者应多久进行一次肠镜检查?
辣椒素的功效与作用是什么?过量摄入有哪些危害?
遗传和环境对人心理发展有影响吗
如何提高口才和说话技巧
直肠癌术后恢复期能否正常饮食
15种耐阴花卉推荐(打造阴暗角落的绿色空间)
揭秘越王勾践剑的不锈之谜:材质与工艺的奇迹
更年期可以锻炼吗
炎炎夏日,肿瘤患者需要注意什么?
梦见被起诉被抓:解析梦境中的法律隐喻及其现实意义
银行存折存款利率的区域差异分析